Detecting offensive language from social media using word embedding and language models

Kelime temsil ve dil modelleri kullanarak sosyal medyadan saldırgan dil algılama

PDF İndir

Tez No: 833283
Yazar: RAGHAD BİRECİKLİ
Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Çukurova Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 133

Özet

Bu araştırma, sosyal medya platformlarında yaygın olarak karşılaşılan saldırgan içerik sorununu İngilizce ve Arapça dillerinde ele almaktadır. Saldırgan dil tespiti için güçlü bir çerçeve oluşturmak amacıyla Base BERT, Mini BERT ve GPT-2 gibi önde gelen dil modelleri ile LSTM(Uzun Kısa Süreli Bellek) ve SVM(Destek Vektör Makinesi) sınıflandırıcıları gibi son teknoloji yöntemleri kullanmaktayız. Buna ek olarak, GloVe ve Word2Vec gibi kelime temsil tekniklerini kullanarak kelimeler arasındaki karmaşık anlamsal ilişkileri dikkate almaktayız. Bu araştırmanın temel amacı, saldırgan dil tespiti mekanizmalarını güçlendirmek ve özellikle çocuklar ve gençler gibi savunmasız kullanıcı grupları için daha güvenli bir çevrimiçi ortam oluşturmaktır. Arapça dilinde saldırgan dil tespiti için sınırlı kaynakların bulunması nedeniyle, bu araştırma bu boşluğu doldurmak amacıyla yapılmıştır. Farklı Arapça lehçelerini içeren kapsamlı bir veri kümesi sunarak, alana önemli bir katkıda bulunmaktayız.Titiz bir değerlendirme ile yukarıda bahsedilen yöntemler arasındaki sinerjiyi optimize ederek saldırgan içeriklerin hassas sınıflandırmasını başarmış bulunmaktayız. Özetle, bu araştırma daha güvenli bir dijital toplum oluşturmayı hedeflemektedir ve saldırgan dilin İngilizce ve Arapça sosyal medya ortamlarındaki dinamiklerini daha iyi anlamamıza katkı sağlamaktadır. Özellikle İngilizce dilinde HateBERT modeli ve SVM sınıflandırıcısı ile birlikte Base BERT kullanılarak elde edilen en yüksek doğruluk oranı %93,29'dur ve bunun için 0,4 atma oranı kullanılmıştır. Arapça dilinde ise en yüksek doğruluk oranları, AraBERT Tweet kullanılarak, kısaltılmış veri kümesi ile %89,35 ve tüm veri kümesi kullanıldığında ise %92,86 olarak elde edilmiştir. Bu başarılar, etkili saldırgan dil tespiti konusundaki çabalarımızda önemli kilometre taşlarını temsil etmektedir.

Özet (Çeviri)

This research addresses the pressing challenges posed by the proliferation of abusive content on social media platforms, tackling this issue in both English and Arabic languages. To construct a robust framework for detecting offensive language, we have employed cutting-edge methodologies. These include leveraging prominent language models such as Base BERT, Mini BERT, and GPT-2, as well as utilizing LSTM (Long Term Memory) models and an SVM (Support Vector Machine) classifier. Additionally, we have harnessed word embedding techniques like GloVe and Word2Vec to capture the intricate semantic relationships among words. The primary objective of this research is to fortify the detection mechanisms for offensive language, thereby nurturing a safer online environment, especially for vulnerable user groups like children and adolescents. Despite the relatively limited availability of Arabic resources for identifying offensive language, our research bridges this gap. It makes a substantial contribution to the field by presenting an extensive dataset encompassing various Arabic dialects. Through meticulous evaluation, we have optimized the synergy among the aforementioned methods to achieve precise classification of offensive content. In summary, this research aspires to cultivate a safer digital society and deepen our comprehension of the dynamics of offensive language within both Arabic and English social media spheres. Notably, in the English language, our best accuracy of 93.29% was achieved with the HateBERT model and Base BERT in tandem with an SVM classifier, employing a dropout rate of 0.4. For Arabic language, the highest accuracies were attained with the truncated dataset, achieving an accuracy of 89.35% when utilizing AraBERT Tweet, and with the entire dataset using AraBERT Tweet, reaching an accuracy of 92.86%. These achievements mark significant milestones in our pursuit of effective offensive language detection.

Benzer Tezler

Tez No
759307
Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi
Detecting offensive content by performing senti̇ment analysis in turkish texts
ŞEYMA ŞAHİNER YILMAZ
Yüksek Lisans
Türkçe
2022
Bilim ve Teknoloji Gazi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HADİ GÖKÇEN
DR. ÖĞR. ÜYESİ İLYAS ÖZER
Tez No
846810
Türkçe hakaret ve nefret söylemi tespiti
Offensive language and hate speech detection in Turkish
MEHMET SALİH KURT
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EYLEM YÜCEL DEMİREL
Tez No
957520
Transformer tabanlı modellerle Türkçe tweetlerdeki argo dilin tespiti
Detection of offensive language in Turkish tweets using transformer based models
ZEYNEP ŞEBNEM ÜZMEZ
Yüksek Lisans
Türkçe
2025
Mühendislik Bilimleri Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SİNEM AKYOL
Tez No
893022
Türkçe tweet metinlerinde saldırgan dil tespiti
Offensive language detection in Turkish tweet texts
AYŞE NİDA ACAR
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEVİNÇ İLHAN OMURCA
Tez No
800811
Sosyal medya platformlarında yapay zeka ve makine öğrenim tekniklerini kullanarak, doğal dil işleme ile hakaret içeren cümle tespiti ve duygu analizinin ölçülmesi
Using artificial i̇ntelligence and machine learning techniques on social media platforms, natural language processing and detection of i̇nsulting sentences and measuring sentiment analysis
CAN BERK ÇELİK
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Nişantaşı Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ŞAHİN

Geri Dön