Geri Dön

Detecting offensive language from social media using word embedding and language models

Kelime temsil ve dil modelleri kullanarak sosyal medyadan saldırgan dil algılama

  1. Tez No: 833283
  2. Yazar: RAGHAD BİRECİKLİ
  3. Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 133

Özet

Bu araştırma, sosyal medya platformlarında yaygın olarak karşılaşılan saldırgan içerik sorununu İngilizce ve Arapça dillerinde ele almaktadır. Saldırgan dil tespiti için güçlü bir çerçeve oluşturmak amacıyla Base BERT, Mini BERT ve GPT-2 gibi önde gelen dil modelleri ile LSTM(Uzun Kısa Süreli Bellek) ve SVM(Destek Vektör Makinesi) sınıflandırıcıları gibi son teknoloji yöntemleri kullanmaktayız. Buna ek olarak, GloVe ve Word2Vec gibi kelime temsil tekniklerini kullanarak kelimeler arasındaki karmaşık anlamsal ilişkileri dikkate almaktayız. Bu araştırmanın temel amacı, saldırgan dil tespiti mekanizmalarını güçlendirmek ve özellikle çocuklar ve gençler gibi savunmasız kullanıcı grupları için daha güvenli bir çevrimiçi ortam oluşturmaktır. Arapça dilinde saldırgan dil tespiti için sınırlı kaynakların bulunması nedeniyle, bu araştırma bu boşluğu doldurmak amacıyla yapılmıştır. Farklı Arapça lehçelerini içeren kapsamlı bir veri kümesi sunarak, alana önemli bir katkıda bulunmaktayız.Titiz bir değerlendirme ile yukarıda bahsedilen yöntemler arasındaki sinerjiyi optimize ederek saldırgan içeriklerin hassas sınıflandırmasını başarmış bulunmaktayız. Özetle, bu araştırma daha güvenli bir dijital toplum oluşturmayı hedeflemektedir ve saldırgan dilin İngilizce ve Arapça sosyal medya ortamlarındaki dinamiklerini daha iyi anlamamıza katkı sağlamaktadır. Özellikle İngilizce dilinde HateBERT modeli ve SVM sınıflandırıcısı ile birlikte Base BERT kullanılarak elde edilen en yüksek doğruluk oranı %93,29'dur ve bunun için 0,4 atma oranı kullanılmıştır. Arapça dilinde ise en yüksek doğruluk oranları, AraBERT Tweet kullanılarak, kısaltılmış veri kümesi ile %89,35 ve tüm veri kümesi kullanıldığında ise %92,86 olarak elde edilmiştir. Bu başarılar, etkili saldırgan dil tespiti konusundaki çabalarımızda önemli kilometre taşlarını temsil etmektedir.

Özet (Çeviri)

This research addresses the pressing challenges posed by the proliferation of abusive content on social media platforms, tackling this issue in both English and Arabic languages. To construct a robust framework for detecting offensive language, we have employed cutting-edge methodologies. These include leveraging prominent language models such as Base BERT, Mini BERT, and GPT-2, as well as utilizing LSTM (Long Term Memory) models and an SVM (Support Vector Machine) classifier. Additionally, we have harnessed word embedding techniques like GloVe and Word2Vec to capture the intricate semantic relationships among words. The primary objective of this research is to fortify the detection mechanisms for offensive language, thereby nurturing a safer online environment, especially for vulnerable user groups like children and adolescents. Despite the relatively limited availability of Arabic resources for identifying offensive language, our research bridges this gap. It makes a substantial contribution to the field by presenting an extensive dataset encompassing various Arabic dialects. Through meticulous evaluation, we have optimized the synergy among the aforementioned methods to achieve precise classification of offensive content. In summary, this research aspires to cultivate a safer digital society and deepen our comprehension of the dynamics of offensive language within both Arabic and English social media spheres. Notably, in the English language, our best accuracy of 93.29% was achieved with the HateBERT model and Base BERT in tandem with an SVM classifier, employing a dropout rate of 0.4. For Arabic language, the highest accuracies were attained with the truncated dataset, achieving an accuracy of 89.35% when utilizing AraBERT Tweet, and with the entire dataset using AraBERT Tweet, reaching an accuracy of 92.86%. These achievements mark significant milestones in our pursuit of effective offensive language detection.

Benzer Tezler

  1. Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi

    Detecting offensive content by performing senti̇ment analysis in turkish texts

    ŞEYMA ŞAHİNER YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilim ve TeknolojiGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HADİ GÖKÇEN

    DR. ÖĞR. ÜYESİ İLYAS ÖZER

  2. Türkçe hakaret ve nefret söylemi tespiti

    Offensive language and hate speech detection in Turkish

    MEHMET SALİH KURT

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EYLEM YÜCEL DEMİREL

  3. Türkçe tweet metinlerinde saldırgan dil tespiti

    Offensive language detection in Turkish tweet texts

    AYŞE NİDA ACAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SEVİNÇ İLHAN OMURCA

  4. Sosyal medya platformlarında yapay zeka ve makine öğrenim tekniklerini kullanarak, doğal dil işleme ile hakaret içeren cümle tespiti ve duygu analizinin ölçülmesi

    Using artificial i̇ntelligence and machine learning techniques on social media platforms, natural language processing and detection of i̇nsulting sentences and measuring sentiment analysis

    CAN BERK ÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNişantaşı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATİH ŞAHİN

  5. Sentiment analysis on twitter :Sexist tweets with isolation forest

    Twitter'da duygu analizi :İzolasyon ormanlı cinsiyetçi tweetler

    ENİSE İREM ÇOLAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DOÇ. DR. YÜCEL BATU SALMAN