Geri Dön

Detecting multilingual offensive language in social media using deep neural networks

Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme

  1. Tez No: 833282
  2. Yazar: MAHMUD BİRECİKLİ
  3. Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Sosyal medya platformlarında hakaret içeren dilin yayılması, bugün toplumda endişe verici bir gerçek haline gelmiştir. Bu tür dilin insanları aşağılamak ve saldırmak amacıyla kullanılması, çevrimiçi davranış biçimlerinin en zararlı formlarından birini temsil eder. Olumsuz sonuçları, farklı iletişim platformlarındaki kullanıcıları etkileyerek psikolojik ve zihinsel iyi oluşlarını ciddi şekilde etkiler. Bu dijital soruna karşı, veri bilimcileri ve doğal dil işleme araştırmacıları bir çözüm bulma görevini üstlenmişlerdir. Makine öğrenimi ve derin öğrenme tekniklerini kullanarak metin bağlamlarında çeşitli saldırgan dil türlerini tanımlamayı amaçlayan çeşitli sınıflandırıcı modeller geliştirmişlerdir. Bu modeller, metni ya saldırgan dil içeren kısmı çıkararak ya da internet üzerinde yayınlanmasını engelleyerek çalışır. Bu çalışma, çok sayıda Arapça metin toplayarak ve bunları etiketleyerek elde edilen veri kümesi üzerinde derin öğrenme yöntemlerinin performansını değerlendirmeyi amaçlamaktadır. Özellikle Evrişimsel Sinir Ağı (CNN), Tekrarlayan Sinir Ağı (RNN) ve Uzun Kısa Süreli Hafıza (LSTM) adlı sınıflandırıcı modelleri ile RoBERTa adlı bir Dil Modeli hazırladığımız Arapça veri kümesi üzerinde eğitilecek ve değerlendirilecek, ayrıca İngilizce ve Türkçe dillerinde bazı ek veri kümeleri üzerinde de test edilecektir. Bu değerlendirme, farklı ön işleme yöntemlerinin metinler üzerindeki etkisini, özellik seçiminin, derin sinir ağlarının ve dönüştürücülerin etkinliğini göstermeyi amaçlamaktadır. Bu tez çalışmasının sonuçları, RoBERTa'nın çeşitli diller için güçlü bir aday olduğunu göstermektedir; çoğu veri kümesinde en yüksek doğrulama başarısını elde etmiş ve çeşitli diller ve görevler için etkinliğini sergilemiştir. Ayrıca, RoBERTa ve CNN'yi birleştiren bir sınıflandırıcı tanıtılmış ve test edilerek sınıflandırma performansını iyileştirdiği gözlenmiştir.

Özet (Çeviri)

The spread of offensive language on social media platforms has become an alarming reality in society today. The utilization of such language for the purpose of insulting and attacking people represents one of the most detrimental forms of online behavior. Its negative consequences extend to users across different communication platforms, significantly impacting their psychological and mental well-being. To combat this digital malady, data scientists and NLP researchers have taken the task of finding a solution. They have developed several classifier models employing machine learning and deep learning techniques, aimed at identifying several forms of offensive language within textual contexts. These models are designed to process the text by either removing offensive language or preventing its publication on the internet. This study seeks to address the issue by evaluating the performance of deep learning methods on a collected dataset that is formed by collecting a numerous amount of Arabic texts and labeling them. Additionally, comparison of the performance of different deep neural network classifiers namely, Convolutional Neural Network (CNN), Reccurrent Neural Network (RNN), and Long Short-Term Memory (LSTM), and a Language Model namely RoBERTa, performed on the Arabic dataset, as well as some additional datasets in English and Turkish languages, aiming to show the effects of different preprocessing on texts, feature selection and effectiveness of deep neural networks and Transformers across different linguistic texts. The results of this study suggest that RoBERTa is a strong candidate for various language, it achieved the highest validation accuracy across most datasets, showcasing its effectiveness for various languages and tasks. Additionally, an ensemble classifier combining RoBERTa and CNN is introduced and tested, demonstrating good results in improving classification performance.

Benzer Tezler

  1. Türkçe hakaret ve nefret söylemi tespiti

    Offensive language and hate speech detection in Turkish

    MEHMET SALİH KURT

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EYLEM YÜCEL DEMİREL

  2. A social media big data mining framework for detecting sentiments in multiple languages

    Çok dilde duygu tespiti için bir sosyal medya büyük veri madenciliği çerçevesi

    MUSTAFA COŞKUN

    Doktora

    İngilizce

    İngilizce

    2018

    İşletmeBoğaziçi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. MELTEM SEBA ÖZTURAN

  3. Platformlar arası kod klon tespiti

    Başlık çevirisi yok

    TAYFUN TUNÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AKHAN AKBULUT

  4. Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi

    Başlık çevirisi yok

    AYŞENUR GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. İstanbul Üniversitesi öğrencilerinin yabancı dil öğretimine bakışları: Sorunlar ve beklentiler

    İstanbul University students' views on foreign language teaching: Problems and expectations

    ZEHRA ECE KAYRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve Öğretimİstanbul Üniversitesi

    Eğitim Bilimleri Bölümü

    PROF. DR. TÜLİN POLAT