Detecting multilingual offensive language in social media using deep neural networks

Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme

PDF İndir

Tez No: 833282
Yazar: MAHMUD BİRECİKLİ
Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Çukurova Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 115

Özet

Sosyal medya platformlarında hakaret içeren dilin yayılması, bugün toplumda endişe verici bir gerçek haline gelmiştir. Bu tür dilin insanları aşağılamak ve saldırmak amacıyla kullanılması, çevrimiçi davranış biçimlerinin en zararlı formlarından birini temsil eder. Olumsuz sonuçları, farklı iletişim platformlarındaki kullanıcıları etkileyerek psikolojik ve zihinsel iyi oluşlarını ciddi şekilde etkiler. Bu dijital soruna karşı, veri bilimcileri ve doğal dil işleme araştırmacıları bir çözüm bulma görevini üstlenmişlerdir. Makine öğrenimi ve derin öğrenme tekniklerini kullanarak metin bağlamlarında çeşitli saldırgan dil türlerini tanımlamayı amaçlayan çeşitli sınıflandırıcı modeller geliştirmişlerdir. Bu modeller, metni ya saldırgan dil içeren kısmı çıkararak ya da internet üzerinde yayınlanmasını engelleyerek çalışır. Bu çalışma, çok sayıda Arapça metin toplayarak ve bunları etiketleyerek elde edilen veri kümesi üzerinde derin öğrenme yöntemlerinin performansını değerlendirmeyi amaçlamaktadır. Özellikle Evrişimsel Sinir Ağı (CNN), Tekrarlayan Sinir Ağı (RNN) ve Uzun Kısa Süreli Hafıza (LSTM) adlı sınıflandırıcı modelleri ile RoBERTa adlı bir Dil Modeli hazırladığımız Arapça veri kümesi üzerinde eğitilecek ve değerlendirilecek, ayrıca İngilizce ve Türkçe dillerinde bazı ek veri kümeleri üzerinde de test edilecektir. Bu değerlendirme, farklı ön işleme yöntemlerinin metinler üzerindeki etkisini, özellik seçiminin, derin sinir ağlarının ve dönüştürücülerin etkinliğini göstermeyi amaçlamaktadır. Bu tez çalışmasının sonuçları, RoBERTa'nın çeşitli diller için güçlü bir aday olduğunu göstermektedir; çoğu veri kümesinde en yüksek doğrulama başarısını elde etmiş ve çeşitli diller ve görevler için etkinliğini sergilemiştir. Ayrıca, RoBERTa ve CNN'yi birleştiren bir sınıflandırıcı tanıtılmış ve test edilerek sınıflandırma performansını iyileştirdiği gözlenmiştir.

Özet (Çeviri)

The spread of offensive language on social media platforms has become an alarming reality in society today. The utilization of such language for the purpose of insulting and attacking people represents one of the most detrimental forms of online behavior. Its negative consequences extend to users across different communication platforms, significantly impacting their psychological and mental well-being. To combat this digital malady, data scientists and NLP researchers have taken the task of finding a solution. They have developed several classifier models employing machine learning and deep learning techniques, aimed at identifying several forms of offensive language within textual contexts. These models are designed to process the text by either removing offensive language or preventing its publication on the internet. This study seeks to address the issue by evaluating the performance of deep learning methods on a collected dataset that is formed by collecting a numerous amount of Arabic texts and labeling them. Additionally, comparison of the performance of different deep neural network classifiers namely, Convolutional Neural Network (CNN), Reccurrent Neural Network (RNN), and Long Short-Term Memory (LSTM), and a Language Model namely RoBERTa, performed on the Arabic dataset, as well as some additional datasets in English and Turkish languages, aiming to show the effects of different preprocessing on texts, feature selection and effectiveness of deep neural networks and Transformers across different linguistic texts. The results of this study suggest that RoBERTa is a strong candidate for various language, it achieved the highest validation accuracy across most datasets, showcasing its effectiveness for various languages and tasks. Additionally, an ensemble classifier combining RoBERTa and CNN is introduced and tested, demonstrating good results in improving classification performance.

Benzer Tezler

Tez No
846810
Türkçe hakaret ve nefret söylemi tespiti
Offensive language and hate speech detection in Turkish
MEHMET SALİH KURT
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EYLEM YÜCEL DEMİREL
Tez No
506490
A social media big data mining framework for detecting sentiments in multiple languages
Çok dilde duygu tespiti için bir sosyal medya büyük veri madenciliği çerçevesi
MUSTAFA COŞKUN
Doktora
İngilizce
2018
İşletme Boğaziçi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. MELTEM SEBA ÖZTURAN
Tez No
785766
Platformlar arası kod klon tespiti
Başlık çevirisi yok
TAYFUN TUNÇ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AKHAN AKBULUT
Tez No
911586
Word embeddings for cyberbullying detection
Zorbalık tespiti için kelime gömmeleri
AZHI ABDALMOHAMMED FARAJ FARAJ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEMİH UTKU
Tez No
684648
Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ

Geri Dön