Detecting multilingual offensive language in social media using deep neural networks
Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme
- Tez No: 833282
- Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 115
Özet
Sosyal medya platformlarında hakaret içeren dilin yayılması, bugün toplumda endişe verici bir gerçek haline gelmiştir. Bu tür dilin insanları aşağılamak ve saldırmak amacıyla kullanılması, çevrimiçi davranış biçimlerinin en zararlı formlarından birini temsil eder. Olumsuz sonuçları, farklı iletişim platformlarındaki kullanıcıları etkileyerek psikolojik ve zihinsel iyi oluşlarını ciddi şekilde etkiler. Bu dijital soruna karşı, veri bilimcileri ve doğal dil işleme araştırmacıları bir çözüm bulma görevini üstlenmişlerdir. Makine öğrenimi ve derin öğrenme tekniklerini kullanarak metin bağlamlarında çeşitli saldırgan dil türlerini tanımlamayı amaçlayan çeşitli sınıflandırıcı modeller geliştirmişlerdir. Bu modeller, metni ya saldırgan dil içeren kısmı çıkararak ya da internet üzerinde yayınlanmasını engelleyerek çalışır. Bu çalışma, çok sayıda Arapça metin toplayarak ve bunları etiketleyerek elde edilen veri kümesi üzerinde derin öğrenme yöntemlerinin performansını değerlendirmeyi amaçlamaktadır. Özellikle Evrişimsel Sinir Ağı (CNN), Tekrarlayan Sinir Ağı (RNN) ve Uzun Kısa Süreli Hafıza (LSTM) adlı sınıflandırıcı modelleri ile RoBERTa adlı bir Dil Modeli hazırladığımız Arapça veri kümesi üzerinde eğitilecek ve değerlendirilecek, ayrıca İngilizce ve Türkçe dillerinde bazı ek veri kümeleri üzerinde de test edilecektir. Bu değerlendirme, farklı ön işleme yöntemlerinin metinler üzerindeki etkisini, özellik seçiminin, derin sinir ağlarının ve dönüştürücülerin etkinliğini göstermeyi amaçlamaktadır. Bu tez çalışmasının sonuçları, RoBERTa'nın çeşitli diller için güçlü bir aday olduğunu göstermektedir; çoğu veri kümesinde en yüksek doğrulama başarısını elde etmiş ve çeşitli diller ve görevler için etkinliğini sergilemiştir. Ayrıca, RoBERTa ve CNN'yi birleştiren bir sınıflandırıcı tanıtılmış ve test edilerek sınıflandırma performansını iyileştirdiği gözlenmiştir.
Özet (Çeviri)
The spread of offensive language on social media platforms has become an alarming reality in society today. The utilization of such language for the purpose of insulting and attacking people represents one of the most detrimental forms of online behavior. Its negative consequences extend to users across different communication platforms, significantly impacting their psychological and mental well-being. To combat this digital malady, data scientists and NLP researchers have taken the task of finding a solution. They have developed several classifier models employing machine learning and deep learning techniques, aimed at identifying several forms of offensive language within textual contexts. These models are designed to process the text by either removing offensive language or preventing its publication on the internet. This study seeks to address the issue by evaluating the performance of deep learning methods on a collected dataset that is formed by collecting a numerous amount of Arabic texts and labeling them. Additionally, comparison of the performance of different deep neural network classifiers namely, Convolutional Neural Network (CNN), Reccurrent Neural Network (RNN), and Long Short-Term Memory (LSTM), and a Language Model namely RoBERTa, performed on the Arabic dataset, as well as some additional datasets in English and Turkish languages, aiming to show the effects of different preprocessing on texts, feature selection and effectiveness of deep neural networks and Transformers across different linguistic texts. The results of this study suggest that RoBERTa is a strong candidate for various language, it achieved the highest validation accuracy across most datasets, showcasing its effectiveness for various languages and tasks. Additionally, an ensemble classifier combining RoBERTa and CNN is introduced and tested, demonstrating good results in improving classification performance.
Benzer Tezler
- Türkçe hakaret ve nefret söylemi tespiti
Offensive language and hate speech detection in Turkish
MEHMET SALİH KURT
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EYLEM YÜCEL DEMİREL
- A social media big data mining framework for detecting sentiments in multiple languages
Çok dilde duygu tespiti için bir sosyal medya büyük veri madenciliği çerçevesi
MUSTAFA COŞKUN
Doktora
İngilizce
2018
İşletmeBoğaziçi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. MELTEM SEBA ÖZTURAN
- Platformlar arası kod klon tespiti
Başlık çevirisi yok
TAYFUN TUNÇ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AKHAN AKBULUT
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- İstanbul Üniversitesi öğrencilerinin yabancı dil öğretimine bakışları: Sorunlar ve beklentiler
İstanbul University students' views on foreign language teaching: Problems and expectations
ZEHRA ECE KAYRAK
Yüksek Lisans
Türkçe
2010
Eğitim ve Öğretimİstanbul ÜniversitesiEğitim Bilimleri Bölümü
PROF. DR. TÜLİN POLAT