Offensive language detection in Turkish language by using NLP
NLP kullanarak Türk dilinde saldırgan dil tespiti
- Tez No: 810623
- Danışmanlar: DR. ÖĞR. ÜYESİ RÜŞTÜ MURAT DEMİRER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Türk Dili ve Edebiyatı, Computer Engineering and Computer Science and Control, Turkish Language and Literature
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 63
Özet
Sosyal medyanın yaygın kullanımı, siber nefretin, çevrimiçi tacizin ve saldırgan dilin artmasına neden olmuştur. Bu durum, bu tür sorunları etkili bir şekilde tespit etme ve ele alma konusunda önemli zorluklar ortaya çıkarmaktadır. Doğal Dil İşleme (DNI) önemli ilerlemeler kaydetmiştir; ancak saldırgan dilin otomatik olarak tanımlanması, kullanıcı tarafından oluşturulan içeriğin belirsiz ve resmi doğası ve meydana geldiği sosyal bağlam nedeniyle karmaşık bir görevdir. Bu tezde, sosyal medyada otomatik saldırgan dil tespiti için yöntemler geliştirme amacı güdülmektedir. Gauss Naif Bayes, Çoklu Naif Bayes, Lojistik Regresyon, SVM ve LSTM gibi çoklu sınıflandırma algoritmaları uygulanıp değerlendirilir. Bu algoritmaların performansı doğruluk, F1 skoru ve AUC skoru gibi temel ölçütlere göre ölçülmektedir. Sonuçlar, Random Forest Sınıflandırıcısının word2vec kullanılmadan %0.82 doğruluk ve %0.65 AUC skoru elde ettiğini göstermektedir. Öte yandan, LSTM, Random Forest Sınıflandırıcısıyla karşılaştırıldığında rekabetçi bir %0.78 AUC skoru göstermektedir. Bu bulgular, saldırgan dil tespiti için farklı algoritmaların etkinliği konusunda bilgi sağlamaktadır. Araştırma, Türkçe dil işleme yeteneklerini geliştirmek ve özellikle siber zorbalıkla mücadele etmek ve hoşgörülü bir çevrimiçi ortam oluşturmak için değerli araçlar ve bilgiler sunarak alana katkıda bulunmaktadır. Bulgular ayrıca doğal dil işleme alanında gelecekteki araştırma çabalarının yolunu açmakta ve bireyleri koruma ve güvenli bir çevrimiçi alanı teşvik etme konusunda pratik sonuçlar sağlamaktadır.
Özet (Çeviri)
The growing use of social media has increased online harassment, cyberhate, and the use of offensive language. This poses significant challenges for effectively detecting and addressing such issues. Natural Language Processing (NLP) has seen considerable advancements; however, automatically identifying offensive language remains a complex task due to the ambiguous and informal nature of user-generated content and the social context in which it occurs. In this thesis, our goal is to develop methods for automatic detection of offensive language in social media. Multiple classification algorithms, including Multinomial Naive Bayes, Gaussian Naive Bayes, SVM, Logistic Regression, and LSTM, are implemented and evaluated. Key measures including accuracy, F1 score, and AUC score are used to evaluate how well these algorithms work. Results show that the Random Forest Classifier obtains an AUC score of 0.65 and an accuracy of 0.82 without word2vec. On the other hand, LSTM demonstrates a competitive AUC score of 0.78 when compared to the Random Forest Classifier. These findings provide insights into the effectiveness of different algorithms for offensive language detection. The research contributes to the field by providing valuable tools and insights to enhance Turkish language processing and prioritize online safety, particularly in combating cyberbullying and fostering a tolerant online environment. The findings also pave the way for future research endeavors in natural language processing and have practical implications for protecting individuals and promoting a secure online space.
Benzer Tezler
- Detecting multilingual offensive language in social media using deep neural networks
Derin sinir ağlarını kullanarak sosyal medyada çokludilli saldırgan dil tespit etme
MAHMUD BİRECİKLİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL
- Türkçe tweet metinlerinde saldırgan dil tespiti
Offensive language detection in Turkish tweet texts
AYŞE NİDA ACAR
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEVİNÇ İLHAN OMURCA
- Türkçe hakaret ve nefret söylemi tespiti
Offensive language and hate speech detection in Turkish
MEHMET SALİH KURT
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EYLEM YÜCEL DEMİREL
- Detecting offensive language from social media using word embedding and language models
Kelime temsil ve dil modelleri kullanarak sosyal medyadan saldırgan dil algılama
RAGHAD BİRECİKLİ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL
- Sosyal medya platformlarında yapay zeka ve makine öğrenim tekniklerini kullanarak, doğal dil işleme ile hakaret içeren cümle tespiti ve duygu analizinin ölçülmesi
Using artificial i̇ntelligence and machine learning techniques on social media platforms, natural language processing and detection of i̇nsulting sentences and measuring sentiment analysis
CAN BERK ÇELİK
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNişantaşı ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ŞAHİN