Sosyal medyada türkçe nefret söylemlerinin ve Covid-19 yorumlarının makine öğrenmesi, derin öğrenme ve bert teknikleri ile analizi
Analysis of turkish hateful discourses and Covid-19 comments in social media with machine learning, deep learning and bert techniques
- Tez No: 748200
- Danışmanlar: PROF. DR. ALİ AKDAĞLI, DOÇ. DR. ÇİĞDEM ACI
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Mersin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 119
Özet
Instagram, her kullanıcının bir profilinin olduğu, takipçilerin görüntüleme, beğeni ve yorum yapması için fotoğraf ya da videolar yükleyebildiği ücretsiz bir paylaşım platformudur. Paylaşılan görsellere yönelik küfürlü veya homofobik yorumlar içeren nefret söylemleri küçük düşürücü ve incitici olabilmektedir. Bu tür iletişime maruz kalan kişilerde ciddi psikolojik travmalar meydana gelebilmektedir. Sosyal medya içeriğini incelemek, nefret söylemleri türlerini ayırt etmek için dil modellerine dayalı sınıflandırma sistemlerin geliştirilmesi önemlidir. İngilizce dışındaki dillerde nefret yorumları algılama filtresi geliştirmek daha zor ve zaman alıcıdır. Bu tez çalışmasında, Türkçe diline yönelik küfürlü ve homofobik söylemleri tespit edebilen yapay zekâ algoritmaları geliştirilmiştir. Bu kapsamda, sırasıyla, Küfürlü Türkçe Yorumlar (Abusive Turkish Comments - ATC) ve Homofobik Küfürlü Türkçe Yorumlar (Homofobik Abusive Turkish Comments - HATC) şeklinde isimlendirilen Türkçe küfür ve homofobi içeren veri kümeleri elde edilmiştir. Yorumlar Türkçe dil kurallarına uygun olarak düzeltilmiş, nefret türlerine göre etiketlenmiş ve eksik yorumlar silinmiştir. Veri kümeleri yorumların dağılımına göre dengelenerek verilerin sınıflandırma başarımları hem orijinal hem de dengelenmiş sürümleri ile elde edilmiştir. Küfürlü söylemlerin sınıflandırma sonuçları baz alındığında Derin Öğrenme (Deep Learning – DL) modellerinden Konvolüsyonel Sinir Ağı (Convolutional Neural Network - CNN) modeli diğer sınıflandırma modellerinden daha iyi bir performansa sahip olduğu gösterilmiştir. Homofobik söylemlerin tespitinde ise 104 dilde önceden eğitilmiş Çok dilli Dönüştürücü Temelli Çift Yönlü Kodlayıcı Temsilleri (Multilingual Bidirectional Encoder Representations from Transformers - M-BERT) modeli, bu tez çalışmasında da duygu temelli metin sınıflandırma amacıyla kullanılmış ve başarılı sonuçların elde edildiği görülmüştür. Doktora tez araştırmasının son çalışması olarak Instagram platformunda pandemi döneminde yapılan COVID-19 ile ilgili yorumlardan veri setleri oluşturulmuş ve kişilerin duygu analizine yönelik sınıflandırma modelleri geliştirilmiştir. Bu amaçla, sosyal medyada kullanıcıların pandemi ile ilgili söylemleri olumlu/olumsuz/nötr olarak etiketlenmiş ve bu söylemlerde bir etkileşim olup olmadığı analiz edilmiştir. Bu analiz sonuçlarına göre COVID-19 pandemisinde sosyal medyada Türkçe yorumlar arasında anlamlı bir etkileşim bulunamamıştır. Ayrıca, Türkçe metin verileri kısıtlı olduğu için çalışma kapsamında oluşturulan ATC, HATC ve COVID-19 veri kümeleri araştırma yapacak kişiler için literatüre sunulmuştur. Sonuç olarak, Türkçe diline yönelik yapay zekâ algoritmaları kullanarak nefret söylemlerinin tespiti ile duygu analinizi yapılmış ve başarılı sonuçlar elde edilmiştir.
Özet (Çeviri)
Instagram is a free sharing platform where each user has a profile and followers can upload photos or videos to view, like and comment. Hate speech containing abusive or homophobic comments towards shared images can be humiliating and hurtful. People who are exposed to this type of communication can experience serious psychological trauma. It is important to develop classification systems based on language models in order to examine social media content and distinguish types of hate speech. Developing a hate comments detection filter is more difficult and time consuming in terms of other languages than English. In this thesis, the artificial intelligence algorithms that can detect abusive and homophobic discourses for the Turkish language have been developed. In this context, datasets containing Turkish abusive and homophobia, named as Abusive Turkish Comments (ATC) and Homophobic Abusive Turkish Comments (HATC), respectively, were obtained. The comments have been corrected in accordance with Turkish language rules, labeled according to hate types, and missing comments have been deleted. The datasets were labeled, balanced according to the distribution of the comments, and classification performances of the data were obtained with both the original and the balanced versions. Based on the classification results of abusive discourses, it has been shown that the Convolutional Neural Network (CNN) model, one of the Deep Learning (DL) models, has a better performance than other classification models. In the detection of homophobic discourses, the Multilingual Bidirectional Encoder Representations from Transformers (M-BERT) model, which was pre-trained in 104 languages, was used for the purpose of sentiment-based text classification in this thesis, and it was seen that successful results were obtained. As the last study of the doctoral thesis research, data sets were created from the comments about COVID-19 made during the pandemic period on the Instagram platform and classification models were developed for sentiment analysis of the users. For this purpose, the discourses of users about the pandemic on social media were labeled as positive/negative/neutral and it was analyzed whether there was an interaction in these discourses. According to the results of this analysis, no significant interaction was found between Turkish comments on social media during the COVID-19. In addition, since the Turkish text data is limited, the ATC, HATC and COVID-19 datasets created within the scope of the study were presented to the literature for those who will conduct research. As a result, for the Turkish language, the sentiment analysis and the detection of hate speech by using the artificial intelligence algorithms were made and successful results were obtained.
Benzer Tezler
- COVID-19 pandemisi sürecinde yaş ayrımcılığının sosyal medyadaki tezahürü: Youtube analizi
Manifestation of ageism in social media during COVID-19 pandemic: Youtube analysis
EZGİ AKTÜRK
Yüksek Lisans
Türkçe
2023
SosyolojiBursa Teknik ÜniversitesiSosyoloji Ana Bilim Dalı
PROF. DR. AHMET ZEKİ ÜNAL
- Sosyal medyada COVID-19 sürecinde aşı ve maske karşıtlığı söylemi: Twitter örneği
Disclaimer of vaccine and anti-mask in the COVID-19 process in social media: Twitter example
TUNCAY YILDIZ
Yüksek Lisans
Türkçe
2023
İletişim Bilimleriİstanbul Aydın ÜniversitesiYeni Medya ve İletişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NUR EMİNE KOÇ
- Biyopolitik ve nekropolitik süreçlerde beden: COVİD-19 pandemi döneminde yaşlı bireylere yönelik nefret söylemi ve eylemi
The body in biopolitical and necropolitical processes: hate speech and action against elderly individuals in the peri̇od of the COVİD-19 pandemic
BERNA AKDOĞAN
Yüksek Lisans
Türkçe
2022
SosyolojiMimar Sinan Güzel Sanatlar ÜniversitesiSosyoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NİSBET GAMZE TOKSOY
- Türkiye'de linç kültürünün yeni medyada yeniden üretimi
Reproduction of lynch culture in new media in Turkey
SULTAN KORKMAZ
Yüksek Lisans
Türkçe
2021
İletişim BilimleriGaziantep Üniversitesiİletişim ve Toplumsal Dönüşüm Ana Bilim Dalı
DOÇ. DR. MESUT YÜCEBAŞ
- Nefret söylemi inşasında sosyal medyanın rolü: Ekşi Sözlük örneği
The role of social media in the content of hate speech: Example of Ekşi Sözlük
HÜSEYİN YAŞA
Yüksek Lisans
Türkçe
2017
GazetecilikAkdeniz ÜniversitesiGazetecilik Ana Bilim Dalı
YRD. DOÇ. DR. ONUR ÖKSÜZ