Geri Dön

Sosyal medyada yapay zekâ ile nefret söylemi tespiti

Detection of hate speech on social media with artificial intelligence

  1. Tez No: 858034
  2. Yazar: ÇAĞLA AKSOY
  3. Danışmanlar: PROF. DR. ŞEREF SAĞIROĞLU, DR. MUSTAFA UMUT DEMİREZEN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Adli Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Adli Bilişim Bilim Dalı
  13. Sayfa Sayısı: 241

Özet

Sosyal ağlar, sanal ortamda insanların birbirleriyle etkileşim içerisinde bulundukları, içerisinde olumlu, olumsuz ve rahatsız edici, suç unsuru içeren pek çok düşüncenin paylaşımına olanak tanıyan elektronik mecralardır. Sosyal medya ile belirli bir grup veya topluluğa yönelik kin, nefret, öfke gibi duyguların paylaşıldığı içerikler, nefret söylemine dönüşerek daha geniş kitlelere kolayca yayılmaktadır. Son yıllarda sosyal medyada, cinsel yönelim, dini, etnik köken vb. temelli nefret söylemlerindeki paylaşımlarda artış görülmektedir. Nefret suçuna giden sürecin nefret söylemi ile başlayabileceği de göz önünde bulundurulduğunda, belirli bir grup veya topluluğa yönelik saldırgan söylem ve tutumların oluşmasını engellemek, önyargının, ayrımcılığın ve ötekileştirmenin önüne geçmek önemli konulardandır. Bu yüzden nefret söyleminin tespit edilmesi, gerekli önlemlerin alınmasına ve karşılaşılabilecek olumsuz durumların önceden önlenmesine önemli katkılar sağlayacaktır. İstatistiklere bakıldığında, sosyal medya platformlarında nefret söyleminde son yıllarda artış olduğu, suç unsuru içeren söylemlerin arttığı, ayrımcı dil kullanımının yaygınlaşmaya başladığı, bunların da artık ciddi sorunlar haline geldiği ve toplumda rahatsızlık oluşturduğu belirlendiğinden, bu tez çalışmasında Türkçe Nefret Söylemi (TNS) konusu ele alınmıştır. Bu tez çalışmasında; TNS'ler hukuki olarak ele alınmış, yasal düzenlemeler araştırılmış ve sosyal medya uygulaması olan X/Twitter üzerinden gerçekleştirilen paylaşımlara yönelik TNS'yi tespit eden daha yüksek performanslı bir yapay zekâ modeli önerilmiştir. Literatürde Türkçe nefret söylemine yönelik yeterli veri seti bulunmadığından, 70869 tivitten oluşan etiketli, yeni, kapsamlı bir veri seti oluşturulmuş ve araştırmacıların kullanımına açılmış olup, 6 farklı dengeli veri setleri hazırlanarak, tüm analizler bu veri setleri üzerinden gerçekleştirilmiştir. DistilBERTurk, RoBERTa, Electra, ConvBERT, BERTurk, ALBERT ve MultilingualBERT olmak üzere toplam 7 Önceden Eğitilmiş Dil Modeli (ÖEDM) bu çalışma kapsamında test edilmiştir. Kullanılan her bir ÖEDM için veri setlerinin 80:20 (eğitim:test) oranında dağılımı temel alınmış, tabakalı 10 bölütlemeli/katlamalı çapraz doğrulama kullanılmış, parametreler ince ayarlanarak geliştirilen modeller test edilmiş ve elde edilen sonuçlar kritik edilmiştir. Ayrıca, Multinomial Naive Bayes, Destek Vektör Makinesi ve Karar Ağacı algoritmaları ile de veriler test edilmiş ve sonuçlar karşılaştırılmıştır. Bunlara ilave olarak, modellerin doğruluğunu ve güvenilirliğini artırmak amacıyla ince ayar yapılan önceden eğitilmiş 7 dil modeline Sert Oylama, Yumuşak Oylama, Ağırlıklı Sert Oylama ve Ağırlıklı Yumuşak Oylama olmak üzere çeşitli oylama teknikleri uygulanarak“Seçilmiş Derin”adı verilen yeni bir yaklaşım önerilmiştir. Tez kapsamında elde edilen sonuçlar değerlendirildiğinde; - Türkçe nefret söylemi tespiti alanında, 7 adet ÖEDM kullanılan ilk ve ÖEDM'lerin kullanımı açısından en kapsamlı çalışma yapılmış, - literatürde nefret söylemi alanında sık kullanılan 3 makine öğrenmesi algoritması ile nefret söylemi tespit edilmiş, - önerilen ve“Seçilmiş Derin”adı verilen yaklaşım ile Türkçe nefret söylemi tespiti %90-93 doğruluk oranıyla gerçekleştirilmiş, geliştirilen yaklaşım ile modeller içerisinde en iyi performansı gösteren modelden yaklaşık olarak %2 daha yüksek performans sağlanmış, - gerçekleştirilen çalışma ile benzer doğrultuda iki çalışmaya ait veri setleri düzenlenerek, aynı performans testlerine tabi tutulmuş, literatür karşılaştırılması gerçekleştirilmiş ve daha iyi sonuçlar elde edilmiştir. Sonuç olarak; bu tez kapsamında yapılan çalışmalar, oluşturulan veri setleri ve geliştirilen modellerin sonuçları değerlendirildiğinde; yapılan çalışmaların doğruluk oranını artırdığı, nefret söylemi tespitinde daha güvenle kullanılabileceği, adli bilişimde suçun yüksek oranda tespiti ve engellenmesine, suç oranlarının düşürülmesine ve sosyal medyada nefret söyleminin azaltılmasına dolaylı da olsa katkı sağlayacağı, diğer sosyal medya uygulamalarında da bu önerilerin kullanılabileceği öngörülmektedir.

Özet (Çeviri)

Social networks are electronic media in which people interact with each other in a virtual environment, allowing the sharing of many positive, negative, disturbing and criminal thoughts. With social media, content that shares emotions such as grudge, hatred and anger towards a certain group or community can easily spread to wider masses by turning into hate speech. In recent years, there has been an increase in hate speech based on sexual orientation, religion, ethnicity, etc. on social media. Considering that the process leading to hate crime can start with hate speech, it is important to prevent the formation of aggressive discourse and attitudes towards a particular group or community, and to prevent prejudice, discrimination and marginalization. Therefore, detecting hate speech will make significant contributions to taking the necessary measures and preventing negative situations that may arise. Since statistics show that there has been an increase in hate speech on social media platforms in recent years, discourse containing criminal elements has increased, the use of discriminatory language has become widespread, and these have become serious problems and cause discomfort in society, this thesis focuses on Turkish Hate Speech (THS). In this thesis, the legal aspects of THS are discussed, legal regulations are investigated, and a higher performance artificial intelligence model that detects THS for posts made on the social media application X/Twitter is proposed. Since there are not enough datasets on hate speech in the literature, a new, comprehensive, labeled dataset consisting of 70869 tweets was created and made available to researchers, and 6 different balanced datasets were prepared and all analyses were performed on these datasets. A total of 7 Pre-Trained Language Models (PTLMs), namely DistilBERTurk, RoBERTa, Electra, ConvBERT, BERTurk, ALBERT and MultilingualBERT, were tested in this study. For each of the PTLMs used, the 80:20 (train:test) distribution of the datasets was taken as a basis, stratified 10 fold cross validation was used, the models were tested by fine-tuning the parameters and the obtained results were criticized. In addition, Multinomial Naive Bayes, Support Vector Machine and Decision Tree algorithms were also tested and the results were compared. Additionally, a new approach called“Chosen Deep”is proposed by applying various voting techniques, namely Hard Voting, Soft Voting, Weighted Hard Voting and Weighted Soft Voting, to the 7 pre-trained language models that are fine-tuned to improve the accuracy and reliability of the models. When the results obtained within the scope of the thesis are evaluated; - the first study using 7 PTLMs and the most comprehensive study in terms of use of PLTMs in the field of Turkish hate speech detection was performed, - hate speech was detected with 3 machine learning algorithms commonly used in the field of hate speech in the literature, - With the proposed approach called“Chosen Deep”, hate speech detection in Turkish was realized with an accuracy rate of 90-93%, and the developed approach provided approximately 2% higher performance than the best performing model, - the data sets of two studies in a similar direction with the study were organized, subjected to the same performance tests, compared with the literature and better results were obtained. As a result, when the results of the studies carried out within the scope of this thesis, the data sets created and the results of the models developed are evaluated; it is predicted that the studies carried out increase the accuracy rate, can be used more safely in hate speech detection, will contribute to the detection and prevention of crime at a high rate in digital forensics, reduce crime rates and reduce hate speech in social media, and these suggestions can be used in other social media applications.

Benzer Tezler

  1. Orta Doğu'daki kadınlara yönelik nefret söylemlerinin desteklenmesinde sosyal medyanın rolü

    The role of social media in promoting hate speech against women in the Middle East

    MOHAMMAD NAYEF TURKI SHATNAWI

    Doktora

    Türkçe

    Türkçe

    2021

    İletişim BilimleriAkdeniz Üniversitesi

    İletişim Ana Bilim Dalı

    PROF. DR. AHMET AYHAN

  2. Sosyal medyada türkçe nefret söylemlerinin ve Covid-19 yorumlarının makine öğrenmesi, derin öğrenme ve bert teknikleri ile analizi

    Analysis of turkish hateful discourses and Covid-19 comments in social media with machine learning, deep learning and bert techniques

    HABİBE KARAYİĞİT

    Doktora

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiMersin Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ AKDAĞLI

    DOÇ. DR. ÇİĞDEM ACI

  3. Yapay zekâ tabanlı algoritma çağında örtülü operasyonun analizi: Cambrıdge Analytıca örneği

    Analysis of covert operation in the age of artificial intelligence based algorithms: The Cambridge Analytica case

    TUĞÇE SENA KARA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMilli Savunma Üniversitesi

    İstihbarat Çalışmaları Ana Bilim Dalı

    DOÇ. DR. GÜNGÖR ŞAHİN

  4. Yapay zeka optimizasyon algoritması temelli aldatma ve söylenti tespit yöntemi

    Deception and rumor detection method based on artificial intelligence optimization algorithm

    HARUN BİNGÖL

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLAL ALATAŞ

  5. Bilişim çağında toplu gözetim ve yasal mevzuat düzenlemeleri

    Mass surveillance and legislation arrangements in the information age

    İSMAİL CEM BAKIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÇİÇEK ERSOY