Geri Dön

Türkçe hakaret ve nefret söylemi tespiti

Offensive language and hate speech detection in Turkish

  1. Tez No: 846810
  2. Yazar: MEHMET SALİH KURT
  3. Danışmanlar: DOÇ. DR. EYLEM YÜCEL DEMİREL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi-Cerrahpaşa
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

İnsanların çevrimiçi dünyada, özellikle sosyal medya platformlarında iletişim kurması sonucunda, internet üzerinde kullanıcı tarafından oluşturulan içerikler artmıştır. Bu platformların anonim yapısının da etkisiyle kullanıcılar, hakaret ve nefret söylemi içeren düşünceleri paylaşabilmektedir. Bu tür istenmeyen içerikler hem bireyler hem de toplumlar üzerinde olumsuz etkiler yaratabilmektedir. Bu nedenle hakaret ve nefret söylemi içeren içeriklerin tespit edilmesi ve filtrelenmesi gerekmektedir. Bu tür içeriklerin manuel olarak tespit edilmesi oldukça zor ve zaman alıcı olduğu için, otomatik yöntemlere ihtiyaç duyulmaktadır. Son yıllarda çevrimiçi hakaret ve nefret söylemlerinin tespitine yönelik akademik araştırmalarda artış görülmektedir. BERT (Bidirectional Encoder Representations from Transformers - Dönüştürücülerden Çift Yönlü Kodlayıcı Temsilleri) gibi transfer öğrenme modelleri ile İngilizcede hakaret ve nefret söylemlerinin otomatik tespiti konusunda umut verici sonuçlar elde edilmiştir. Ancak, Türkçe gibi sınırlı kaynaklara sahip dillerde hakaret ve nefret söyleminin otomatik tespiti üzerine yapılan araştırma sayısı yok denecek kadar azdır. Bu tez çalışmasında, geniş bir coğrafyada ve milyonlarca insan tarafından konuşulan Türkçe dili için hakaret ve nefret söylemi otomatik tespit sistemi geliştirilmesiyle ilgili girişimlerin sonuçları paylaşılmıştır. Öncelikle literatürdeki İngilizce etiketli veri setleri kullanılarak çok dilli BERT modelleri eğitilmiş, oluşturulan hakaret ve nefret söylemi tespit modellerinin performansları değerlendirilmiştir. Bu tez çalışmasında Türkçe veri seti oluşturmak için otomatik etiketleme yöntemi önerilmiş ve bu yöntemle Türkçe hakaret ve nefret söylemi veri seti oluşturulmuştur. Bu tezde doğal dil işleme alanında birçok görevde en iyi sonuçları veren BERT modellerinin varyantları ve farklı kaynaklardan elde edilen Türkçe hakaret ve nefret söylemi veri setleri kullanılarak birtakım deneyler yapılmıştır. Yapılan deneyler sonucunda, RoBERTa (Robustly Optimized BERT Approach - Dayanıklı Bir Şekilde Optimize Edilmiş BERT Yaklaşımı) yaklaşımının çok dilli bir versiyonu olan XLM-RoBERTa (Cross Lingual Language Model RoBERTa - Diller Arası Dil Modeli RoBERTa) modeli, en iyi performansı sergilemiştir. Bu model için hiperparametre optimizasyonu gerçekleştirilmiş ve en geniş kapsamlı veri setleri kullanılarak Türkçe'de hakaret ve nefret söylemi otomatik tespit sistemi geliştirilmiştir. Oluşturulan Türkçe hakaret ve nefret söylemi otomatik tespit modeli, aynı test veri setini kullanan diğer çalışmalarla karşılaştırılmıştır.

Özet (Çeviri)

As a result of people communicating online, especially on social media platforms, the amount of user-generated content on the internet has increased. Due to the anonymous nature of these platforms, users can share content containing offensive language and hate speech. Such undesirable content can have negative effects on both individuals and societies. Therefore, content that contains offensive language and hate speech needs to be detected and filtered. Due to the challenging and time-consuming nature of manually detecting such content, there is a need for automated methods. In recent years, there has been an increase in academic research on the detection of online insults and hate speech. State-of-the-art transfer learning models such as BERT (Bidirectional Encoder Representations from Transformers) have achieved promising results in detecting offensive language and hate speech in English. However, the number of research studies on automatic detection of offensive language and hate speech in languages with limited resources like Turkish is extremely low, almost non-existent. In this thesis, the results of experiments related to developing an automatic detection system for hate speech and offensive language in the Turkish language, spoken by millions of people across a wide geographic area, have been shared. First of all, multilingual BERT models were trained using English-labeled data sets in the literature, and the performances of the created offensive language and hate speech detection models were evaluated. In this thesis, an automatic labeling method was proposed to create a Turkish dataset, and a Turkish offensive language and hate speech dataset was created with this method. A number of experiments were conducted using variants of the BERT model, which gives the best results in many tasks of natural language processing, and Turkish offensive language and hate speech datasets obtained from different sources. As a result of the conducted experiments, the XLM-RoBERTa (Cross Lingual Language Model - RoBERTa) model, which is a multilingual version based on the RoBERTa (Robustly Optimized BERT Approach), exhibited the best performance. Hyperparameter optimization has been carried out for this model, and a comprehensive dataset has been utilized to develop a state-of-the-art system for automatic detection of hate speech and offensive language in Turkish. The generated Turkish hate speech and offensive language detection model has been compared with other studies using the same test dataset.

Benzer Tezler

  1. 2023 Cumhurbaşkanlığı Seçimi 2. tur adaylarının x paylaşımlarına yorum yapan kullanıcıların nefret söylemi üzerine bir inceleme

    An analysis of hate speech in the comments of users on the social media posts of the candidates in the 2nd round of the 2023 Presidential Election

    MUHAMMED AYBER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    GazetecilikSüleyman Demirel Üniversitesi

    Gazetecilik Ana Bilim Dalı

    DOÇ. DR. NEDRET ÇAĞLAR

  2. Yeni medyada nefret söylemi: Taraftarların 6222 sayılı Kanun içerikli nefret söylemlerinin Twitter üzerinden incelenmesi

    Hate speech in new media: Investigation of hate speech including law numbered 6222 Created by the fans

    ELZEM SEREN DİNÇ KIRLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Sosyolojiİstanbul Üniversitesi

    Gazetecilik Ana Bilim Dalı

    PROF. DR. GÜVEN NECATİ BÜYÜKBAYKAL

  3. Yeni medyada milliyetçiliğin söylemsel (Yeniden) kuruluşu: Mülteci karşıtlığı ve e-linç

    The discursive (Re) constitution of nationalism in the new media: Anti-refugee movements and e-lynching

    BURAK GÖKALP

    Doktora

    Türkçe

    Türkçe

    2022

    Siyasal BilimlerPamukkale Üniversitesi

    Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı

    PROF. DR. İSMET PARLAK

    DOÇ. DR. ARMAĞAN ÖZTÜRK

  4. Twitter'daki siyasal nefret söylemi üzerine bir inceleme: 24 haziran 2018 Cumhurbaşkanı ve milletvekili genel seçimleri örneği

    A review of political hate speech on twitter: 24th june 2018 Presidential and parliamentary elections

    KÜBRA KURTUL

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    ReklamcılıkSelçuk Üniversitesi

    Reklamcılık Ana Bilim Dalı

    DOÇ. DR. NURULLAH TERKAN

  5. Yeni medyada nefret söylemi: Twitter uygulamasında nefret söylemi analizi

    Hate speech in new media: Hate speech analysis in Twitter applications

    BETÜL KARADENİZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    GazetecilikSelçuk Üniversitesi

    Gazetecilik Ana Bilim Dalı

    DOÇ. DR. ABDULKADİR GÖLCÜ