Geri Dön

Offensive language detection in Turkish Twitter data with BERT models

BERT modelleriyle Türkçe Twitter verilerinde saldırgan dil tespiti

  1. Tez No: 722676
  2. Yazar: ANIL ÖZBERK
  3. Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 60

Özet

Online platformda hakaret içeren ifadeler arttıkça bu saldırgan ifadeler tepki yaratarak toplumun huzurunu bozmaktadır. Bu ifadelerin erken tespit edilmesi mağdurların korunması açısından önemlidir. Saldırgan dil tespit araştırmaları son yıllarda artmaktadır. Bu konudaki araştırmaları kolaylaştırmak amacıyla Saldırgan Dil Tanımlama Veri Kümesi (OLID) oluşturulmuştur. OLID verileri Twitter'dan toplanmış ve manuel olarak etiketlenmiştir. Saldırgan Dil Tanımlama Görevi üç alt görevden oluşur. Alt Görev A'da amaç, verileri saldırgan veya saldırgan olmayan olarak ayırt etmektir. Hakaret, tehdit veya küfür içeriyorsa veriler saldırgandır. Bu görev için Türkçe dâhil beş dilde veri seti hazırlanmıştır. Diğer iki alt görev, saldırı türlerinin (Alt Görev B) ve hedeflerin (Alt Görev C) sınıflandırılmasına odaklanır. Son iki alt görev için sadece İngilizce veri seti bulunmaktadır. Bu çalışma, Dönüştürücülerden Çift Yönlü Kodlayıcı Gösterimleri (BERT) modellerinin ve ince ayar tekniklerinin kullanımının Türkçe Twitter verilerinde saldırgan dil tespiti üzerindeki etkilerini araştırmaktadır. Kullandığımız BERT modelleri Türkçe ile ön eğitime tabi tutulmuştur. İnce ayar teknikleri ise Türkçe dili ve Twitter verileri göz önüne alarak hazırlandı. Çalışmamızda önceden eğitilmiş BERT modelin hedef görev üzerindeki önemi vurgulandı. Ayrıca lojistik regresyon, karar ağacı, rastgele orman ve destek vektör makineleri (SVM) gibi klasik modeller kullanılarak deneyler yapıldı.

Özet (Çeviri)

As insulting statements become more frequent on online platforms, these negative statements create a reaction and disturb the peace of society. Identifying these expressions as early as possible is important to protect the victims. Offensive language detection research has been increasing in recent years. Offensive Language Identification Dataset (OLID) was introduced to facilitate research on this topic. Examples in OLID were retrieved from Twitter and annotated manually. Offensive Language Identification Task comprises three subtasks. In Subtask A, the goal is to discriminate the data as offensive or non-offensive. Data is offensive if it contains insults, threats, or profanity. Five languages datasets, including Turkish, were offered for this task. The other two subtasks focus on categorizing offense types (Subtask B) and targets (Subtask C). The last two subtasks mainly focus on English. This study explores the effects of the usage of Bidirectional Encoder Representations from Transformers (BERT) models and fine-tuning methods on offensive language detection on Turkish Twitter data. The BERT models that we use are pre-trained in Turkish corpora. Our fine-tuning methods are designed by considering the Turkish language and Twitter data. The importance of the pre-trained BERT model in a downstream task is emphasized. In addition, experiments with classical models are conducted, such as logistic regression, decision tree, random forest, and support vector machine (SVM).

Benzer Tezler

  1. Sosyal medya platformlarında yapay zeka ve makine öğrenim tekniklerini kullanarak, doğal dil işleme ile hakaret içeren cümle tespiti ve duygu analizinin ölçülmesi

    Using artificial i̇ntelligence and machine learning techniques on social media platforms, natural language processing and detection of i̇nsulting sentences and measuring sentiment analysis

    CAN BERK ÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNişantaşı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATİH ŞAHİN

  2. Twıtter üzerindeki islamofobik tweetlerin duygu analizi ile tespiti

    Detection of islamophobic tweets on twitter using sentiment analysis

    BUĞRA AYAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. BÜNYAMİN CİYLAN

  3. Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi

    Detecting offensive content by performing senti̇ment analysis in turkish texts

    ŞEYMA ŞAHİNER YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilim ve TeknolojiGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HADİ GÖKÇEN

    DR. ÖĞR. ÜYESİ İLYAS ÖZER

  4. Sentiment analysis on twitter :Sexist tweets with isolation forest

    Twitter'da duygu analizi :İzolasyon ormanlı cinsiyetçi tweetler

    ENİSE İREM ÇOLAK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DOÇ. DR. YÜCEL BATU SALMAN

  5. Offensive language detection in Turkish language by using NLP

    NLP kullanarak Türk dilinde saldırgan dil tespiti

    BEKİR FURKAN KESGİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RÜŞTÜ MURAT DEMİRER