Geri Dön

Türkçe tweet metinlerinde saldırgan dil tespiti

Offensive language detection in Turkish tweet texts

  1. Tez No: 893022
  2. Yazar: AYŞE NİDA ACAR
  3. Danışmanlar: PROF. DR. SEVİNÇ İLHAN OMURCA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 43

Özet

Sosyal medyada saldırgan dil kullanımının son yıllarda önemli ölçüde arttığı bilinmektedir. Bu tez çalışması Türkçe'de saldırgan içerikli dil kullanımının saptanmasını amaçlamakatdır. Çalışmada literatürde daha önce kullanılmış olan iki adet veri kümesi ve bu iki veri kümesinin birleştirilmesiyle elde edilen geniş ve özgün bir veri kümesi kullanılmıştır. İlk veri kümesi olan Offenseval-2020, 31.277 veriyi içerirken, ikinci veri kümesi olan Türk Saldırgan Dil Veri Kümesi (troff) ise 35.285 veriden oluşmaktadır. Tüm veri kümeleri ayrı ayrı ön işleme adımlarından geçirilmiştir. Daha sonra, Uzun Kısa Süreli Bellek (LSTM) ve Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM) yöntemlerine dayalı olarak oluşturulan modeller kullanılarak üç farklı veri kümesi de eğitilmiştir. Deneyler sonucunda, veri kümesinin %80'inin eğitim için ayrılmasına ve %20'sinin test için ayrılmasına karar verilmiştir. Çalışmanın deneysel sonuçları doğal dil işleme çalışmalarında da sıklıkla kullanılan bazı performans metrikleri aracılığıyla ölçülmüştür. İki veri kümesinin birleştirilmesiyle oluşturulan özgün veri kümesiyle alınan sonuçlar, diğer veri kümeleriyle alınan sonuçlara kıyasla oldukça yüksek çıkmıştır. Bu başarılı sonuçlarla, Türkçe dilinde saldırgan dil kullanımı tespiti konusunda literatüre katkı sağlamak amaçlanmıştır.

Özet (Çeviri)

In recent years, there has been a notable increase in the prevalence of offensive language usage in social media posts. The aim of this research is to identify offensive language usage in the Turkish language. The research employed two existing datasets commonly utilized in the literature, as well as a large, original dataset generated by amalgamating these two sources. The initial dataset, known as Offenseval-2020, comprised 31,277 entries, whereas the second dataset, referred to as A Corpus of Turkish Offensive Language (troff), included 35,285 entries. Each of these datasets underwent specific preprocessing steps. Following this, three separate datasets were utilized for training a model, which was created using the Long Short-Term Memory (LSTM) and Bidirectional Long Short-Term Memory (BiLSTM) methods. To evaluate the outcomes, the research adopted an 80% training and 20% testing split for the datasets. The experimental results of the study were measured through the use of performance metrics commonly employed in natural language processing research. The results obtained from the original dataset, created by merging the two datasets, exhibited significantly higher performance compared to the other datasets. These successful findings contribute to the existing literature on the detection of offensive language usage in the Turkish language.

Benzer Tezler

  1. Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi

    Detecting offensive content by performing senti̇ment analysis in turkish texts

    ŞEYMA ŞAHİNER YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilim ve TeknolojiGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HADİ GÖKÇEN

    DR. ÖĞR. ÜYESİ İLYAS ÖZER

  2. Twitter üzerinde yapılan Türkçe paylaşımlar için etiket analiz aracı

    Hashtag analyze tool for Turkish shares on Twitter

    YUNUS EMRE KARABULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ECİR UĞUR KÜÇÜKSİLLE

  3. Kısa metinlerde varlık ismi tanıma

    Named entity recognition on Turkish short texts

    BEYZA EKEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings

    Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma

    EDA OKUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  5. Nefret söyleminin Twıtter'da görünümü: Altındağ olayları

    Hate speech view on Twitter: Altındağ events

    AHİN ASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    GazetecilikBolu Abant İzzet Baysal Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    DOÇ. DR. RENGİM SİNE NAZLI