Türkçe tweet metinlerinde saldırgan dil tespiti

Offensive language detection in Turkish tweet texts

PDF İndir

Tez No: 893022
Yazar: AYŞE NİDA ACAR
Danışmanlar: PROF. DR. SEVİNÇ İLHAN OMURCA
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Kocaeli Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 43

Özet

Sosyal medyada saldırgan dil kullanımının son yıllarda önemli ölçüde arttığı bilinmektedir. Bu tez çalışması Türkçe'de saldırgan içerikli dil kullanımının saptanmasını amaçlamakatdır. Çalışmada literatürde daha önce kullanılmış olan iki adet veri kümesi ve bu iki veri kümesinin birleştirilmesiyle elde edilen geniş ve özgün bir veri kümesi kullanılmıştır. İlk veri kümesi olan Offenseval-2020, 31.277 veriyi içerirken, ikinci veri kümesi olan Türk Saldırgan Dil Veri Kümesi (troff) ise 35.285 veriden oluşmaktadır. Tüm veri kümeleri ayrı ayrı ön işleme adımlarından geçirilmiştir. Daha sonra, Uzun Kısa Süreli Bellek (LSTM) ve Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM) yöntemlerine dayalı olarak oluşturulan modeller kullanılarak üç farklı veri kümesi de eğitilmiştir. Deneyler sonucunda, veri kümesinin %80'inin eğitim için ayrılmasına ve %20'sinin test için ayrılmasına karar verilmiştir. Çalışmanın deneysel sonuçları doğal dil işleme çalışmalarında da sıklıkla kullanılan bazı performans metrikleri aracılığıyla ölçülmüştür. İki veri kümesinin birleştirilmesiyle oluşturulan özgün veri kümesiyle alınan sonuçlar, diğer veri kümeleriyle alınan sonuçlara kıyasla oldukça yüksek çıkmıştır. Bu başarılı sonuçlarla, Türkçe dilinde saldırgan dil kullanımı tespiti konusunda literatüre katkı sağlamak amaçlanmıştır.

Özet (Çeviri)

In recent years, there has been a notable increase in the prevalence of offensive language usage in social media posts. The aim of this research is to identify offensive language usage in the Turkish language. The research employed two existing datasets commonly utilized in the literature, as well as a large, original dataset generated by amalgamating these two sources. The initial dataset, known as Offenseval-2020, comprised 31,277 entries, whereas the second dataset, referred to as A Corpus of Turkish Offensive Language (troff), included 35,285 entries. Each of these datasets underwent specific preprocessing steps. Following this, three separate datasets were utilized for training a model, which was created using the Long Short-Term Memory (LSTM) and Bidirectional Long Short-Term Memory (BiLSTM) methods. To evaluate the outcomes, the research adopted an 80% training and 20% testing split for the datasets. The experimental results of the study were measured through the use of performance metrics commonly employed in natural language processing research. The results obtained from the original dataset, created by merging the two datasets, exhibited significantly higher performance compared to the other datasets. These successful findings contribute to the existing literature on the detection of offensive language usage in the Turkish language.

Benzer Tezler

Tez No
759307
Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi
Detecting offensive content by performing senti̇ment analysis in turkish texts
ŞEYMA ŞAHİNER YILMAZ
Yüksek Lisans
Türkçe
2022
Bilim ve Teknoloji Gazi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HADİ GÖKÇEN
DR. ÖĞR. ÜYESİ İLYAS ÖZER
Tez No
507478
Twitter üzerinde yapılan Türkçe paylaşımlar için etiket analiz aracı
Hashtag analyze tool for Turkish shares on Twitter
YUNUS EMRE KARABULUT
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Süleyman Demirel Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ECİR UĞUR KÜÇÜKSİLLE
Tez No
389367
Kısa metinlerde varlık ismi tanıma
Named entity recognition on Turkish short texts
BEYZA EKEN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
387378
Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings
Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma
EDA OKUR
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
Tez No
856746
Nefret söyleminin Twıtter'da görünümü: Altındağ olayları
Hate speech view on Twitter: Altındağ events
AHİN ASLAN
Yüksek Lisans
Türkçe
2024
Gazetecilik Bolu Abant İzzet Baysal Üniversitesi
İletişim Bilimleri Ana Bilim Dalı
DOÇ. DR. RENGİM SİNE NAZLI

Geri Dön