Türkçe tweet metinlerinde saldırgan dil tespiti
Offensive language detection in Turkish tweet texts
- Tez No: 893022
- Danışmanlar: PROF. DR. SEVİNÇ İLHAN OMURCA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 43
Özet
Sosyal medyada saldırgan dil kullanımının son yıllarda önemli ölçüde arttığı bilinmektedir. Bu tez çalışması Türkçe'de saldırgan içerikli dil kullanımının saptanmasını amaçlamakatdır. Çalışmada literatürde daha önce kullanılmış olan iki adet veri kümesi ve bu iki veri kümesinin birleştirilmesiyle elde edilen geniş ve özgün bir veri kümesi kullanılmıştır. İlk veri kümesi olan Offenseval-2020, 31.277 veriyi içerirken, ikinci veri kümesi olan Türk Saldırgan Dil Veri Kümesi (troff) ise 35.285 veriden oluşmaktadır. Tüm veri kümeleri ayrı ayrı ön işleme adımlarından geçirilmiştir. Daha sonra, Uzun Kısa Süreli Bellek (LSTM) ve Çift Yönlü Uzun Kısa Süreli Bellek (BiLSTM) yöntemlerine dayalı olarak oluşturulan modeller kullanılarak üç farklı veri kümesi de eğitilmiştir. Deneyler sonucunda, veri kümesinin %80'inin eğitim için ayrılmasına ve %20'sinin test için ayrılmasına karar verilmiştir. Çalışmanın deneysel sonuçları doğal dil işleme çalışmalarında da sıklıkla kullanılan bazı performans metrikleri aracılığıyla ölçülmüştür. İki veri kümesinin birleştirilmesiyle oluşturulan özgün veri kümesiyle alınan sonuçlar, diğer veri kümeleriyle alınan sonuçlara kıyasla oldukça yüksek çıkmıştır. Bu başarılı sonuçlarla, Türkçe dilinde saldırgan dil kullanımı tespiti konusunda literatüre katkı sağlamak amaçlanmıştır.
Özet (Çeviri)
In recent years, there has been a notable increase in the prevalence of offensive language usage in social media posts. The aim of this research is to identify offensive language usage in the Turkish language. The research employed two existing datasets commonly utilized in the literature, as well as a large, original dataset generated by amalgamating these two sources. The initial dataset, known as Offenseval-2020, comprised 31,277 entries, whereas the second dataset, referred to as A Corpus of Turkish Offensive Language (troff), included 35,285 entries. Each of these datasets underwent specific preprocessing steps. Following this, three separate datasets were utilized for training a model, which was created using the Long Short-Term Memory (LSTM) and Bidirectional Long Short-Term Memory (BiLSTM) methods. To evaluate the outcomes, the research adopted an 80% training and 20% testing split for the datasets. The experimental results of the study were measured through the use of performance metrics commonly employed in natural language processing research. The results obtained from the original dataset, created by merging the two datasets, exhibited significantly higher performance compared to the other datasets. These successful findings contribute to the existing literature on the detection of offensive language usage in the Turkish language.
Benzer Tezler
- Türkçe metinlerde duygu analizi yapılarak saldırgan içeriklerin tespit edilmesi
Detecting offensive content by performing senti̇ment analysis in turkish texts
ŞEYMA ŞAHİNER YILMAZ
Yüksek Lisans
Türkçe
2022
Bilim ve TeknolojiGazi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HADİ GÖKÇEN
DR. ÖĞR. ÜYESİ İLYAS ÖZER
- Twitter üzerinde yapılan Türkçe paylaşımlar için etiket analiz aracı
Hashtag analyze tool for Turkish shares on Twitter
YUNUS EMRE KARABULUT
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ECİR UĞUR KÜÇÜKSİLLE
- Kısa metinlerde varlık ismi tanıma
Named entity recognition on Turkish short texts
BEYZA EKEN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings
Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma
EDA OKUR
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Nefret söyleminin Twıtter'da görünümü: Altındağ olayları
Hate speech view on Twitter: Altındağ events
AHİN ASLAN
Yüksek Lisans
Türkçe
2024
GazetecilikBolu Abant İzzet Baysal Üniversitesiİletişim Bilimleri Ana Bilim Dalı
DOÇ. DR. RENGİM SİNE NAZLI