Geri Dön

Transformer tabanlı modellerle Türkçe tweetlerdeki argo dilin tespiti

Detection of offensive language in Turkish tweets using transformer based models

  1. Tez No: 957520
  2. Yazar: ZEYNEP ŞEBNEM ÜZMEZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SİNEM AKYOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Fırat Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Günümüzde dijital iletişimin en önemli kanallarından biri hâline gelen sosyal medya platformları, bireylerin düşüncelerini özgürce ifade edebildiği alanlar sunarken, aynı zamanda çeşitli sorunlu içeriklerin de hızla yayılmasına zemin hazırlamaktadır. Özellikle argo, küfür ve hakaret içeren söylemler, çevrim içi etkileşimlerde hem bireysel hem de toplumsal düzeyde olumsuz sonuçlar doğurmakta; nefret söyleminin, siber zorbalığın ve dijital şiddetin yaygınlaşmasına katkı sağlamaktadır. Bu çerçevede, sosyal medya ortamlarında kullanılan dilin otomatik olarak analiz edilmesi, zararlı içeriklerin tespit edilmesi ve gerektiğinde filtrelenmesi büyük bir ihtiyaç hâline gelmiştir. Bu bağlamda, yapay zekâ temelli doğal dil işleme yaklaşımları, sosyal medya metinleri gibi yapısı düzensiz, kısaltmalar ve deyimlerle zenginleştirilmiş veri kaynaklarında etkili bir çözüm sunmaktadır. Bu tez çalışmasında, Türkçe sosyal medya içeriklerinde yer alan hakaret ifadelerinin otomatik olarak tespit edilmesi hedeflenmiş ve bu kapsamda beş farklı transformer mimarisi kullanılarak kapsamlı bir karşılaştırmalı analiz gerçekleştirilmiştir. Değerlendirilen modeller arasında BERTurk, DeBERTa, RoBERTa, XLM-R ve ELECTRA yer almaktadır. Tezin temel araştırma hipotezi, bu modellerin aynı Türkçe veri kümesi üzerinde belirli sabit koşullar altında (aynı eğitim parametreleri, aynı epoch sayısı, aynı ön işleme adımları) eğitilmesi durumunda doğruluk (accuracy), eğitim süresi ve kayıp (loss) gibi metrikler üzerinden karşılaştırılarak en iyi performans gösteren modelin belirlenebileceği yönündedir. Bu amaç doğrultusunda kullanılan veri kümesi, Twitter'dan toplanmış ve manuel olarak etiketlenmiş toplam 13.000 Türkçe tweetten oluşmaktadır. Etiketleme sürecinde tweetler iki sınıfa ayrılmış;“pozitif”olarak sınıflandırılan örnekler hakaret içermeyen,“negatif”olanlar ise hakaret içeren ifadeleri temsil etmektedir. Çalışma kapsamında tüm modeller, 35 epoch boyunca aynı koşullarda eğitilmiştir. Model performansları; doğruluk oranı, eğitim süresi ve kayıp değeri gibi ölçütler üzerinden kıyaslanmıştır. Elde edilen bulgulara göre, BERT modeli %89,61 doğruluk oranı ile en yüksek başarıyı göstermiştir. BERTurk'ü sırasıyla XLM-R, ELECTRA, RoBERTa ve DeBERTa modelleri takip etmiştir. Bu sonuçlar, klasik derin öğrenme modellerinin ötesine geçen transformer mimarilerinin, Türkçe gibi eklemeli morfolojiye sahip dillerde dahi başarılı sonuçlar elde edebileceğini göstermektedir. Ayrıca, hakaret ve küfür gibi sosyal medyada sıklıkla karşılaşılan içeriklerin otomatik olarak tespit edilebilmesi adına transformer tabanlı yaklaşımların önemli bir potansiyel taşıdığı ortaya konmuştur. Elde edilen sonuçlar, Türkçe sosyal medya verilerinde argo ve saldırgan söylemlerin tespiti için geliştirilecek içerik filtreleme sistemlerine katkı sağlayabilecek niteliktedir.

Özet (Çeviri)

Social media platforms, which have become one of the most prominent channels of digital communication today, provide individuals with spaces where they can freely express their thoughts, yet at the same time, they also create an environment in which various forms of harmful content can rapidly spread. In particular, expressions that include slang, profanity, and insults can lead to negative consequences at both individual and societal levels, contributing to the prevalence of hate speech, cyberbullying, and digital violence. Within this framework, the automatic analysis of language used in social media, the detection of harmful content, and its filtering when necessary have become essential needs. In this context, artificial intelligence-based natural language processing approaches offer an effective solution, especially in dealing with noisy data sources such as social media texts, which are often filled with abbreviations, colloquialisms, and informal expressions. This thesis aims to automatically detect offensive language in Turkish social media content, and in this scope, a comprehensive comparative analysis was conducted using five different transformer architectures. The evaluated models include BERT, DeBERTa, RoBERTa, XLM-R, and ELECTRA. The main research hypothesis of the thesis is that, under fixed experimental conditions (such as identical training parameters, number of epochs, and preprocessing steps), these models can be compared on the same Turkish dataset in terms of accuracy, training time, and loss metrics to determine which model performs best. The dataset used for this purpose consists of 13,000 Turkish tweets collected from Twitter and manually annotated. During the annotation process, tweets were categorized into two classes: samples labeled as“positive”represent non-offensive, whereas those labeled as“negative”represent offensive content. Within the scope of the study, all models were trained under the same conditions for 35 epochs. Their performances were compared using evaluation metrics such as accuracy rate, training duration, and loss value. According to the findings, the BERT model achieved the highest accuracy with a score of 89.61%. It was followed by the XLM-R, ELECTRA, RoBERTa, and DeBERTa models, respectively. These results indicate that transformer architectures, which surpass traditional deep learning models, can produce successful results even in morphologically rich languages such as Turkish. Moreover, it has been demonstrated that transformer-based approaches have significant potential for the automatic detection of hate speech and profanity, which are commonly encountered in social media.

Benzer Tezler

  1. Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models

    Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme

    BUSE ÇARIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. REYYAN YENİTERZİ

  2. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Transformer-based spelling error detection and correction for Turkish language

    Türkçe dili için dönüştürücü-tabanlı heceleme hatası tespiti ve düzeltme

    BURAK AYTAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMAL OKAN ŞAKAR

  4. Turbofan motorlarda faydalı ömür tahmini için yapay sinir ağlarına dayalı model geliştirilmesi

    Development of a neural network-based model for remaining useful life prediction in turbofan engines

    FURKAN İŞBİLEN

    Doktora

    Türkçe

    Türkçe

    2025

    Havacılık ve Uzay MühendisliğiErciyes Üniversitesi

    Havacılık Elektrik ve Elektroniği Ana Bilim Dalı

    DOÇ. DR. MEHMET KONAR

    DOÇ. DR. OĞUZ BEKTAŞ

  5. Derin öğrenme algoritmasıyla obsesif kompulsif bozukluk için ayırt edici biyobelirteç tespiti

    Detecting discriminative biomarkers for obsessive compulsive disorder using deep learning algorithms

    GÜNEŞ NAZİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilim ve TeknolojiÜsküdar Üniversitesi

    Nörobilim Ana Bilim Dalı

    PROF. DR. TÜRKER TEKİN ERGÜZEL