Geri Dön

Designing and debiasing binary classifiers for irony and satire detection

İroni ve satir tespiti için ikili sınıflandırma modellerinin tasarlanması ve önyargıdan arındırılması

  1. Tez No: 897481
  2. Yazar: ASLI UMAY ÖZTÜRK
  3. Danışmanlar: PROF. DR. PINAR KARAGÖZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 114

Özet

Sosyal medya çağında, ironi ve mizahi metinleri otomatik olarak tespit etmek, çevrimiçi yanlış bilgilere karşı mücadele için önem arz etmektedir. Diğer diller için oluşturulmuş kapsamlı veri setleri ve yapılmış detaylı araştırmalar bulunmasına rağmen, Türkçede büyük bir veri seti ve kapsamlı bir çalışma literatürdeki önemli eksiklerden biridir. Bu çalışma, ironi ve mizah tespiti için iki veri seti hazırlayarak bu boşluğu doldurmayı amaçlamaktadır. Hazırlanan veri setlerini kullanarak, ironi ve mizah tespiti problemleri için SVM (Destek Vektör Makineleri) gibi geleneksel denetimli öğrenme yöntemleri ve BERT (Çift Yönlü Kodlayıcı Temsilleri) gibi büyük dil modelleri (LLM) ile ikili sınıflandırma modelleri tasarlanmıştır. Ayrıca bu çalışma, metinlerde stil analizi yöntemleriyle oluşturulan veri setlerinin taraflı olup olmadıklarını ve model açıklanabilirlik yöntemlerinden alınan sonuçların insan açıklamaları ile karşılaştırılmasıyla da modellerin taraflı ya da önyargılı olup olmadıklarını incelemektedir. Son olarak, LLM'ler ile sentetik veri üretimi yapılarak modelin önyargısını giderme ve genellenelebilirliğini artırma için bir metod önerilmektedir.

Özet (Çeviri)

In the age of social media, detecting ironic and satirical text automatically is a challenging task that is important for fighting misinformation online. Even though there are compelling datasets and research conducted in other languages, the literature lacks any large datasets and comprehensive studies conducted in Turkish. This work aims to fill that gap by first curating two datasets for irony and satire detection, and uses curated datasets to explore binary classification pipelines for irony and satire detection tasks with traditional supervised learning methods such as SVM (Support Vector Machine) and large language models (LLMs) such as BERT (Bidirectional Encoder Representations from Transformers). Furthermore, this work discusses the possible biased nature of the curated datasets by stylistic analysis, and possible inherited bias of the trained models by using model explainability methods and comparing the results with human annotations. Finally, a pipeline is proposed for debiasing and improving model generalisability by using synthetic data generation with LLMs.

Benzer Tezler

  1. Designing an RNG for secure data communication with WISP

    WISP ile güvenli veri transferi için random sayı üreteci tasarlanması

    CEM KÖSEMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN DALKILIÇ

  2. Çağdaş sanatta zıtlık kavramının fakülte ölçekli sanat eğitimine yansıması

    The reflection of the concept of contrast in contemporary art on art education at faculty

    LALE ASLAN

    Doktora

    Türkçe

    Türkçe

    2016

    Eğitim ve ÖğretimMarmara Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    PROF. DR. TAYFUN AKKAYA

  3. Interrogating the role of arginine methyltransferases in radiation response in glioma

    Arginin metiltransferazların gliomda radyasyon yanıtındaki rolününün incelenmesi

    BEYZA NUR KÖSEOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    GenetikKoç Üniversitesi

    Tıp Bilimleri Ana Bilim Dalı

    PROF. DR. TUĞBA BAĞCI ÖNDER

  4. Tiyatro'da ortaklaşa yaratım ve Türkiye'deki yansımaları (Devising theatre)

    Collaborative creation in theatre and its reflections in Turkey (Devising Theatre)

    GÜLCE UĞURLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Sahne ve Görüntü SanatlarıMimar Sinan Güzel Sanatlar Üniversitesi

    Sahne Sanatları Ana Sanat Dalı

    PROF. ZELİHA BERKSOY

  5. Kurmacılık yaklaşımı ile dijital oyun ortamında tasarım yapmanın, lise öğrencilerinin geometri başarı, özyeterlilik ve uzamsal becerilerine etkisi

    Effect of designing in digital game environment with a constructionist aproach, on geometry achievement, self - efficiacy and spatial ability of high school students

    MURAT AKBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Eğitim ve ÖğretimAtatürk Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. TÜRKAN KARAKUŞ