Designing and debiasing binary classifiers for irony and satire detection

İroni ve satir tespiti için ikili sınıflandırma modellerinin tasarlanması ve önyargıdan arındırılması

PDF İndir

Tez No: 897481
Yazar: ASLI UMAY ÖZTÜRK
Danışmanlar: PROF. DR. PINAR KARAGÖZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 114

Özet

Sosyal medya çağında, ironi ve mizahi metinleri otomatik olarak tespit etmek, çevrimiçi yanlış bilgilere karşı mücadele için önem arz etmektedir. Diğer diller için oluşturulmuş kapsamlı veri setleri ve yapılmış detaylı araştırmalar bulunmasına rağmen, Türkçede büyük bir veri seti ve kapsamlı bir çalışma literatürdeki önemli eksiklerden biridir. Bu çalışma, ironi ve mizah tespiti için iki veri seti hazırlayarak bu boşluğu doldurmayı amaçlamaktadır. Hazırlanan veri setlerini kullanarak, ironi ve mizah tespiti problemleri için SVM (Destek Vektör Makineleri) gibi geleneksel denetimli öğrenme yöntemleri ve BERT (Çift Yönlü Kodlayıcı Temsilleri) gibi büyük dil modelleri (LLM) ile ikili sınıflandırma modelleri tasarlanmıştır. Ayrıca bu çalışma, metinlerde stil analizi yöntemleriyle oluşturulan veri setlerinin taraflı olup olmadıklarını ve model açıklanabilirlik yöntemlerinden alınan sonuçların insan açıklamaları ile karşılaştırılmasıyla da modellerin taraflı ya da önyargılı olup olmadıklarını incelemektedir. Son olarak, LLM'ler ile sentetik veri üretimi yapılarak modelin önyargısını giderme ve genellenelebilirliğini artırma için bir metod önerilmektedir.

Özet (Çeviri)

In the age of social media, detecting ironic and satirical text automatically is a challenging task that is important for fighting misinformation online. Even though there are compelling datasets and research conducted in other languages, the literature lacks any large datasets and comprehensive studies conducted in Turkish. This work aims to fill that gap by first curating two datasets for irony and satire detection, and uses curated datasets to explore binary classification pipelines for irony and satire detection tasks with traditional supervised learning methods such as SVM (Support Vector Machine) and large language models (LLMs) such as BERT (Bidirectional Encoder Representations from Transformers). Furthermore, this work discusses the possible biased nature of the curated datasets by stylistic analysis, and possible inherited bias of the trained models by using model explainability methods and comparing the results with human annotations. Finally, a pipeline is proposed for debiasing and improving model generalisability by using synthetic data generation with LLMs.

Benzer Tezler

Tez No
564979
Designing an RNG for secure data communication with WISP
WISP ile güvenli veri transferi için random sayı üreteci tasarlanması
CEM KÖSEMEN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN DALKILIÇ
Tez No
435383
Çağdaş sanatta zıtlık kavramının fakülte ölçekli sanat eğitimine yansıması
The reflection of the concept of contrast in contemporary art on art education at faculty
LALE ASLAN
Doktora
Türkçe
2016
Eğitim ve Öğretim Marmara Üniversitesi
Güzel Sanatlar Eğitimi Ana Bilim Dalı
PROF. DR. TAYFUN AKKAYA
Tez No
846436
Interrogating the role of arginine methyltransferases in radiation response in glioma
Arginin metiltransferazların gliomda radyasyon yanıtındaki rolününün incelenmesi
BEYZA NUR KÖSEOĞLU
Yüksek Lisans
İngilizce
2024
Genetik Koç Üniversitesi
Tıp Bilimleri Ana Bilim Dalı
PROF. DR. TUĞBA BAĞCI ÖNDER
Tez No
357522
Tiyatro'da ortaklaşa yaratım ve Türkiye'deki yansımaları (Devising theatre)
Collaborative creation in theatre and its reflections in Turkey (Devising Theatre)
GÜLCE UĞURLU
Yüksek Lisans
Türkçe
2014
Sahne ve Görüntü Sanatları Mimar Sinan Güzel Sanatlar Üniversitesi
Sahne Sanatları Ana Sanat Dalı
PROF. ZELİHA BERKSOY
Tez No
394796
Kurmacılık yaklaşımı ile dijital oyun ortamında tasarım yapmanın, lise öğrencilerinin geometri başarı, özyeterlilik ve uzamsal becerilerine etkisi
Effect of designing in digital game environment with a constructionist aproach, on geometry achievement, self - efficiacy and spatial ability of high school students
MURAT AKBAY
Yüksek Lisans
Türkçe
2015
Eğitim ve Öğretim Atatürk Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. TÜRKAN KARAKUŞ

Geri Dön