Geri Dön

Improving text classification through variational autoencoder-based text generation

Varyasyonel otokodlayıcı tabanlı metin üretimi ile metin sınıflandırmanın iyileştirilmesi

  1. Tez No: 933535
  2. Yazar: ÖMER FARUK CEBECİ
  3. Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 66

Özet

Bu tez, veri sayısının düşük veya veri kaynağının sınırlı olduğu durumlarda metin sınıflandırma performansını artırmak amacıyla, Koşullu Varyasyonel Otokodlayıcı modeliyle sınıf koşullu sentetik metin verisi üretiminin metin sınıflandırma performansına etkisini incelemektedir. Özellikle, kaynak sıkıntısı bulunan dillerde veya etiketlenmiş veri setlerinin kısıtlı olduğu durumlarda sentetik olarak üretilmiş verinin rolü büyük önem taşımaktadır. Tezde, farklı sınıf sayısına sahip haber metinleri içeren veri setleri üzerinde gerçekleştirilen deneylerde, Koşullu Varyasyonel Otokodlayıcı modelleri sentetik veri üretimi için eğitilmiştir. Eğitilen bu modeller kullanılarak iki farklı yöntemle sentetik veriler üretilmiştir. İlk yöntem, gizli uzaydan Gauss dağılımı ile örneklemeler yaparak cümle üretmeyi hedeflemiştir. İkinci yöntem ise, gerçek cümlelerin belirli bir kısmı verilerek modelin bu cümlelerin devamını tamamlamasıyla sentetik veri oluşturmasını sağlamaktadır. Her iki yöntemle üretilen sentetik veriler, metin sınıflandırma modellerinin eğitiminde orijinal eğitim kümesine farklı oranlarda eklenerek modellerin performans değişimleri gözlemlenmiştir. Yapılan deneyler sonucunda, her iki yöntemle üretilen sentetik verilerin sınıflandırma modellerinin performansını anlamlı ölçüde artırdığı görülmüştür. Bununla birlikte, sınıflandırma modellerinin eğitiminde kullanılan verilerin sayısı arttıkça sentetik verilerin sağladığı faydanın azaldığı belirlenmiştir. Bu durum, sentetik veri kullanımının özellikle küçük veri setlerinde daha büyük bir avantaj sunduğunu göstermektedir. Bu sonuçlar, veri kısıtlılığının yaşandığı metin sınıflandırma görevlerinde sentetik veri üretiminin ve kullanımının sınıflandırma başarısını artıran etkili bir strateji olabileceğini göstermektedir.

Özet (Çeviri)

This thesis investigates the impact of class-conditioned synthetic text data generation using a Conditional Variational Autoencoder model on text classification performance, particularly in scenarios where the amount of data is limited or the data source is constrained. The role of synthetically generated data is particularly crucial in low-resource languages or cases where labeled datasets are scarce. In this study, experiments were conducted on datasets containing news texts with varying numbers of classes, and Conditional Variational Autoencoder models were trained for synthetic data generation. Using these trained models, synthetic data was generated through two different methods. The first method aimed to generate sentences by sampling from a Gaussian distribution. The second method, on the other hand, provided a partial real sentence as input, allowing the model to complete the remaining part, thus generating synthetic text data. The synthetic text data generated by both methods was incorporated into the original training set at different ratios to train text classification models, and the impact on classification performance was analyzed. The experimental results demonstrated that synthetic data generated by both methods significantly improved the performance of classification models. However, as the amount of training data increased, the benefit provided by synthetic data decreased. This finding indicates that synthetic data is particularly beneficial in cases where training data is scarce. These results suggest that synthetic data generation and usage can serve as an effective strategy for enhancing text classification performance in scenarios where data scarcity is a challenge.

Benzer Tezler

  1. Named entity recognition with neural networks and pretrained word embeddings

    Sinir ağları ve önceden eğitimli kelime yerleştirmeleri ile adlı varlık tanıma

    KARTAL ÇAĞLAR GÜRCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERDAR ARSLAN

  2. Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi

    Classification and analysis of employee feedback with deep learning algorithms

    GÖKHAN YİĞİDEFE

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN

  3. A comparative study of prompting and fine-tuning for binary text classification of sustainable development goals

    Sürdürülebilir kalkınma amaçlarının ikili metin sınıflandırmasında istemleme ve ince-ayar üzerine karşılaştırmalı bir çalışma

    MERT ATAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PELİN ANGIN ÜLKÜER

  4. Improving the performance of NLP tasks in legal tech

    Hukuk teknolojisinde NLP görevlerinin performansının iyileştirilmesi

    FARNAZ ZEIDI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM EROL

    PROF. DR. MEHMET FATİH AMASYALI

  5. Addressing encoder-only transformer limitations with graph neural networks for text classification

    Yalnızca kodlayıcı kullanan dönüştürücülerin metin sınıflandırmasındaki sınırlamalarının çizge sinir ağları ile aşılması

    ARDA CAN ARAS

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. AYKUT KOÇ