Improving text classification through variational autoencoder-based text generation

Varyasyonel otokodlayıcı tabanlı metin üretimi ile metin sınıflandırmanın iyileştirilmesi

PDF İndir

Tez No: 933535
Yazar: ÖMER FARUK CEBECİ
Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 66

Özet

Bu tez, veri sayısının düşük veya veri kaynağının sınırlı olduğu durumlarda metin sınıflandırma performansını artırmak amacıyla, Koşullu Varyasyonel Otokodlayıcı modeliyle sınıf koşullu sentetik metin verisi üretiminin metin sınıflandırma performansına etkisini incelemektedir. Özellikle, kaynak sıkıntısı bulunan dillerde veya etiketlenmiş veri setlerinin kısıtlı olduğu durumlarda sentetik olarak üretilmiş verinin rolü büyük önem taşımaktadır. Tezde, farklı sınıf sayısına sahip haber metinleri içeren veri setleri üzerinde gerçekleştirilen deneylerde, Koşullu Varyasyonel Otokodlayıcı modelleri sentetik veri üretimi için eğitilmiştir. Eğitilen bu modeller kullanılarak iki farklı yöntemle sentetik veriler üretilmiştir. İlk yöntem, gizli uzaydan Gauss dağılımı ile örneklemeler yaparak cümle üretmeyi hedeflemiştir. İkinci yöntem ise, gerçek cümlelerin belirli bir kısmı verilerek modelin bu cümlelerin devamını tamamlamasıyla sentetik veri oluşturmasını sağlamaktadır. Her iki yöntemle üretilen sentetik veriler, metin sınıflandırma modellerinin eğitiminde orijinal eğitim kümesine farklı oranlarda eklenerek modellerin performans değişimleri gözlemlenmiştir. Yapılan deneyler sonucunda, her iki yöntemle üretilen sentetik verilerin sınıflandırma modellerinin performansını anlamlı ölçüde artırdığı görülmüştür. Bununla birlikte, sınıflandırma modellerinin eğitiminde kullanılan verilerin sayısı arttıkça sentetik verilerin sağladığı faydanın azaldığı belirlenmiştir. Bu durum, sentetik veri kullanımının özellikle küçük veri setlerinde daha büyük bir avantaj sunduğunu göstermektedir. Bu sonuçlar, veri kısıtlılığının yaşandığı metin sınıflandırma görevlerinde sentetik veri üretiminin ve kullanımının sınıflandırma başarısını artıran etkili bir strateji olabileceğini göstermektedir.

Özet (Çeviri)

This thesis investigates the impact of class-conditioned synthetic text data generation using a Conditional Variational Autoencoder model on text classification performance, particularly in scenarios where the amount of data is limited or the data source is constrained. The role of synthetically generated data is particularly crucial in low-resource languages or cases where labeled datasets are scarce. In this study, experiments were conducted on datasets containing news texts with varying numbers of classes, and Conditional Variational Autoencoder models were trained for synthetic data generation. Using these trained models, synthetic data was generated through two different methods. The first method aimed to generate sentences by sampling from a Gaussian distribution. The second method, on the other hand, provided a partial real sentence as input, allowing the model to complete the remaining part, thus generating synthetic text data. The synthetic text data generated by both methods was incorporated into the original training set at different ratios to train text classification models, and the impact on classification performance was analyzed. The experimental results demonstrated that synthetic data generated by both methods significantly improved the performance of classification models. However, as the amount of training data increased, the benefit provided by synthetic data decreased. This finding indicates that synthetic data is particularly beneficial in cases where training data is scarce. These results suggest that synthetic data generation and usage can serve as an effective strategy for enhancing text classification performance in scenarios where data scarcity is a challenge.

Benzer Tezler

Tez No
842680
Named entity recognition with neural networks and pretrained word embeddings
Sinir ağları ve önceden eğitimli kelime yerleştirmeleri ile adlı varlık tanıma
KARTAL ÇAĞLAR GÜRCAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Çankaya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERDAR ARSLAN
Tez No
947073
Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
Tez No
898270
A comparative study of prompting and fine-tuning for binary text classification of sustainable development goals
Sürdürülebilir kalkınma amaçlarının ikili metin sınıflandırmasında istemleme ve ince-ayar üzerine karşılaştırmalı bir çalışma
MERT ATAY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PELİN ANGIN ÜLKÜER
Tez No
845407
Improving the performance of NLP tasks in legal tech
Hukuk teknolojisinde NLP görevlerinin performansının iyileştirilmesi
FARNAZ ZEIDI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
PROF. DR. MEHMET FATİH AMASYALI
Tez No
918321
Addressing encoder-only transformer limitations with graph neural networks for text classification
Yalnızca kodlayıcı kullanan dönüştürücülerin metin sınıflandırmasındaki sınırlamalarının çizge sinir ağları ile aşılması
ARDA CAN ARAS
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. AYKUT KOÇ

Geri Dön