Improving text classification through variational autoencoder-based text generation
Varyasyonel otokodlayıcı tabanlı metin üretimi ile metin sınıflandırmanın iyileştirilmesi
- Tez No: 933535
- Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Bu tez, veri sayısının düşük veya veri kaynağının sınırlı olduğu durumlarda metin sınıflandırma performansını artırmak amacıyla, Koşullu Varyasyonel Otokodlayıcı modeliyle sınıf koşullu sentetik metin verisi üretiminin metin sınıflandırma performansına etkisini incelemektedir. Özellikle, kaynak sıkıntısı bulunan dillerde veya etiketlenmiş veri setlerinin kısıtlı olduğu durumlarda sentetik olarak üretilmiş verinin rolü büyük önem taşımaktadır. Tezde, farklı sınıf sayısına sahip haber metinleri içeren veri setleri üzerinde gerçekleştirilen deneylerde, Koşullu Varyasyonel Otokodlayıcı modelleri sentetik veri üretimi için eğitilmiştir. Eğitilen bu modeller kullanılarak iki farklı yöntemle sentetik veriler üretilmiştir. İlk yöntem, gizli uzaydan Gauss dağılımı ile örneklemeler yaparak cümle üretmeyi hedeflemiştir. İkinci yöntem ise, gerçek cümlelerin belirli bir kısmı verilerek modelin bu cümlelerin devamını tamamlamasıyla sentetik veri oluşturmasını sağlamaktadır. Her iki yöntemle üretilen sentetik veriler, metin sınıflandırma modellerinin eğitiminde orijinal eğitim kümesine farklı oranlarda eklenerek modellerin performans değişimleri gözlemlenmiştir. Yapılan deneyler sonucunda, her iki yöntemle üretilen sentetik verilerin sınıflandırma modellerinin performansını anlamlı ölçüde artırdığı görülmüştür. Bununla birlikte, sınıflandırma modellerinin eğitiminde kullanılan verilerin sayısı arttıkça sentetik verilerin sağladığı faydanın azaldığı belirlenmiştir. Bu durum, sentetik veri kullanımının özellikle küçük veri setlerinde daha büyük bir avantaj sunduğunu göstermektedir. Bu sonuçlar, veri kısıtlılığının yaşandığı metin sınıflandırma görevlerinde sentetik veri üretiminin ve kullanımının sınıflandırma başarısını artıran etkili bir strateji olabileceğini göstermektedir.
Özet (Çeviri)
This thesis investigates the impact of class-conditioned synthetic text data generation using a Conditional Variational Autoencoder model on text classification performance, particularly in scenarios where the amount of data is limited or the data source is constrained. The role of synthetically generated data is particularly crucial in low-resource languages or cases where labeled datasets are scarce. In this study, experiments were conducted on datasets containing news texts with varying numbers of classes, and Conditional Variational Autoencoder models were trained for synthetic data generation. Using these trained models, synthetic data was generated through two different methods. The first method aimed to generate sentences by sampling from a Gaussian distribution. The second method, on the other hand, provided a partial real sentence as input, allowing the model to complete the remaining part, thus generating synthetic text data. The synthetic text data generated by both methods was incorporated into the original training set at different ratios to train text classification models, and the impact on classification performance was analyzed. The experimental results demonstrated that synthetic data generated by both methods significantly improved the performance of classification models. However, as the amount of training data increased, the benefit provided by synthetic data decreased. This finding indicates that synthetic data is particularly beneficial in cases where training data is scarce. These results suggest that synthetic data generation and usage can serve as an effective strategy for enhancing text classification performance in scenarios where data scarcity is a challenge.
Benzer Tezler
- Named entity recognition with neural networks and pretrained word embeddings
Sinir ağları ve önceden eğitimli kelime yerleştirmeleri ile adlı varlık tanıma
KARTAL ÇAĞLAR GÜRCAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERDAR ARSLAN
- Derin öğrenme algoritmaları ile personel geri bildirimlerinin sınıflandırılması ve analizi
Classification and analysis of employee feedback with deep learning algorithms
GÖKHAN YİĞİDEFE
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERAP ÇAKAR KAMAN
- A comparative study of prompting and fine-tuning for binary text classification of sustainable development goals
Sürdürülebilir kalkınma amaçlarının ikili metin sınıflandırmasında istemleme ve ince-ayar üzerine karşılaştırmalı bir çalışma
MERT ATAY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PELİN ANGIN ÜLKÜER
- Improving the performance of NLP tasks in legal tech
Hukuk teknolojisinde NLP görevlerinin performansının iyileştirilmesi
FARNAZ ZEIDI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
PROF. DR. MEHMET FATİH AMASYALI
- Addressing encoder-only transformer limitations with graph neural networks for text classification
Yalnızca kodlayıcı kullanan dönüştürücülerin metin sınıflandırmasındaki sınırlamalarının çizge sinir ağları ile aşılması
ARDA CAN ARAS
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. AYKUT KOÇ