Data augmentation for natural language processing

Doğal dil işleme için veri artırma

PDF İndir

Tez No: 896660
Yazar: MUSTAFA ÇATALTAŞ
Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ, DOÇ. DR. NURDAN BAYKAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Gelişmiş derin öğrenme modelleri, çeşitli doğal dil işleme (DDİ) görevlerinin etkinliğini büyük ölçüde artırmıştır. Bu modeller genellikle bol miktarda veriyle en iyi performansı gösterirken, her görev için büyük veri kümeleri elde etmek her zaman kolay olmamaktadır. Bu nedenle, veri artırma teknikleri kullanılarak, mevcut veriden sentetik örnekler oluşturarak kapsamlı veri kümelerinin elde edilmesi sağlanabilmektedir. Bu tez, metin sınıflandırma görevlerinde sınıflandırma modellerinin performansını artırmayı amaçlayan bir metinsel veri artırma tekniği olarak otokodlayıcıların etkililiğini incelemektedir. Analiz, Geleneksel Otokodlayıcı (GO), Değişimsel Otokodlayıcı (DO), Çekişmeli Otokodlayıcı (ÇO) ve Gürültü Önleyici Çekişmeli Otokodlayıcı (GÖÇO) olmak üzere dört farklı otokodlayıcı türünün karşılaştırılmasını kapsamaktadır. Ayrıca çalışma; farklı kelime gömme (temsil) türlerinin, ön işleme yöntemlerinin, etiket tabanlı filtrelemenin ve eğitme sayılarının otokodlayıcıların performansı üzerindeki etkisini araştırmaktadır. Deneysel çalışmalarda 7791 eğitim verisine sahip SST-2 duygu sınıflandırma veri seti kullanılmıştır. Veri arttırma çalışmaları için bu veri setinden rastgele seçilmiş 100, 200, 400 ve 1000 boyutundaki verilerle çalışılmıştır. Deneysel değerlendirmelerde, küçük veri setlerinde çalışırken 1:1, 1:2, 1:4 ve 1:8 oranlarında veri arttırma yapılmıştır. Temel modellerle karşılaştırmalı analizler, arttırma oranı 1:1'de GO tabanlı veri arttırma yöntemlerinin üstünlüğünü göstermektedir. Bu bulgular, otokodlayıcıların, doğal dil işleme uygulamalarındaki metin sınıflandırma performansını optimize etmek için veri arttırma yöntemleri olarak kullanılmasının etkililiğini vurgulamaktadır.

Özet (Çeviri)

Advanced deep learning models have greatly improved various natural language processing tasks. While they perform best with abundant data, acquiring large datasets for each task is not always easy. Therefore, by using data augmentation techniques, comprehensive data sets can be obtained by creating synthetic samples from existing data. This thesis undertakes an examination of the efficacy of autoencoders as a textual data augmentation technique targeted at improving the performance of classification models in text classification tasks. The analysis encompasses the comparison of four distinct autoencoder types: Traditional Autoencoder (AE), Adversarial Autoencoder (AAE) Denoising Adversarial Autoencoder (DAAE) and Variational Autoencoder (VAE). Moreover, the study investigates the impact of different word embedding types, preprocessing methods, label-based filtering, and the number of epochs for training on the performance of autoencoders. Experimental evaluations are conducted using the SST-2 sentiment classification dataset, consisting of 7791 training instances. For data augmentation experiments, subsets of 100, 200, 400, and 1000 randomly selected instances from this dataset were employed. Experimental evaluations involved augmenting data at ratios of 1:1, 1:2, 1:4, and 1:8 when working with small datasets. Comparative analysis with baseline models demonstrates the superiority of AE-based data augmentation methods at a 1:1 augmentation ratio. These findings underscore the effectiveness of using autoencoders as data augmentation methods for optimizing text classification performance in NLP applications.

Benzer Tezler

Tez No
960905
Türkçe yoruma dayalı metin özetlemede transformer tabanlı veri arttırma destekli hibrit yaklaşım önerisi
A hybrid approach supported by transformer-based data augmentation for turkish abstractive text summarization
UMUT CAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Doğuş Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. AYSUN GÜRAN
Tez No
833083
Cevap seçimi için derin öğrenme tabanlı bir melez zeki sistem tasarımı ve gerçekleştirimi
Design and implementation of deep learning-based hybrid intelligent system for answer selection
CANER ULUTÜRK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYBARS UĞUR
Tez No
752523
Dönüştürücü dil modellerine etkili hassas ayar yapmak için veri mühendisliği yöntemleri
Data engineering methods for effective fine tuning transformers language models
MUHAMMED SAİD ZENGİN
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MÜCAHİD KUTLU
Tez No
690424
Morphologically motivated ınput variations in Turkish-English neural machine translation
Türkçe-İngilizce sinirsel makine çevirisinde morfolojik güdümlü girdi varyasyonları
ZEYNEP YİRMİBEŞOĞLU
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
Tez No
755523
Augmenting a Turkish dataset for spam filtering using natural language processing techniques
Doğal dil işleme teknikleri kullanılarak spam filtreleme için Türkçe veri kümesinin genişletilmesi
AYŞENUR AKSOY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Siber Güvenlik Ana Bilim Dalı
PROF. DR. BANU GÜNEL KILIÇ
DOÇ. DR. CENGİZ ACARTÜRK

Geri Dön