Veri artırımında küçük modellerin eğitimi ile büyük modelleri kullanmanın karşılaştırılması

Comparison of training small models and using large models in data augmentation

PDF İndir

Tez No: 953585
Yazar: ENES DOĞAN ŞANLI
Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik Tesisleri Ana Bilim Dalı
Bilim Dalı: Elektrik Bilim Dalı
Sayfa Sayısı: 97

Özet

Yapay zekâ alanındaki gelişmeler, özellikle uygulamalar ve modeller açısından dikkat çekici seviyede hız kazanmıştır. Her geçen gün yeni bir model veya mevcut modellerin iyileştirilmiş versiyonları kullanıma sunulmaktadır. Bu modellerin eğitilmesinde veri setleri kilit rol oynamaktadır. Veri artırımı, yetersiz veya dengesiz veri setleri için metin ve görsel veriler dahil birçok veri tipinde kullanılan etkili bir çözüm yöntemidir. Bu çalışma, veri artırımı işlemlerinde dil modellerinin ince ayar teknikleri ile ilgili göreve uygun hale getirilmesini ve bu model kullanılarak gerçekleştirilen veri artırımı işleminin metin sınıflandırma görevlerindeki sınıflandırma modelleri ile test edilmesini kapsamaktadır. Farklı veri artırım oranlarının sınıflandırma modellerinin başarısına etkisi de bu çalışma içerisinde incelenmiştir. Çalışmamızda Türkçe dili için optimize edilmiş GPT-2 tabanlı bir dil modeli kullanılmış ve Denetimli İnce Ayarlama (DİA) yöntemi kullanılarak negatif ve pozitif duygu sınıfları için özelleştirilmiş iki adet model geliştirilmiştir. Orijinal veri setine ek olarak 250, 500, 750 ve 1000 adet sentetik veri oluşturulmuş ve sınıflandırma modellerinin test performansı karşılaştırılmıştır. Deneysel çalışmalarda sınıflandırma modeli olarak Rassal Orman (RO) ve Destek Vektör Makinesi (DVM), veri seti olarak da üç farklı duygu veri seti kullanılmıştır. Bulgular incelendiğinde en yüksek sınıflandırma başarısının veri seti ve model kombinasyonlarına göre değiştiği, ancak genel olarak DVM modelinin daha üstün başarı sergilediği gözlemlenmiştir. Sentetik veri artışı, sınıflandırma modellerinin başarısını istikrarlı şekilde artırmıştır. Dikkat çekici bir bulgu, geliştirilen negatif ve pozitif duygu odaklı dil modellerinin, büyük dil modellerine göre kıyasla daha tutarlı ve performanslı bir sonuç sergilemesidir. Bu bulgular, metin veri artırımı işlemlerinde çok yüksek parametreli dil modellerinin kullanılması yerine daha düşük parametreli dil modellerinin ilgili görev için eğitilmesinin ve veri artırımında kullanılmasının sınıflandırma performansını artırmak için kullanılabileceğini vurgulamaktadır.

Özet (Çeviri)

Developments in the field of artificial intelligence have accelerated remarkably, especially in terms of applications and models. Every day a new models or improved versions of existing models are introduced. Data sets play a key role in training these models. Data augmentation is an effective solution for inadequate or imbalanced data sets for many data types, including text and visual data. In this study, data augmentation involves fine-tuning language models to make them suitable for the task at hand and testing the data augmentation process using this model with classification models in text classification tasks. The effect of different data augmentation rates on the success of classification models is also examined in this study. In our study, a GPT-2 based language model optimized for the Turkish language was used and two customized models were developed for negative and positive emotion classes using the Supervised Fine-Tuning (SFT) method. In addition to the original dataset, 250, 500, 750, and 1000 synthetic data were generated, and the test performance of the classification models were compared. In the experimental studies, Random Forest (RF) and Support Vector Machine (SVM) were used as classification models, and three different emotion datasets were used as datasets. The findings show that the highest classification success varies according to the dataset and model combinations, but in general, the SVM model exhibits superior performance. The increase in synthetic data has steadily increased the success of the classification models. A noteworthy finding is that the developed negative and positive emotion-oriented language models are more consistent and perform better than the big language models. These findings emphasize that instead of using very high-parameter language models in text data augmentation processes, lower-parameter language models can be trained for the relevant task and used in data augmentation to improve classification performance.

Benzer Tezler

Tez No
541786
Deep convolutional neural network based unconstrained ear recognition
Derin evrişimsel sinir ağı tabanlı kısıtsız kulak tanıma
FEVZİYE İREM EYİOKUR
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL
Tez No
834363
Auditory detection of clips failures in manufacturing
Üretimde klips hatalarının ses tabanlı tespiti
SABRİ SÜER
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
Tez No
776637
Comparison of long term and cycle data calibration for modelling of sequencing batch reactor
Ardışık kesikli reaktörün modellenmesi için uzun dönemli ve döngüsel veri kalibrasyonlarının karşılaştırılması
YASEMİN ÖZLİMAN FARIMMAZ
Yüksek Lisans
İngilizce
2022
Çevre Mühendisliği İstanbul Teknik Üniversitesi
Çevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. NEVİN YAĞCI
Tez No
850825
High-rate activated sludge process for energy efficient wastewater treatment
Enerji verimli atıksu arıtımı için yüksek yüklemeli aktif çamur prosesi
HAZAL GÜLHAN
Doktora
İngilizce
2023
Çevre Mühendisliği İstanbul Teknik Üniversitesi
Çevre Mühendisliği Ana Bilim Dalı
PROF. DR. İZZET ÖZTÜRK
Tez No
940901
Gaziantep'te PM2.5 konsantrasyonunun zamansal ve mekânsaltahminine yönelik transfer öğrenme destekli hibrit yapay zeka modelleri
Spatio-temporal estimation of PM2.5 concentrations in gaziantepusing transfer learning-based hybrid artificial intelligence models
TÜRKAN ZENGİN GÖMLEKSİZ
Yüksek Lisans
Türkçe
2025
Meteoroloji İstanbul Teknik Üniversitesi
İklim Bilimi ve Meteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. HÜSEYİN TOROS

Geri Dön