Türkçe yoruma dayalı metin özetlemede transformer tabanlı veri arttırma destekli hibrit yaklaşım önerisi
A hybrid approach supported by transformer-based data augmentation for turkish abstractive text summarization
- Tez No: 960905
- Danışmanlar: DOÇ. AYSUN GÜRAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Doğuş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 83
Özet
Bu tez çalışması, Türkçe dilinde otomatik metin özetleme alanında transformer tabanlı modellerin ince ayar süreçlerini sistematik olarak incelemeyi ve farklı veri artırma stratejilerinin model performansı üzerindeki etkilerini değerlendirmeyi amaçlamaktadır. Düşük kaynaklı diller arasında yer alan Türkçe için, sınırlı veri miktarının özetleme modelleri üzerindeki etkisini azaltmak ve daha yüksek performanslı özetleme sistemleri geliştirmek hedeflenmiştir. Çalışmada, kodlayıcı-çözücü mimarisine sahip Multilingual Bidirectional and Auto-Regressive Transformer (MBART), Multilingual Text-to-Text Transfer Transformer (MT5) ve VBART modelleri seçilerek hem orijinal veri hem de farklı veri artırma teknikleriyle zenginleştirilmiş veri setleri üzerinde eğitim süreçleri gerçekleştirilmiştir. Bu kapsamda üç farklı veri senaryosu tasarlanmış; geri çeviri, eş anlamlı kelime değiştirme ve her iki yöntemin birleşimiyle oluşturulan hibrit veri artırımı stratejileri uygulanmıştır. Tez kapsamında, yalnızca farklı veri artırma yöntemlerinin nicel etkilerini ortaya koymak değil, aynı zamanda bu yöntemlerin model çıktılarının içerik kalitesi ve bağlamsal tutarlılığı üzerindeki etkilerini de nitel olarak değerlendirmek amaçlanmıştır. Bu çerçevede, Recall-Oriented Understudy for Gisting Evaluation (ROUGE) metrikleriyle yapılan ölçümler istatistiksel yöntemlerle desteklenmiş, model çıktıları ise içerik analizi yöntemiyle derinlemesine incelenmiştir. Bu çalışma ile Türkçe için daha etkili özetleme modellerinin geliştirilmesine katkı sunmak, aynı zamanda düşük kaynaklı dillerde doğal dil işleme alanında veri artırma stratejilerinin önemini vurgulamak hedeflenmiştir.
Özet (Çeviri)
This dissertation investigates the optimization of transformer-based models for automated text summarization in Turkish, a language with limited linguistic resources and examines the influence of diverse data augmentation strategies on model efficacy. The study seeks to overcome the constraints of scarce training data, aiming to construct more reliable and precise summarization frameworks for Turkish. The research employs encoder-decoder models, namely MBART, MT5 and VBART which were trained on both unaltered datasets and enriched versions incorporating augmentation techniques such as back-translation, synonym substitution, and a combined approach integrating both methods. To evaluate the effects of these augmentation strategies, the study adopts a dual approach: quantitative assessment through ROUGE metrics, supported by robust statistical methods, and qualitative evaluation via content analysis to scrutinize the coherence and substantive quality of the generated summaries. The outcomes of this research are anticipated to contribute significantly to the advancement of Turkish text summarization systems and highlight the pivotal role of data augmentation in enhancing natural language processing for languages with limited resources.
Benzer Tezler
- Makine öğrenmesi kullanarak metin özetleme
Text summarization using machine learning
GÜLNİHAL UYKUN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARİF KOYUN
- Otomatik metin özetleme sistemi
Automatic tex summarization system
AYSUN GÜRAN
Doktora
Türkçe
2013
MatematikYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Makine öğrenmesi yöntemleri ile türkçe haberlerin özetlenmesi
Summarization of turkish news with machine learning
BURAK ÖZDEMİR
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
- Cohesion in Turkish a survey of cohesive devices in prose literature
Başlık çevirisi yok
FUAT ALTUNKAYA