Türkçe-İngilizce sinirsel makine çeviri sistemi
Turkish-English neural machine translation system
- Tez No: 887169
- Danışmanlar: PROF. DR. DAVUT HANBAY
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: İnönü Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 119
Özet
Düşük kaynaklı dil çiftlerinde çeviri sistemlerinin geliştirilmesi, dil veri setlerinin yetersizliği nedeniyle önemli zorluklar içerir. Bu tür dillerde yeterli miktarda ve çeşitlilikte paralel külliyatın bulunmaması, modellerin eğitimi ve doğruluğu üzerinde olumsuz etkiler yaratır. Özellikle, Türkçe-İngilizce gibi dil çiftlerinde, morfolojik zenginlik ve dil bilgisel yapı farklılıkları, çeviri sistemlerinin hassasiyetini artıran faktörlerdir. Çeviri sistemlerinin bu zorlukların üstesinden gelebilmesi için ileri seviye makine öğrenimi tekniklerine ve veri artırma yöntemlerine ihtiyaç vardır. Bununla birlikte, düşük kaynaklı diller için transfer öğrenimi ve sıfırdan öğrenme gibi yöntemler de giderek önem kazanmaktadır. Bu alandaki ilerlemeler, çeviri kalitesini artırarak dil bariyerlerini aşmayı ve bilgiye erişimi küresel ölçekte yaygınlaştırmayı hedeflemektedir. Bu tez çalışmasında, Türkçe-İngilizce dil çiftinde düşük kaynak sorununu ortadan kaldırabilmek için ilk olarak web kazıma yöntemleri ve cümle hizalama algoritmalarıyla 1.2 milyon paralel cümleye sahip büyük bir paralel külliyat oluşturulmuştur. Bu külliyat, Türkçe ve İngilizce arasındaki çeviri sistemlerinin eğitimi ve doğruluğu açısından önemli bir temel sağlamaktadır. Ayrıca külliyatın oluşturulması diğer düşük kaynaklı diller için de önemli bir yol önermektedir. Ön eğitimli dil modelleri güncel doğal dil işleme uygulamalarında aktif olarak kullanılmaktadır. Bu sebeple sinirsel makine çeviri görevlerine dahil edilmesi için ek çalışmalar yapılmıştır. Bu çalışmalardan ilki Türkçe dil anlama görevlerinde farklı stratejilerle oluşturulmuş ön eğitimli dil modellerinin başarısının test edilmesidir. Oluşturulan farklı mimarilerle yapılan karşılaştırmalar sonucunda Bert dil modelinin Türkçe için başarılı sonuçlar elde ettiği görülmüştür. Dil modelleri üzerine yapılan ikinci çalışma da ise çok dilli ön eğitimden geçirilmiş modellerin çeviri sistemlerine uyarlanması üzerine deneyler yapılmıştır. Transfer öğrenme için parametre verimli olarak oluşturulan çeviri sistemi hesaplama maliyeti ve çeviri kalitesi açısından başarılı sonuçlar elde etmiştir. Son olarak çeviri sisteminin daha doğal, akıcı ve dil bilgisel doğruluğu artırabilmek için çeviri sistemi oluşturulmuştur. Bu sistem de öz dikkat mimarisine sahip kodlayıcı kod çözücü mimarisi Türkçe-İngilizce çeviriler yapmak için kullanılmıştır. Ön eğitimli dil modeli ise çevirilerde akıcılığı artırmak için kullanılmıştır. Bu çeviri sistemi için yeni bir sığ füzyon yöntemi önerilmiştir. Önerilen yöntemde ilk çalışma da oluşturulan paralel külliyat ve sonraki çalışmalarda kullanılan dil modelleri ile geliştirilmiştir.
Özet (Çeviri)
Developing translation systems for low-resource language pairs presents significant challenges due to the lack of adequate language datasets. The absence of a sufficient amount and variety of parallel corpora in such languages negatively impacts the training and accuracy of the models. Especially for language pairs like Turkish-English, morphological richness and differences in grammatical structures are factors that increase the sensitivity of translation systems. Advanced machine learning techniques and data augmentation methods are needed for translation systems to overcome these challenges. Moreover, methods such as transfer learning and zero-shot learning for low-resource languages are gaining importance. Advances in this field aim to improve translation quality, overcome language barriers, and disseminate access to information on a global scale. In this thesis, to address the low-resource issue for the Turkish-English language pair, a large parallel corpus with 1.2 million parallel sentences was created using web scraping methods and sentence alignment algorithms. This corpus provides a significant foundation for the training and accuracy of translation systems between Turkish and English. Additionally, the creation of this corpus proposes an important path for other low-resource languages. Pre-trained language models are actively used in current natural language processing applications. Therefore, additional studies have been conducted to incorporate them into neural machine translation tasks. The first of these studies is to test the success of pre-trained language models created with different strategies in Turkish language understanding tasks. Comparisons made with different architectures showed that the BERT language model achieved successful results for Turkish. In the second study on language models, experiments were conducted on adapting models pre-trained in multiple languages to translation systems. The translation system created with parameter-efficient transfer learning achieved successful results in terms of computational cost and translation quality. Finally, to enhance the translation system's naturalness, fluency, and grammatical accuracy, a translation system was developed. This system used an encoder-decoder architecture with a self-attention mechanism for Turkish-English translations. The pretrained language model was used to increase fluency in translations. A new shallow fusion method was proposed for this translation system. The proposed method was developed with the parallel corpus created in the first study and the language models used in the subsequent studies.
Benzer Tezler
- Morphologically motivated ınput variations in Turkish-English neural machine translation
Türkçe-İngilizce sinirsel makine çevirisinde morfolojik güdümlü girdi varyasyonları
ZEYNEP YİRMİBEŞOĞLU
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- A deep learning based translation system from Ottoman Turkish to Modern Turkish
Osmanlı Türkçesinden modern Türkçeye derin öğrenme tabanlı çeviri sistemi
ABDULLAH BAKIRCI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF SİNAN AKGÜL
- Domain-aware conversational open question answering for resource-constrained languages
Kaynak kısıtı olan diller için alan farkındalığına sahip sohbetsel serbest soru-cevaplama
EMRAH BUDUR
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- NARMA-L2 controller design for nonlinear systems using online lssvr
Doğrusal olmayan sistemler için çevrimiçi en küçük kareler destek vektör regresyonu ile NARMA-L2 kontrolör tasarımı
GÖKÇEN DEVLET ŞEN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLAY ÖKE GÜNEL
- Minding the Shop: Zati and the Making of Ottoman Poetry in the First Half of the Sixteenth Century
Dükkâna bakarken: Onaltıncı yüzyılın ilk yarısında zati ve Osmanlı şiirinin oluşumu
SOOYONG KIM
Doktora
İngilizce
2005
Karşılaştırmalı EdebiyatUniversity of ChicagoBeşeri ve Sosyal Bilimler Ana Bilim Dalı
Prof. Dr. ROBERT DANKOFF