Unsupervised learning of word alignments for statistical machine translation
İstatistiksel makine çevirisi için kelime hizalamalarının gözetimsiz öğrenimi
- Tez No: 588900
- Danışmanlar: PROF. DR. MURAT SARAÇLAR, DOÇ. DR. RUHİ SARIKAYA
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 110
Özet
Kelime hizalama, istatistiksel çeviri modeli öğreniminde kritik öneme sahip bir ilk aşamadır. Bu tez çalışmasında IBM kelime hizalama modellerinin parametreleri üzerine seyrek bir önsel getirerek kelime hizalamalarının gözetimsiz öğrenimi için Bayesçi bir yaklaşım önerilmektedir. Orijinal yöntemde kelime çeviri olasılıkları beklenti-eniyileme (EM) yöntemiyle kestirilmektedir. Önerilen yöntemde ise bu olasılıklar bir önsel dağılıma sahip rastsal değişkenlerdir ve daraltılmış Gibbs örneklemesi kullanılarak çıkarım esnasında tümlevi alınmaktadır. Çıkarımı yapılan hizalamalar bir istatistiksel makine çevirisi (SMT) ortamında birçok dil çifti ve derlem büyüklükleri üzerinde EM ve değişimsel Bayes (VB) ile kıyaslanarak değerlendirilmektedir. Önerilen Bayesçi yöntemin sınama senaryolarının çoğunluğunda diğer iki yöntemden üstünlüğü, EM yöntemindeki yüksek doğurganlıklı nadir kelime ve VB yöntemindeki hizalanmamış nadir kelime problemlerine etkin çözüm getirdiği, iki yöntemden de daha yüksek uzlaşım ve dağarcık kapsama oranı elde ettiği, ve daha küçük öbek tablolarını mümkün kıldığı gösterilmektedir. Tezde aynı zamanda SMT için en uygun bölütlemenin gözetimsiz öğrenimi için de bir yöntem önerilmektedir. Orijinal Morfessor tek dilli bölütleme modeli bir kelime hizalama modeliyle geliştirilmektedir, böylece yeni model paralel eğitim derleminin üretken bir bölütleme-hizalama modeline göre sonsal olasılığını eniyiler. Hesaplamayı hızlandırmak amacıyla, yaklaşık çeviri olabilirliğini hesaplamak için artımsal bir yöntem ve aynı zamanda tek dilli bölütlemenin de başarımını iyileştiren paralelleştirilebilen bir arama yordamı önerilmektedir. Önerilen yöntem bir Türkçeden İngilizceye SMT sisteminde Türkçe tarafı bölütlemek için kullanılmış ve iki dilli modelin daha sezgisel bölütlemelere yol açmasına rağmen BLEU skorlarında daha öte bir belirgin artış sağlamadığı gözlenmiştir.
Özet (Çeviri)
Word alignment is a crucial first step in learning statistical translation models. In this dissertation, we propose a Bayesian approach to unsupervised learning of word alignments by introducing a sparse prior on the parameters of IBM word alignment models. In the original approach, word translation probabilities are estimated using the expectation-maximization (EM) algorithm. In the proposed approach, they are random variables with a prior and are integrated out during inference, where collapsed Gibbs sampling is used. The inferred word alignments are evaluated in a statistical machine translation (SMT) setting, experimenting with several language pairs and sizes of corpora and comparing against the EM and variational Bayes (VB) methods. We show that Bayesian inference outperforms both EM and VB in the majority of test cases, effectively addresses the high-fertility rare word problem in EM and unaligned rare word problem in VB, achieves higher agreement and vocabulary coverage rates than both, and leads to smaller phrase tables. We also propose a method for unsupervised learning of the optimal segmentation for SMT. We augment the original Morfessor monolingual segmentation model with a word alignment model so that the new model optimizes the posterior probability of the parallel training corpus according to a generative segmentation-translation model. In order to speed up computation, we propose an incremental method for approximate translation likelihood calculation and a parallelizable search algorithm, which improves the performance of even the monolingual segmentation. We use the proposed method to segment the Turkish side in a Turkish-to-English SMT system and find that the bilingual model results in more intuitive segmentations but does not yield a further significant increase in BLEU scores.
Benzer Tezler
- Unsupervised learning of morphology
Morfolojinin denetimsiz öğrenimi
MÜGE KURAL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiVeri Bilimi Ana Bilim Dalı
PROF. DR. DENİZ YURET
- Statistical models for unsupervised learning of morphology and PoS
Gozetimsiz morfoloji ve soz dizim ısaretlerinin ogrenilmesi icin ıstatistiksel modeller
BURCU CAN BUĞLALILAR
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYork UniversityBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. SURESH MANANDHAR
- Tüketici yorumlarının fayda düzeyinin tahminlenmesine yönelik bir araştırma: Makine öğrenmesi algoritmalarının karşılaştırılması
A study on estimating the usefulness level of consumer reviews: Comparison of machine learning algorithms
OĞUZHAN ARI
Yüksek Lisans
Türkçe
2022
Yönetim Bilişim SistemleriSakarya ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ADEM AKBIYIK
- Disambiguation of stemming in turkish words in a text
Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi
HALİL TOSUNOĞLU
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MELİH KIRLIDOĞ
- Unsupervised morphological analysis using tries
Ağaç yapısı kullanarak gözetimsiz biçimbirim analizi
KORAY AK
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. OLCAY TANER YILDIZ