Unsupervised learning of word alignments for statistical machine translation

İstatistiksel makine çevirisi için kelime hizalamalarının gözetimsiz öğrenimi

PDF İndir

Tez No: 588900
Yazar: COŞKUN MERMER
Danışmanlar: PROF. DR. MURAT SARAÇLAR, DOÇ. DR. RUHİ SARIKAYA
Tez Türü: Doktora
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 110

Özet

Kelime hizalama, istatistiksel çeviri modeli öğreniminde kritik öneme sahip bir ilk aşamadır. Bu tez çalışmasında IBM kelime hizalama modellerinin parametreleri üzerine seyrek bir önsel getirerek kelime hizalamalarının gözetimsiz öğrenimi için Bayesçi bir yaklaşım önerilmektedir. Orijinal yöntemde kelime çeviri olasılıkları beklenti-eniyileme (EM) yöntemiyle kestirilmektedir. Önerilen yöntemde ise bu olasılıklar bir önsel dağılıma sahip rastsal değişkenlerdir ve daraltılmış Gibbs örneklemesi kullanılarak çıkarım esnasında tümlevi alınmaktadır. Çıkarımı yapılan hizalamalar bir istatistiksel makine çevirisi (SMT) ortamında birçok dil çifti ve derlem büyüklükleri üzerinde EM ve değişimsel Bayes (VB) ile kıyaslanarak değerlendirilmektedir. Önerilen Bayesçi yöntemin sınama senaryolarının çoğunluğunda diğer iki yöntemden üstünlüğü, EM yöntemindeki yüksek doğurganlıklı nadir kelime ve VB yöntemindeki hizalanmamış nadir kelime problemlerine etkin çözüm getirdiği, iki yöntemden de daha yüksek uzlaşım ve dağarcık kapsama oranı elde ettiği, ve daha küçük öbek tablolarını mümkün kıldığı gösterilmektedir. Tezde aynı zamanda SMT için en uygun bölütlemenin gözetimsiz öğrenimi için de bir yöntem önerilmektedir. Orijinal Morfessor tek dilli bölütleme modeli bir kelime hizalama modeliyle geliştirilmektedir, böylece yeni model paralel eğitim derleminin üretken bir bölütleme-hizalama modeline göre sonsal olasılığını eniyiler. Hesaplamayı hızlandırmak amacıyla, yaklaşık çeviri olabilirliğini hesaplamak için artımsal bir yöntem ve aynı zamanda tek dilli bölütlemenin de başarımını iyileştiren paralelleştirilebilen bir arama yordamı önerilmektedir. Önerilen yöntem bir Türkçeden İngilizceye SMT sisteminde Türkçe tarafı bölütlemek için kullanılmış ve iki dilli modelin daha sezgisel bölütlemelere yol açmasına rağmen BLEU skorlarında daha öte bir belirgin artış sağlamadığı gözlenmiştir.

Özet (Çeviri)

Word alignment is a crucial first step in learning statistical translation models. In this dissertation, we propose a Bayesian approach to unsupervised learning of word alignments by introducing a sparse prior on the parameters of IBM word alignment models. In the original approach, word translation probabilities are estimated using the expectation-maximization (EM) algorithm. In the proposed approach, they are random variables with a prior and are integrated out during inference, where collapsed Gibbs sampling is used. The inferred word alignments are evaluated in a statistical machine translation (SMT) setting, experimenting with several language pairs and sizes of corpora and comparing against the EM and variational Bayes (VB) methods. We show that Bayesian inference outperforms both EM and VB in the majority of test cases, effectively addresses the high-fertility rare word problem in EM and unaligned rare word problem in VB, achieves higher agreement and vocabulary coverage rates than both, and leads to smaller phrase tables. We also propose a method for unsupervised learning of the optimal segmentation for SMT. We augment the original Morfessor monolingual segmentation model with a word alignment model so that the new model optimizes the posterior probability of the parallel training corpus according to a generative segmentation-translation model. In order to speed up computation, we propose an incremental method for approximate translation likelihood calculation and a parallelizable search algorithm, which improves the performance of even the monolingual segmentation. We use the proposed method to segment the Turkish side in a Turkish-to-English SMT system and find that the bilingual model results in more intuitive segmentations but does not yield a further significant increase in BLEU scores.

Benzer Tezler

Tez No
765726
Unsupervised learning of morphology
Morfolojinin denetimsiz öğrenimi
MÜGE KURAL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Veri Bilimi Ana Bilim Dalı
PROF. DR. DENİZ YURET
Tez No
747430
Statistical models for unsupervised learning of morphology and PoS
Gozetimsiz morfoloji ve soz dizim ısaretlerinin ogrenilmesi icin ıstatistiksel modeller
BURCU CAN BUĞLALILAR
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol York University
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. SURESH MANANDHAR
Tez No
739505
Tüketici yorumlarının fayda düzeyinin tahminlenmesine yönelik bir araştırma: Makine öğrenmesi algoritmalarının karşılaştırılması
A study on estimating the usefulness level of consumer reviews: Comparison of machine learning algorithms
OĞUZHAN ARI
Yüksek Lisans
Türkçe
2022
Yönetim Bilişim Sistemleri Sakarya Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ADEM AKBIYIK
Tez No
290396
Disambiguation of stemming in turkish words in a text
Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi
HALİL TOSUNOĞLU
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MELİH KIRLIDOĞ
Tez No
301092
Unsupervised morphological analysis using tries
Ağaç yapısı kullanarak gözetimsiz biçimbirim analizi
KORAY AK
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Işık Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. OLCAY TANER YILDIZ

Geri Dön