Geri Dön

Unsupervised learning of word alignments for statistical machine translation

İstatistiksel makine çevirisi için kelime hizalamalarının gözetimsiz öğrenimi

  1. Tez No: 588900
  2. Yazar: COŞKUN MERMER
  3. Danışmanlar: PROF. DR. MURAT SARAÇLAR, DOÇ. DR. RUHİ SARIKAYA
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 110

Özet

Kelime hizalama, istatistiksel çeviri modeli öğreniminde kritik öneme sahip bir ilk aşamadır. Bu tez çalışmasında IBM kelime hizalama modellerinin parametreleri üzerine seyrek bir önsel getirerek kelime hizalamalarının gözetimsiz öğrenimi için Bayesçi bir yaklaşım önerilmektedir. Orijinal yöntemde kelime çeviri olasılıkları beklenti-eniyileme (EM) yöntemiyle kestirilmektedir. Önerilen yöntemde ise bu olasılıklar bir önsel dağılıma sahip rastsal değişkenlerdir ve daraltılmış Gibbs örneklemesi kullanılarak çıkarım esnasında tümlevi alınmaktadır. Çıkarımı yapılan hizalamalar bir istatistiksel makine çevirisi (SMT) ortamında birçok dil çifti ve derlem büyüklükleri üzerinde EM ve değişimsel Bayes (VB) ile kıyaslanarak değerlendirilmektedir. Önerilen Bayesçi yöntemin sınama senaryolarının çoğunluğunda diğer iki yöntemden üstünlüğü, EM yöntemindeki yüksek doğurganlıklı nadir kelime ve VB yöntemindeki hizalanmamış nadir kelime problemlerine etkin çözüm getirdiği, iki yöntemden de daha yüksek uzlaşım ve dağarcık kapsama oranı elde ettiği, ve daha küçük öbek tablolarını mümkün kıldığı gösterilmektedir. Tezde aynı zamanda SMT için en uygun bölütlemenin gözetimsiz öğrenimi için de bir yöntem önerilmektedir. Orijinal Morfessor tek dilli bölütleme modeli bir kelime hizalama modeliyle geliştirilmektedir, böylece yeni model paralel eğitim derleminin üretken bir bölütleme-hizalama modeline göre sonsal olasılığını eniyiler. Hesaplamayı hızlandırmak amacıyla, yaklaşık çeviri olabilirliğini hesaplamak için artımsal bir yöntem ve aynı zamanda tek dilli bölütlemenin de başarımını iyileştiren paralelleştirilebilen bir arama yordamı önerilmektedir. Önerilen yöntem bir Türkçeden İngilizceye SMT sisteminde Türkçe tarafı bölütlemek için kullanılmış ve iki dilli modelin daha sezgisel bölütlemelere yol açmasına rağmen BLEU skorlarında daha öte bir belirgin artış sağlamadığı gözlenmiştir.

Özet (Çeviri)

Word alignment is a crucial first step in learning statistical translation models. In this dissertation, we propose a Bayesian approach to unsupervised learning of word alignments by introducing a sparse prior on the parameters of IBM word alignment models. In the original approach, word translation probabilities are estimated using the expectation-maximization (EM) algorithm. In the proposed approach, they are random variables with a prior and are integrated out during inference, where collapsed Gibbs sampling is used. The inferred word alignments are evaluated in a statistical machine translation (SMT) setting, experimenting with several language pairs and sizes of corpora and comparing against the EM and variational Bayes (VB) methods. We show that Bayesian inference outperforms both EM and VB in the majority of test cases, effectively addresses the high-fertility rare word problem in EM and unaligned rare word problem in VB, achieves higher agreement and vocabulary coverage rates than both, and leads to smaller phrase tables. We also propose a method for unsupervised learning of the optimal segmentation for SMT. We augment the original Morfessor monolingual segmentation model with a word alignment model so that the new model optimizes the posterior probability of the parallel training corpus according to a generative segmentation-translation model. In order to speed up computation, we propose an incremental method for approximate translation likelihood calculation and a parallelizable search algorithm, which improves the performance of even the monolingual segmentation. We use the proposed method to segment the Turkish side in a Turkish-to-English SMT system and find that the bilingual model results in more intuitive segmentations but does not yield a further significant increase in BLEU scores.

Benzer Tezler

  1. Unsupervised learning of morphology

    Morfolojinin denetimsiz öğrenimi

    MÜGE KURAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    PROF. DR. DENİZ YURET

  2. Statistical models for unsupervised learning of morphology and PoS

    Gozetimsiz morfoloji ve soz dizim ısaretlerinin ogrenilmesi icin ıstatistiksel modeller

    BURCU CAN BUĞLALILAR

    Doktora

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYork University

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. SURESH MANANDHAR

  3. Tüketici yorumlarının fayda düzeyinin tahminlenmesine yönelik bir araştırma: Makine öğrenmesi algoritmalarının karşılaştırılması

    A study on estimating the usefulness level of consumer reviews: Comparison of machine learning algorithms

    OĞUZHAN ARI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Yönetim Bilişim SistemleriSakarya Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. ADEM AKBIYIK

  4. Disambiguation of stemming in turkish words in a text

    Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi

    HALİL TOSUNOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MELİH KIRLIDOĞ

  5. Unsupervised morphological analysis using tries

    Ağaç yapısı kullanarak gözetimsiz biçimbirim analizi

    KORAY AK

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. OLCAY TANER YILDIZ