Geri Dön

Syntax-to-morphology alignment and constituent reordering in factored phrase-based statistical machine translation from English to Turkish

İngilizceden Türkçeye faktörlü sözcük öbeği tabanlı istatistiksel bilgisayarlı çeviride sentaks-morfoloji eşleştirilmesi ve öge yeniden sıralanması

  1. Tez No: 259021
  2. Yazar: REYYAN YENİTERZİ
  3. Danışmanlar: PROF. DR. KEMAL OFLAZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

İngilizce, anlamın işlev sözcükleri ve ögelerin dizilimi ile ifade edildiği bir dildir. Türkçe ise serbest öge dizilimi olan, sondan eklemeli bir dildir. Bu farklılıklar büyük çapta bir İngilizce-Türkçe paralel veri eksikliğiyle bir araya gelince, bu diller arasındaki istatistiksel dil çevrisini zorlaştırmaktadır.Bu iki dil arasında, özellikle İngilizceden Türkçeye, istatistiksel dil çevrimi bir süredir üzerinde çalışılan bir konudur. Bu konuya ilişkin ilk sonuçlar hem Türkçenin hem de İngilizcenin biçimbilimsel analiz yapılarak ek düzeyinde çalışılmasını destekler tarzdadır. Ayrıca, Türkçe tarafında biçimbilimsel olarak bir takım farklı gösterimler ve gruplamalar da denenmiştir. Bunlara karşılık bu tez Türkçeden daha çok İngilizce tarafındaki deneylere yoğunlaşmaktadır. Bu çalışmada ilk olarak İngilizcedeki işlev sözcükleri, ilgili içerik kelimeleri ile birleştirerek geliştirdiğimiz İngilizce sentaksıyla Türkçe morfolojisi arasında yeni bir eşleştirme yöntemini tanıtıyoruz. İngilizcede yaptığımız bu değişim, yalnızca kelimeler arasındaki bağlılık analizine dayanmaktadır. Bu geliştirilmiş eşleştirmenin yanında, sentaks yönünden yeniden sıralamalar yaparak daha sıralı kelime eşleştirmeleri oluşturmaya çalıştık. Kaynak dilin kelime sırasını hedef dildekine yaklaştırmak için de yine bağlılık analizi kullanarak cümlenin ögelerini teşhis ettik ve yeniden sıralamalar gerçekleştirdik.Sonuçlarımızı dil çevrimi çalışmalarında çok sık kullanılan BLEU değerlendirme aracı ile elde ettik. Eşleştirme ve sıralamadaki gelişmelerle birlikte BLEU skorumuzu 17.08 den 23.78'e çıkararak 6.7 puanlık bir artış sağladık.

Özet (Çeviri)

English is a moderately analytic language in which the meaning is conveyed with function words and the order of constituents. On the other hand, Turkish is an agglutinative language with free constituent order. These differences together with the lack of large scale English-Turkish parallel corpora turn Statistical Machine Translation (SMT) between these languages into a challenging problem.SMT between these two languages, especially from English to Turkish has been worked on for several years. The initial findings strongly support the idea of representing both Turkish and English at the morpheme-level. Furthermore, several representations and groupings for the morphological structure have been tried on the Turkish side. In contrast to these, this thesis mostly focuses on the experiments on the English side rather than Turkish. In this work we firstly introduce a new way to align the English syntax with the Turkish morphology by associating function words to their related content words. This transformation solely depends on the dependency relations between these words. In addition to this improved alignment, a syntactic reordering is performed to get a more monotonic word alignment. Here, we again use dependencies to identify the sentence constituents and perform reordering between them so that the word order of the source side will be close to the target language.We report our results with BLEU which is a measure that is widely used by the MT community to report research results. With improvements in the alignment and the ordering, we have increased our BLEU score from a baseline score of 17.08 to 23.78, which is an improvement of 6.7 BLEU points, or about 39% relative.

Benzer Tezler

  1. Joint learning of morphological segmentation, morpheme tagging, part-of-speech tagging, and dependency parsing

    Morfolojik analiz, sözcük türü işaretleme ve bağlılık ayrıştırmanın eş zamanlı öğrenilmesi

    HÜSEYİN ALEÇAKIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    Prof. Dr. HÜSEYİN CEM BOZŞAHİN

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  2. AGREE as a unidirectional operation: Evidence from Laz

    Tek yönlü bir işlem olarak UY (AGREE) modeli: Lazca'dan kanıt

    ÖMER FARUK DEMİROK

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    DilbilimBoğaziçi Üniversitesi

    Dilbilim Ana Bilim Dalı

    YRD. DOÇ. DR. BALKIZ BAŞARAN

  3. Teravih-i Al-i Osman'da ağız özelliklerinin değerlendirilmesi

    The linguistic aspects of ?Teravih-i Al-i Osman?

    AHMET ÜÇEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Türk Dili ve Edebiyatıİstanbul Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. MUSA DUMAN

  4. Hesaplamalı yöntemlerle yerleşke morfolojisini okumak: Bursa Uludağ Üniversitesi Görükle kampüsü örneği

    Reading campus morphology by computational methods: The case of Bursa Uludağ University Görükle campus

    BARIŞ MERT KARASU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    MimarlıkBursa Uludağ Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ÖZGÜR MEHMET EDİZ

  5. Türkçe alıntı sözcüklerde vurgu görünümleri

    Word stress in Turkish loan words

    ERAY AKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    DilbilimAnkara Üniversitesi

    Dilbilim Ana Bilim Dalı

    PROF. DR. HACER İCLAL ERGENÇ