Geri Dön

A prototype English-Turkish statistical machine translation system

İngilizce-Türkçe istatistiksel bilgisayarlı çeviri sistemi prototipi

  1. Tez No: 259035
  2. Yazar: İLKNUR DURGAR EL-KAHLOUT
  3. Danışmanlar: PROF. DR. KEMAL OFLAZER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Bir dilin (yazı ya da konuşma) diğer bir dile bilgisayar ile otomatik olarakçevrilmesi bilgisayarlı çeviri olarak bilinmektedir. Bilgisayarlı çeviri doğal dil işlemeninçok eskiden bu yana ilgilendiği en ¨onemli ve aktif konulardan biridir. Son birkaç on yılda bilgisayarlı çeviri probleminde istatistiksel yaklaşımların kullanımındaartış gözlenmiştir. İstatistiksel yaklaşımlar sembolik yaklaşımlardan daha basitolmalarına rağmen yaklaşık sonuçları hiçbir dilbilimsel bilgiye ihtiyaç duymadanüretebilir. Istatistiksel yaklaşımda amaç, sistem parametrelerinin çok fazla zamanve insan gücüne ihtiyaç duyan, elle yazılan kurallar yerine otomatik olaraköğrenilmesidir.Istatistiksel bilgisayarlı çeviri bir çok farklı dil çiftleri icin uygulansa da, bualanda Türkçe - Ingilizce dil çifti için bir araştırma ve geliştirme çalışması bulunmamaktadır.Bu tezde, Ingilizce'den Türkçe'ye en gelişkin istatistiksel bilgisayarlı çeviriprototipinin araştırma ve geliştirilmesin sonuçları sunulmaktadır. Ingilizce'den Türk-çe'ye istatistiksel bilgisayarlı çeviri prototipi geliştirilmesi bir çok açıdan dikkatedeğer bir problemdir. En zorlayıcı kısmı, Ingilizce ve Türkçe'nin tipolojik olarakgörece uzak diller olmasıdır. Ingilizce çok limitli bir morfolojiye ve görece sabit birözne-Fiil-Nesne öğe sıralamasına sahipken, Türkçe Ingilizce'ye çevrildiğinde bir çoksözcüklü öbeğe karşılık gelen sözcük yapılarına sahip, çok zengin ve üretken türetimve çekimli bir morfolojisi olan çok esnek (özne-Nesne-Fiil egemen olmakla beraber)öğe sıralamalı eklemeli bir dildir.Araştırmamız başka diller için yapılan önceki araştırmalarda yeteri kadar çalışılmamış,Türkçe'nin morfolojik özelliklerini dikkate alarak son bilgisayarlı çeviri teknolojisinebilimsel katkılar yapmaya odaklanmıştır. Bu tezde; Hem Ingilizce hem deTürkçe tarafında morfolojinin morfem seviyesindeki farklı gösterimlerinin istatistikselçeviri sonuçları üzerinde nasıl etki yaptığını inceledik. Sözcük eşleşmelerineyardımcı olmak için, Türkçedeki isim formları ve karmaşık fiil formlarını ile aynısözcük sıralamasında olması için Ingilizce tamlama ve yardımcı fill komplekslerindelokal sözcük sıralaması deneyleri yaptık. Var olan paralel metinlerin azlığını hafifletmekiçin, eğitim verisini hem orjinal veriden elde edilen içerik sözcükler (isim,fiil, sıfat, zarf) ile hem de tekrarlı olarak bir önceki sözcük öbeği tabanlı sözcükeşleşmelerinden elde edilen yüksek güvenilirlikli sözcük öbeği çiftleri ile arttırdık.C¸ özümleme için kullanılan morfem bazlı dil modeline ek olarak n- en iyi listeleriniyeniden skorlaması için sözcük bazlı dil modelini kullandık, böylece hem lokal morfotaktikkısıtlamaları hem de lokal sözük sıralaması kısıtlamaları üzerine çalıştık.Son olarak çevirileri, iyileştirmek amacıyla eğitim verisi ve dil modeline göre sözcükdağarcığının dışında olan ve morfolojik yapısı hatalı olan çıktının sözcüklerini onarmakiçin bir prosedür sunduk. Ayrıca BLEU değerlendirme metriğinin bir uzantısıolan BLEU+ aracı ile elde edilen detaylı değerlendirme sonuçlarını ve elde edilebileceken yüksek skorlardan bazılarını ekledik.Tüm araştırma ve geliştirme sonucunda 19.77 BLEU skoru olan sözcük bazlıtemel modelimizi 7.83 BLEU skoru ya da %40'lık artışla 27.60 BLEU skorunageliştirdik.

Özet (Çeviri)

Translating one natural language (text or speech) to another natural language automaticallyis known as machine translation. Machine translation is one of the major,oldest and the most active areas in natural language processing. The last decade anda half have seen the rise of the use of statistical approaches to the problem of machinetranslation. Statistical approaches learn translation parameters automaticallyfrom alignment text instead of relying on writing rules which is labor intensive.Although there has been quite extensive work in this area for some languagepairs, there has not been research for the Turkish - English language pair. In thisthesis, we present the results of our investigation and development of a state-of-theartstatistical machine translation prototype from English to Turkish. Developingan English to Turkish statistical machine translation prototype is an interestingproblem from a number of perspectives. The most important challenge is that Englishand Turkish are typologically rather distant languages. While English hasvery limited morphology and rather fixed Subject-Verb-Object constituent order,Turkish is an agglutinative language with very flexible (but Subject-Object-Verbdominant) constituent order and a very rich and productive derivational and inflectionalmorphology with word structures that can correspond to complete phrases ofseveral words in English when translated.Our research is focused on making scientific contributions to the state-of-the-artby taking into account certain morphological properties of Turkish (and possiblysimilar languages) that have not been addressed sufficiently in previous researchfor other languages. In this thesis; we investigate how different morpheme-levelrepresentations of morphology on both the English and the Turkish sides impactstatistical translation results. We experiment with local word ordering on the Englishside to bring the word order of specific English prepositional phrases andauxiliary verb complexes, in line with the corresponding case marked noun formsand complex verb forms, on the Turkish side to help with word alignment. Weaugment the training data with sentences just with content words (noun, verb, adjective,adverb) obtained from the original training data and with highly-reliablephrase-pairs obtained iteratively from an earlier phrase alignment to alleviate thedearth of the parallel data available. We use word-based language model in the rerankingof the n-best lists in addition to the morpheme-based language model usedfor decoding, so that we can incorporate both the local morphotactic constraintsand local word ordering constraints. Lastly, we present a procedure for repairingthe decoder output by correcting words with incorrect morphological structure andout-of-vocabulary with respect to the training data and language model to furtherimprove the translations. We also include fine-grained evaluation results and someoracle scores with the BLEU+ tool which is an extension of the evaluation metricBLEU.After all research and development, we improve from 19.77 BLEU points for ourword-based baseline model to 27.60 BLEU points for an improvement of 7.83 pointsor about 40% relative improvement.vii

Benzer Tezler

  1. İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması

    Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems

    EZGİ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Yazılı Türkçe dilinden Türk işaret diline (tid) makine çevirisi sistemi

    Text to sign language machine translation system for Turkish

    CİHAT ERYİĞİT

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HATİCE KÖSE

  3. Elektrookülogram tabanlı sanal klavye uygulamasında metasezgisel optimizasyon algoritması kullanımı

    Utilization of a metaheuristic optimization algorithm in electrooculogram based virtual keyboard application

    ALİ ÇAĞRI BAYRAKTAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Savunma ve Savunma TeknolojileriMilli Savunma Üniversitesi

    Askeri Elektronik Sistemler Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN GÜRKAN

  4. Design and manufacturing of an injection system for the application of liquid fertilizers and the assessment of its efficiency

    Sıvı gübre uygulamaları için bir enjeksiyon sistemi tasarımı, imalatı ve etkinliğinin belirlenmesi

    LALEH GHANIZADEH HESAR

    Doktora

    İngilizce

    İngilizce

    2024

    ZiraatÇukurova Üniversitesi

    Tarım Makineleri ve Teknolojileri Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET İNCE

  5. Prototip fotokimyasal işleme makinasının tasarımı, imalatı, performans testleri ve proses parametrelerinin optimizasyonu

    Design, manufacturing, performance tests and optimization of process parameters of a prototype photochemical processing machine

    MURAT TUNÇ

    Doktora

    Türkçe

    Türkçe

    2023

    Makine MühendisliğiKarabük Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN GÖKKAYA