Makine çevirilerinde sorun teşkil eden eş yazımlı kelimeleri bulunduran ifadeler için bir kural tabanlı çeviri modeli çalışması
A rule-based translation model for the phrases having homographs that cause difficulties in machine translation
- Tez No: 813992
- Danışmanlar: DR. ÖĞR. ÜYESİ YAHYA ŞİRİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: İstanbul Sabahattin Zaim Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 180
Özet
Doğal diller tam olarak matematiksel formüllerle ifade edilemediği ve sosyal kabullere dayanan kelime veya ifadeler barındırdıkları için makine çevirilerinde bazı anlam belirsizliği durumlarıyla, özellikle yazılı metinlerde, karşılaşılabilmektedir. Bu belirsizlik durumuna en uygun örnek eş yazımlı bulunduran ifadelerdir. Bu tez çalışması eş yazımlı kelime bulunduran ifadelerin kural tabanlı bir çeviri modeli ile doğru şekilde hedef dile çevrilebilmesinin mümkün olup olmadığı sorusunu araştırmaktadır. Bu maksatla Chiang'ın hiyerarşik ifade tabanlı istatistiksel makine çevirisine benzer bir model geliştirilmiş; ancak geliştirilen sistemin eğitiminde Chiang'ın modelinin aksine paralel metinlerden yararlanılmayıp çevirmen tecrübelerine dayanan kural tabanlı yöntem tercih edilmiştir. Önerilen çeviri modeli başarı ölçümlerinde, sistemin yapısını ve tasarım felsefesini dışarıda tuttuğu için farklı çeviri motorlarının karşılaştırılmasında kullanılan kara kutu testinin uygun olacağı düşünülmüştür. Bu amaçla Google, Bing Yandex ve tez modeli makine çevirilerinin başarı karşılaştırmalarında kullanılmak üzere eş yazımlılar bulunduran cümleler tespit edilmiştir. Bu cümlelerden elde edilen çeviri çıktılarının karşılaştırılmasında çevirmen değerlendirmesinden yararlanılmıştır. Bunun için 80 maddeden oluşan dörtlü Likert ölçeği oluşturulmuş; bu ölçek yardımıyla A ve B çevirmenlerinden akıcılık ve metne sadık olma noktalarında çeviri skorları istenmiştir. Bu sayede her model için başarı sıralaması oluşturulmuştur. Sıralamada Google 90,57, tez modeli 90,26, Bing 85,19 ve Yandex 83,13 çeviri skoru elde etmiştir. Tez modelinin eş yazımlı kelimelerde dikkate değer başarı göstermiş olmasına rağmen Google, Bing ve Yandex çeviri motorlarına kıyasla ek belirsizliği durumlarında yeterince etkili olmadığı görülmüştür. Ancak; eklemek gerekir ki ek belirsizliği, tezin konusu olan bir eş yazımlı hatası olmayıp sözdizimsel hata türlerindendir. Araştırma sonucunda Google, Bing, Yandex ve tez modeli makine çevirisi başarı oranlarında anlamlı bir fark gözlenmemiş; ancak çeviri hatalarının üç farklı noktada kümelendiği görülmüştür. Bunlar, (i) eş yazımlı kelimenin yaygın kullanılan anlamının seyrek kullanılan anlamına tercih edildiği; (ii) çeviri motorları eğitim verilerinin sınırlı olmasından kaynaklanan eş yazımlı belirsizliği ve (iii) farklı görevlerde kullanılabilen edatlardan kaynaklanan ek belirsizliği hata durumları şeklinde özetlenebilir.
Özet (Çeviri)
For a natural language cannot be expressed in exact mathematical formulas or can harbor words or phrases that are based on social acceptance, it is very likely to face some ambiguities in machine translations especially in written texts. The most appropriate example would be the homographs. The purpose of this study is to investigate the question of whether a rule-based translation model can translate the expressions with homonymous ambiguity into the target language. Therefore, a model similar to Chiang's Hierarchical Phrase-based Translation has been developed. However, in the training of the developed system, unlike Chiang's model, the rule-based method relying on human experience has been preferred instead of parallel texts. To evaluate the proposed model, the black-box view has been chosen for it is a look at the input and output without taking into account the mechanics of the translation engine. In order to determine the translation success of Google, Bing, Yandex and the thesis model, sentences with homonymous ambiguity were picked out. In measuring MT outputs obtained from these sentences, human evaluation has been applied. In the evaluation process, 4-point Likert-type scale with 80 items has been prepared. Two human raters (A and B) had been instructed to assign points in terms of how intelligible and faithful the target translation outputs of the MT models were and thereby ranked the achievement of the systems such as Google with 90,57; thesis model with 90,26; Bing with 85,19 and Yandex with 83,13 points. Being the second of all four engines with homonymous ambiguities, the thesis model might be showing a notable success but when it comes to attachment ambiguities the system cannot produce sufficient outputs. However; it should be noted that attachment ambiguity is not a homonymous ambiguity, related to the thesis topic, but a syntactic error type. In this dissertation we did not observe a significant difference in success rates of Google, Bing, Yandex and the thesis model translations. However their translation failures tend to cluster in three certain areas, such as (i) choosing the widely used meaning of a homograph over the rarely used one; (ii) the homonymous ambiguity resulting from the limited training data and (iii) the wrong translation of the sentences with attachment ambiguity caused by the prepositions with multiple grammatical functions.
Benzer Tezler
- Şiir çevirilerinde kültürel ardalan problemleri: Çevirmen Yüksel Pazarkaya'nın Türkçeden Almancaya çevirdiği şiirler örneğinde bir inceleme
The analysis of the cultural background problems in poetry translations: A survey in the context of Yüksel Pazarkaya's poetry translations from Turkish to German
ONUR KOÇ
Yüksek Lisans
Türkçe
2012
Alman Dili ve EdebiyatıAnkara ÜniversitesiBatı Dilleri ve Edebiyatları Ana Bilim Dalı
PROF. DR. M. OSMAN TOKLU
- Development of trailer truck engine duty cycle for Turkey usage profile
Çekici araç motorları için Türkiye kullanım koşullarını temsil eden seyir çevrimi oluşturulması
FATİH ÜNAL
Yüksek Lisans
İngilizce
2014
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. CEM SORUŞBAY
- Grammatical gender problem in turkish-english translations and the effects of stereotypes on translation
Türkçe-ingilizce çevirilerde dilbilgisel cinsiyet sorunu ve kalıp yargıların çeviri üzerindeki etkileri
SERRA BENGİ KAPTAN
Yüksek Lisans
İngilizce
2023
DilbilimMersin Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZLEM KURTOĞLU ZORLU
- Лингво-стилистические особенности ложныхдрузей переводчика
Tuzak kelimelerin çevirisinde dilbilimsel ve üslupbilimselözellikler
ŞUHEDA RENGİN ÖZTÜRK
Yüksek Lisans
Rusça
2024
Mütercim-TercümanlıkKırgızistan-Türkiye Manas ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DOÇ. DR. SALTANAT MAMBAYEVA
- Makine çevirisinde çözümleme yaklaşımları üzerine bir çalışma
A study on decoding approaches in machine translation
EMRE ŞATIR
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN BULUT