English to Turkish machine translation using synchronous grammars
Eş zamanlı dilbilgisi ile İngilizce'den Türkçeye makine çevirisi
- Tez No: 752130
- Danışmanlar: DR. ÖĞR. ÜYESİ AYŞEGÜL TÜYSÜZ ERMAN, PROF. DR. OLCAY TANER YILDIZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Işık Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 82
Özet
Makine Çevirisi, son yıllarda Doğal Dil İşleme araştırma araştırmalarında en önde gelen araştırma alanlarından biri olmaktadır. Ancak, ilgili çalışmaların büyük bir bölümü belirli diller için yapılmış olup, Türkçe gibi serbest sözcük dizilişine sahip diller için sınırlı sayıda kapsamlı çalışma bulunmaktadır. İngilizce ve Türkçe, iki dil arasındaki biçimbilimsel ve sözdizimsel farklılıklar sebebi ile daha az çalışılan dil çiftlerinden biridir. Bu durum aynı zamanda makine çevirisi alanının en önemli bölümünü oluşturan paralel derlem çalışmalarını da zorlaştırmaktadır. Bu tez, İngilizce-Türkçe dil ikilisine yönelik ilk istatistiksel sözdizimi ağacı tabanlı makine çevirisi yaklaşımı olmayı amaçlamakta ve makine çevirisi uygulamaları için paralel derlem oluşturma çalışmalarını sunmaktadır. Üç aşamalı bir yaklaşım izleyerek 17000 cümle boyutunda bir İngilizce-Türkçe paralel derlem oluşturduk. İzlenen adımlar: çevrilmiş ağaçların alt ağaçlarının yeniden sıralanması ve kelime değişimi ile sınırlandırarak, İngilizce ağaçların Penn Treebank'tan (PTB) el ile dönüştürülmesi; çevrilmiş kelimelerin morfolojik analizi ve hedef ağacın morfolojik olarak zenginleştirilmesi olarak belirtilmiştir. Çeviri tutarlılığı amacı ile bir yazılım araçları seti de geliştirdik. Ağaç dönüşümü yaklaşımımızı teknik alana da uygulayarak kapalı-alan için 8300 cümleden oluşan başka bir derlem daha oluşturduk. Her iki derlemi de makine çevirisi çalışmalarında kullandık. Denemelerimizde, açık-alan için 12.8 BLEU puanı ve kapalı-alan için 26.8 BLEU puanı elde ettik. Ayrıca, karmaşıklık anazili aracılığı ile her iki derlemi de öz değerlendirmeye tabi tuttuk. Sonuçlar göstermektedir ki derlem oluşturma çalışmalarımız tekrarlanabilir olup, oluşturulan kısıtlı derlem ile yapılan makine çevirisi çalışmalarının umut verici olduğunu göstermektedir.
Özet (Çeviri)
Machine translation (MT) has been one of the hot topics in NLP research over recent years. However, most of the related studies have been done for specific languages, and there are a limited number of comprehensive studies for languages with free word order, such as Turkish. English-Turkish is also one of the least frequently studied language pairs in translation due to the morphological and syntactic gaps between the two languages. This also makes it hard to build parallel corpora, which is crucial for the machine translation task. This thesis aims to be the first statistical syntax tree-based machine translation approach to the English-Turkish language pair, as well as a parallel corpus for translation tasks. We construct an English-Turkish parallel treebank of approximately 17K sentences by following a three-phased approach: manual transformation of English trees from Penn Treebank (PTB) by constraining the translated trees to the reordering of the children and gloss replacement; morphological analysis of the translated gloss; and morphological enrichment of the target tree. For translation consistency, we also developed a set of tools. We also apply the transformation schema to the closed-domain and build 8.3K sentences corpus. We employ both corpora on machine translation task. In our experiments, we obtained a 12.8 BLEU score in the open-domain and a 26.8 BLEU score in the closed-domain. We also evaluate both corpora intrinsically through perplexity analysis. The results show that our studies on making a corpus can be repeated, and studies on machine translation using the small corpus look promising.
Benzer Tezler
- Deyim derlemi oluşturmak için oyunlaştırılmış kitle kaynak kullanımı
Gamified crowdsourcing for idiom corpora construction
ALİ ŞENTAŞ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Çamaşır makineleri için yeni nesil senkron relüktans motor tasarımı
Design of new generation synchronous reluctance motor for washing machines
DENİZ CAN DURSUN
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiFırat ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET POLAT
- Sincap kafesli asenkron makinanın kayma kipli vektör kontrolü
Başlık çevirisi yok
RENAN MERT ÖZEL
Yüksek Lisans
Türkçe
1996
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ.DR. İBRAHİM EKSİN
- Asynchronous runtime for AMR applications on exascale systems
Exascale sistemlerde AMR uygulamalari için asenkron yürütme sistemi
MUHAMMAD NUFAIL FAROOQI
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiYRD. DOÇ. DR. DİDEM UNAT
- Çok işlemcili sistemler için bir yük akış dili
A Work flow lanquage for multiprocessor systems
A.OLCAY AKGÜN
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF.DR. EMRE HARMANCI