İngilizceden Türkçeye istatiksel bilgisayarlı çeviri sistemlerinde paralel derlem boyutu ve kalitesinin etkileri
The effect of parallel corpus quality vs size in English to-Turkish statistical machine translation
- Tez No: 378412
- Danışmanlar: DOÇ. DR. BANU DİRİ, YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
- Anahtar Kelimeler: Makine Öğrenmesi, Yapay Zeka, Doğal Dil İşleme, Makine Çevirisi, Bilgisayarlı Çeviri, İstatiksel Bilgisayarlı Çeviri, Paralel Derlem, Paralel Derlem Filtreleme, Örnek Seçimi, Machine Learning, Artificial Intelligence, Natural Language Processing, Machine Translation, Statistical Machine Translation, Parallel Corpus, Parallel Corpus Filtering, Data Selection
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 88
Özet
Bilgisayalı Çeviri (BÇ) bir dilde yazılmış bir ifadenin başka bir dile bilgisayar tarafından otomatik olarak çevrilmesi işlemidir. BÇ konusunda yapılan çalışmalar 1950'lerin ilk yıllarında başlamıştır. İkinci Dünya Savaşı sonrası önemi arttığı düşünülen bu alana siyasal, sosyal ve ticari sebeplerden oldukça fazla yatırım yapılmış; birçok araştırmacı bu konuda çalışmıştır. Takip eden yıllarda ise yine birçok akademik ve ticari çevrelerde önemli çalışmalar yapılmasına, büyük bütçeler ayrılmasına rağmen beklentileri karşılayan sonuçlar alınamamış ve 1960'lı yılların ortalarından itibaren bu alana yapılan yatırımlar ve bu konuda çalışmalar azalmaya başlamıştır. BÇ ile ilgili olarak kalite, maliyet, öngörüler, beklentiler ve ihtiyaçlar konusunda çalışmalar yapan Automatic Language Processing Advisory Committee (ALPAC) kuruluşunun 1964 yılında yayınladığı olumsuz rapor sonrasında bu alanda motivasyon ve yatırım kaybı oluşmuştur. BÇ'nin ilk dönemi olarak görülen bu dönemde sistemler daha çok çeşitli dilbilgisel düzeylerde (biçimbilimsel, sözdizimsel, anlamsal) çalışan kural tabanlı sistemler olarak gerçekleştirilmiştir. 1990'lı yıllardan itibaren gelişen internet teknolojisinin etkisiyle öne çıkan istatiksel yöntemler, ses işleme, doğal dil işleme konularında da değerlendirilmeye başlanmıştır. IBM'in öncülüğünde yapılan İBÇ (İstatiksel Bilgisayarlı Çeviri) çalışmaları BÇ alanındaki duraksamayı ortadan kaldırmış; birçok araştırmacı gelişen bu yeni alanda çalışmalara başlamıştır. Yine 90'lı yıllardan sonra ortaya çıkan veriye dayalı diğer bir yöntem de örnek tabanlı BÇ yöntemidir. Günümüzde çeşitli kaynaklardan BÇ için veri elde etme nisbeten daha kolay olduğu için istatiksel yöntemlerin de katkısıyla BÇ çalışmaları belirli bir başarıya ulaşmış ve çeşitli alanlardaki uygulamaları giderek artmıştır. Fakat bir BÇ sisteminden beklenen özelliklerin hepsini birlikte başaran sistemler üzerine araştırma-geliştirme faaliyetleri hızla devam etmektedir. BÇ sisteminden beklenen bu özellikler: anlaşılır ve aslına uygun çeviri yapabilmesi, insan etkisi olmadan otomatik çeviri yapabilmesi ve belirli bir konuya bağlı olmadan genel amaçlı çeviri yapabilmesi olarak sıralanabilir. Örnek tabanlı ve istatiksel yöntemlerin eğitim için kullandığı verilerden en önemlisi paralel derlemlerdir. Birbirinin çevirisi olan metinlerden oluşan ve cümle seviyesinde hizalanmış olan paralel derlemler BÇ'nin yanı sıra sözcük belirsizliği giderme, bilgi erişimi gibi diğer doğal dil işleme alanlarında da kullanılmaktadır. Bu çalışmada BÇ tarihi, yöntemleri hakkında genel bilgiler toparlanılmış; İBÇ yöntemlerinin günümüzde geldiği nokta araştırılmıştır. Ayrıca, erişilebilir Türkçe-İngilizce paralel derlemler incelenmiş ve çeşitli kaynaklardan yeni paralel derlemler oluşturularak Türkçe-İngilizce paralel derlem sayısının artmasına katkıda bulunulmuştur. İngilizce'den Türkçe'ye istatistiksel BÇ sistemleri üzerinde paralel derlemin büyüklüğünün ve kalitesinin etkisi araştırılmıştır. Paralel cümle çiftlerinin kalitesininin otomatik ölçülebilmesi için cümle çiftlerinden çeşitli özellikler çıkaran makine öğrenmesi yöntemleri kullanılarak cümle çiftlerini kaliteli ve kalitesiz olarak sınıflandıran bir sınıflandırıcı geliştirilmiştir. Yapılan deneylerde elimizdeki paralel derlemlerden oluşturulan farklı boyutlarda paralel derlemlerle İBÇ sistemleri eğitilerek paralel derlemin büyüklüğünün etkisini araştırmak amacıyla başarıları karşılaştırılmıştır. Daha sonra paralel derlemin kalitesinin etkilerini gözlemleyebilmek için farklı boyutlardaki her bir derlemin sadece sınıflandırıcının kaliteli olarak işaretlediği örnekleri kullanarak İBÇ sistemleri eğitilmiştir. Paralel derlemin boyutu arttıkça daha yüksek başarılara ulaşıldığı gösterilirken; içerisinde hatalı veya kalitesiz örnekleri temizlenmiş daha az sayıda örnek içeren paralel derlemler ile aynı veya daha yüksek başarılara ulaşıldığı gösterilmiştir.
Özet (Çeviri)
Machine Translation (MT) is the process of translating an expression to another language automatically with the aid of computers. MT has been studied since the early 1950s. MT, which is thought to increase in importance after World War 2, has been invested due to political, social and economic facts. Although, many important studies have been conducted in the following years, the results couldn't meet expectations. The investments and studies in this field began to decline from the middle of 1960. The Automatic Language Processing Advisory Committee (ALPAC) which studies about costs, projections, expectations and requirements about MT, has issued a negative report about MT and caused loss of motivation and investment in MT field. During this first period of MT studies, MT was primarily performed using rule based transfers of some representation levels like morphological, syntactical or semantic representations. The statistical approaches which are developep under the fluence of internet and big data technologies have started to be utilized in signal processing and natural language processing. The hesitancy in MT has eliminated by Statistical Machine Translation (SMT) studies pioneered by IBM and many researchers has started to work in developing this new field. Another MT approach that based on training data is example based machine translation (EBMT). Nowadays, MT systems have reached a certain success and its applications in various fields have steadily increased because of the convenience of data acquisition. But, the research and development activities on the systems that are able to combine all of the features expected, is proceeding rapidly. The featetures that expected from a successful MT system are as follws: ability to process understandable and literal translations, ability to process automatic translations without any human intervention and ability to process general-purpose texts without any domain restriction. The most important training data for example based MT models and statistical MT models are parallel corpus. Parallel Corpus are consist of texts that translation of each other and aligned at sentence level. In addition to MT, parallel corpus are widely utilized in word disambiguation, information retrieval and some of other natural language processing fields. In this study, general information about history of MT and methods are presented, the point reached by SMT is investigated. Furthermore, publicly avaible parallel corpus between Turkish and English languages are studied and severalTurkish - English parallel corpus are constructed from various sources. The aim of this study is to figure out the effects of parallel corpus size and quality in statistical machine translation between Turkish and English languages. In this study, a machine learning based classifier is developed to classify parallel sentence pairs in a parallel corpus as high -quality or poor quality. This calassifier has been applied to a parallel corpus contains 1 million parallel English – Turkish sentence pairs and 600K high-quality parallel sentence pairs were obtained. The multiple SMT systems with various sizes of entire raw parallel corpus and filtered high quality corpus, their performances are evaluated in our experiments. As expected, the experiments show that the size of parallel corpus is a major factor in translation performance. However, instead of extended corpus with all available“so -called”parallel data, a better translation performance and reduced time-complexity can be achieved with a smaller high-quality corpus using a quality filter.
Benzer Tezler
- Öğrenci yanıt sisteminin ortaöğretim öğrencilerinin İngilizce dersindeki başarıları ve başarı duyguları üzerine etkileri
The effect of using student response system on high school student's achievement and achievement emotions in English language course
YAFES CAN
Yüksek Lisans
Türkçe
2018
Eğitim ve ÖğretimTokat Gaziosmanpaşa ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SALİH BARDAKCI
DR. ÖĞR. ÜYESİ ESMA EMMİOĞLU SARIKAYA
- Okul müdürünün yönetsel davranışlarının akademik başarıyla ilişkisi
The relationship between school principal's administrative behaviours and students' achievement
NEDİM ÖZDEMİR
Doktora
Türkçe
2016
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. YÜKSEL KAVAK
- Televizyon çocuk programlarının kalite kriterlerine ilişkin olarak okul öncesi kurumlarına devam eden çocukların anne-babalarının görüşleri
Başlık çevirisi yok
ASUDE BALABAN
Yüksek Lisans
Türkçe
2002
Eğitim ve ÖğretimMarmara Üniversitesiİlköğretim Ana Bilim Dalı
DOÇ. DR. ALEV ÖNDER
- Pragmatic development of Turkish EFL learners in terms of speech acts: Refusals, requests, and suggestions
Yabancı dil olarak İngilizce öğrenen Türk öğrencilerin red, istek ve öneri söz eylemlerinin edimbilimsel gelişimi
TUBA DEMİRKOL
Doktora
İngilizce
2015
DilbilimÇukurova Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
PROF. DR. HATİCE SOFU
- Syntax-to-morphology alignment and constituent reordering in factored phrase-based statistical machine translation from English to Turkish
İngilizceden Türkçeye faktörlü sözcük öbeği tabanlı istatistiksel bilgisayarlı çeviride sentaks-morfoloji eşleştirilmesi ve öge yeniden sıralanması
REYYAN YENİTERZİ
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. KEMAL OFLAZER