Utilizing out-of-domain data through language modeling based vocabulary saturation for English-Turkish machine translation
Dil modelleme temelli kelime doyurma yöntemiyle alan dışı derlemin İngilizce-Türkçe makine çevirisinde kullanılması
- Tez No: 371822
- Danışmanlar: YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 51
Özet
Eğitim verisi büyüklüğü istatistiksel makine çevirisi (İMÇ) için büyük öneme sahiptir çünkü veri büyüklüğü; eğitim süresi, model büyüklüğü, çözümleme hızı ve sistemin başarım skoru gibi birçok şeyi etkiler. Az kaynaklı diller için İMÇ sistemleri hazırlanırken karşılaşılan en büyük zorluklardan birisi de kullanılabilir eğitim verisi miktarının sınırlı olmasıdır. Bu tezde, alan dışı bir paralel derlem kullanılarak eğitim verisinin genişletildiği bir yaklaşım önerilmiştir. Alan dışı derlemden en iyi cümleleri seçip eğitim verisine eklemek sistemin genel performansı için önemlidir. Önerdiğimiz yöntem ile önce alan dışı derlemdeki cümleler dil modeli kullanılarak sıralanır, daha sonra kelime doyurma süzgeci tekniğiyle içlerinden bazıları seçilerek eğitim verisine eklenir. Önerilen yöntem İngilizce-Türkçe dil çifti için denenmiş ve başarılı sonuçlar elde edilmiştir. İngilizce-Türkçe makine çevirisinde 0.8 BLEU puanına varan skor artışı sağlanmıştır. Sonuçlar öbek tablosu kombinasyonu yöntemleri ve en iyi İngilizce-Türkçe makine çevirisi sistemleri ile de karşılaştırılıp elde edilen gelişmeler raporlanmıştır. Ayrıca cümleler sıralarken n-gram tabanlı dil modellerinin yanı sıra bağımlılık tabanlı dil modellerine göre sıralama da denenmiş ve sonuçlar paylaşılmıştır.
Özet (Çeviri)
The training data size is of utmost importance for statistical machine translation (SMT), since it affects the training time, model size, decoding speed, as well as the system's overall success. One of the challenges for developing SMT systems for languages with less resources is the limited sizes of the available training data. In this thesis, we propose an approach for expanding the training data by including parallel texts from an out-of-domain corpus. Selecting the best out-of-domain sentences for inclusion in the training set is important for the overall performance of the system. Our method is based on first ranking the out-of-domain sentences using a language modeling approach, and then, including the sentences to the training set by using the vocabulary saturation filter technique. We evaluated our approach for the English-Turkish language pair and obtained promising results. Performance improvements of up to +0.8 BLEU points for the English-Turkish translation is achieved. We compared our results with the translation model combination approaches and the best English-Turkish translation systems as well, then reported the improvements. Moreover, we implemented our system with dependency based language modeling in addition to n-gram based language modeling and reported comparable results.
Benzer Tezler
- Belirsiz bilgi: Bulanık mantık ve olasılık yaklaşımı
Başlık çevirisi yok
CENGİZ TEYMUR
Yüksek Lisans
Türkçe
1998
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HAKAN TEMELTAŞ
- Çevrimiçi element analizi yapan prototip cihazın çevresinde gama ışını ve nötron doz değerlendirmesi
The evaluation of gamma ray and neutron radiation doses in the vicinity of a prototype device engaged in on-line elemental analysis
HANDAN YILMAZ
Yüksek Lisans
Türkçe
2024
Fizik ve Fizik Mühendisliğiİstanbul Teknik ÜniversitesiFizik Mühendisliği Ana Bilim Dalı
PROF. DR. İSKENDER ATİLLA REYHANCAN
- Bir insansız hava aracına ait kompozit kanadın tasarımı ve yapısal optimizasyonu
Design and structural optimisation of an UAV composite wing
MUHAMMED ATIF YILMAZ
Yüksek Lisans
Türkçe
2024
Makine Mühendisliğiİstanbul Teknik ÜniversitesiSavunma Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALAEDDİN BURAK İREZ
- İş zekası ve duygu analizi: Sakarya merkezli sosyal medya verilerinin doğal dil işleme yaklaşımlarıyla incelenmesi
Business intelligence and sentiment analysis: Examining Sakarya-centric social media data through natural language processing approaches
FURKAN SARAÇOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL HAKKI CEDİMOĞLU
- Edebiyat eğitimi bağlamında lise öğrencileri ile Türk dili ve edebiyatı öğretmenlerinin estetik algıları (Eskişehir örneği)
Aesthetic perceptions of high school students and Turkish language and literature teachers in the context of literary education (Eskişehir sample)
SAMET GÖKÇELİ
Doktora
Türkçe
2024
Eğitim ve ÖğretimGazi ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA TATCI