Geri Dön

Utilizing out-of-domain data through language modeling based vocabulary saturation for English-Turkish machine translation

Dil modelleme temelli kelime doyurma yöntemiyle alan dışı derlemin İngilizce-Türkçe makine çevirisinde kullanılması

  1. Tez No: 371822
  2. Yazar: BURAK AYDIN
  3. Danışmanlar: YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 51

Özet

Eğitim verisi büyüklüğü istatistiksel makine çevirisi (İMÇ) için büyük öneme sahiptir çünkü veri büyüklüğü; eğitim süresi, model büyüklüğü, çözümleme hızı ve sistemin başarım skoru gibi birçok şeyi etkiler. Az kaynaklı diller için İMÇ sistemleri hazırlanırken karşılaşılan en büyük zorluklardan birisi de kullanılabilir eğitim verisi miktarının sınırlı olmasıdır. Bu tezde, alan dışı bir paralel derlem kullanılarak eğitim verisinin genişletildiği bir yaklaşım önerilmiştir. Alan dışı derlemden en iyi cümleleri seçip eğitim verisine eklemek sistemin genel performansı için önemlidir. Önerdiğimiz yöntem ile önce alan dışı derlemdeki cümleler dil modeli kullanılarak sıralanır, daha sonra kelime doyurma süzgeci tekniğiyle içlerinden bazıları seçilerek eğitim verisine eklenir. Önerilen yöntem İngilizce-Türkçe dil çifti için denenmiş ve başarılı sonuçlar elde edilmiştir. İngilizce-Türkçe makine çevirisinde 0.8 BLEU puanına varan skor artışı sağlanmıştır. Sonuçlar öbek tablosu kombinasyonu yöntemleri ve en iyi İngilizce-Türkçe makine çevirisi sistemleri ile de karşılaştırılıp elde edilen gelişmeler raporlanmıştır. Ayrıca cümleler sıralarken n-gram tabanlı dil modellerinin yanı sıra bağımlılık tabanlı dil modellerine göre sıralama da denenmiş ve sonuçlar paylaşılmıştır.

Özet (Çeviri)

The training data size is of utmost importance for statistical machine translation (SMT), since it affects the training time, model size, decoding speed, as well as the system's overall success. One of the challenges for developing SMT systems for languages with less resources is the limited sizes of the available training data. In this thesis, we propose an approach for expanding the training data by including parallel texts from an out-of-domain corpus. Selecting the best out-of-domain sentences for inclusion in the training set is important for the overall performance of the system. Our method is based on first ranking the out-of-domain sentences using a language modeling approach, and then, including the sentences to the training set by using the vocabulary saturation filter technique. We evaluated our approach for the English-Turkish language pair and obtained promising results. Performance improvements of up to +0.8 BLEU points for the English-Turkish translation is achieved. We compared our results with the translation model combination approaches and the best English-Turkish translation systems as well, then reported the improvements. Moreover, we implemented our system with dependency based language modeling in addition to n-gram based language modeling and reported comparable results.

Benzer Tezler

  1. Post training of large language models for targeted natural language processing tasks

    Hedefe yönelik doğal dil işleme görevleri için büyük dil modellerinin sonradan eğitilmesi

    MOHAMMED RAWHANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. DERVİŞ KARABOĞA

  2. Belirsiz bilgi: Bulanık mantık ve olasılık yaklaşımı

    Başlık çevirisi yok

    CENGİZ TEYMUR

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HAKAN TEMELTAŞ

  3. Çevrimiçi element analizi yapan prototip cihazın çevresinde gama ışını ve nötron doz değerlendirmesi

    The evaluation of gamma ray and neutron radiation doses in the vicinity of a prototype device engaged in on-line elemental analysis

    HANDAN YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Fizik ve Fizik Mühendisliğiİstanbul Teknik Üniversitesi

    Fizik Mühendisliği Ana Bilim Dalı

    PROF. DR. İSKENDER ATİLLA REYHANCAN

  4. A conceptual model for image recognition based progress monitoring: retail construction and finishing works

    Görüntü tanıma tabanlı ilerleme takibi için kavramsal bir model: perakende inşaat ve ince yapı işleri

    SALİH KAAN MAZLUM

    Doktora

    İngilizce

    İngilizce

    2025

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. BEGÜM SERTYEŞİLIŞIK

  5. Bir insansız hava aracına ait kompozit kanadın tasarımı ve yapısal optimizasyonu

    Design and structural optimisation of an UAV composite wing

    MUHAMMED ATIF YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALAEDDİN BURAK İREZ