Geri Dön

Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi

Применение и тестирование алгоритмов статистического машинного перевода для тюркских языков

  1. Tez No: 614828
  2. Yazar: NAKILAY TAYİROVA
  3. Danışmanlar: PROF. DR. ULAN BRİMKULOV, DOÇ. DR. MEHMET TEKEREK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.

Özet (Çeviri)

Машинный перевод – процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы, а также является подотраслью вычислительной лингвистики. Несмотря на недостаточно точные переводы, с точки зрения синтаксических, семантических критериев, использование усовершенствованных методов в машинном переводе, привело к получению сравнительно приемлемых переводов. За последние годы, активно разрабатываются самообучающиеся методы статистического анализа больших объемов данных. Современное развитие машинного перевода среди тюркских языков развивается в сторону методов основанные на правилах. Тем не менее, один из ведущих современных методов, метод статистического машинного перевода, в настоящее время редко применяется среди тюркских языков. Целью данной работы является применение и тестирование методов статистического машинного перевода, с учетом морфологических особенностей тюркских языков. В данной работе были использованы методы статистического машинного перевода на основе N-грамм и на основе Фраз между кыргызким и турецким языками, используя ограниченные данные обучения. В ходе исследования был проведен обзор литературы о развитии машинного перевода. Статистические системы машинного перевода на основе N-грамм и на основе Фраз построены с использованием сложных методик, в связи с этим, для надежного управления данными были применены специальные инструментарии, как Moses, SRILM, Giza++, MARIE. Качество перевода систем статистического машинного перевода было оценено с помощью алгоритма BLEU и дополнительно сравнено с качеством переводов онлайн сервиса Google Переводчик. Согласно xi результатам, в системах статистического машинного перевода на основе N-грамм и на основе Фраз, с использованием ограниченных данных, качество перевода было получено среднего значения 0.1 между кыргызким и турецким языками. В большинстве случаев, переводы по смыслу не соответствовали с человеческим переводом. Для достижения более качественных текстовых переводов, были представлены некоторые рекомендации по улучшению систем статистического машинного перевода. Ключевые слова: N-грамма, статистическая система машинного перевода, модель языка, модель перевода, декодирование.

Benzer Tezler

  1. Akraba ve bitişken diller arasında bilgisayarlı çeviri için karma bir model

    A hybrid model for machine translation between agglutinative and related languages

    AHMET CÜNEYD TANTUĞ

    Doktora

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF.DR. EŞREF ADALI

  2. Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri

    Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types

    SEVDA DÜLGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    ZiraatÇanakkale Onsekiz Mart Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT ŞEKER

  3. Hemşireler ve hemşirelik öğrencilerinde kültürlerarası tolerans ve ilişkili faktörlerin saptanması

    Determine of intercultural tolerance and related factors in nurses and nursing students

    GÖZDE ÖZSEZER KAYMAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Halk SağlığıÇanakkale Onsekiz Mart Üniversitesi

    Hemşirelik Ana Bilim Dalı

    PROF. DR. GÜLBU TANRIVERDİ

  4. İş kazaları ile stres, kaygı ve öfke kavramları arasındaki ilişkinin incelenmesi: 9 Türk ve 2 İngiliz tekstil fabrikasında yapılan bir araştırma

    The relations between work accidents and stress, anxiety and anger: A survey at 9 Turkish and 2 English textile factories

    M. HÜLYA ÜNAL KARAGÜVEN

    Doktora

    Türkçe

    Türkçe

    1997

    Çalışma Ekonomisi ve Endüstri İlişkileriİstanbul Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. AYŞE CAN BAYSAL

  5. Die Prapositivergaenzung in Deutschen und ihre Entsprechung im Türkischen

    Başlık çevirisi yok

    RECEP ÖZBAY

    Yüksek Lisans

    Almanca

    Almanca

    1988

    DilbilimHacettepe Üniversitesi

    Alman Dili ve Edebiyatı Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN YILDIZ