Geri Dön

Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi

Применение и тестирование алгоритмов статистического машинного перевода для тюркских языков

  1. Tez No: 614828
  2. Yazar: NAKILAY TAYİROVA
  3. Danışmanlar: PROF. DR. ULAN BRİMKULOV, DOÇ. DR. MEHMET TEKEREK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.

Özet (Çeviri)

Машинный перевод – процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы, а также является подотраслью вычислительной лингвистики. Несмотря на недостаточно точные переводы, с точки зрения синтаксических, семантических критериев, использование усовершенствованных методов в машинном переводе, привело к получению сравнительно приемлемых переводов. За последние годы, активно разрабатываются самообучающиеся методы статистического анализа больших объемов данных. Современное развитие машинного перевода среди тюркских языков развивается в сторону методов основанные на правилах. Тем не менее, один из ведущих современных методов, метод статистического машинного перевода, в настоящее время редко применяется среди тюркских языков. Целью данной работы является применение и тестирование методов статистического машинного перевода, с учетом морфологических особенностей тюркских языков. В данной работе были использованы методы статистического машинного перевода на основе N-грамм и на основе Фраз между кыргызким и турецким языками, используя ограниченные данные обучения. В ходе исследования был проведен обзор литературы о развитии машинного перевода. Статистические системы машинного перевода на основе N-грамм и на основе Фраз построены с использованием сложных методик, в связи с этим, для надежного управления данными были применены специальные инструментарии, как Moses, SRILM, Giza++, MARIE. Качество перевода систем статистического машинного перевода было оценено с помощью алгоритма BLEU и дополнительно сравнено с качеством переводов онлайн сервиса Google Переводчик. Согласно xi результатам, в системах статистического машинного перевода на основе N-грамм и на основе Фраз, с использованием ограниченных данных, качество перевода было получено среднего значения 0.1 между кыргызким и турецким языками. В большинстве случаев, переводы по смыслу не соответствовали с человеческим переводом. Для достижения более качественных текстовых переводов, были представлены некоторые рекомендации по улучшению систем статистического машинного перевода. Ключевые слова: N-грамма, статистическая система машинного перевода, модель языка, модель перевода, декодирование.

Benzer Tezler

  1. Ordu ili (Türkiye) tatlısu Gammaridea (Crustacea, Amphipoda) faunası üzerine bir araştırma

    Study on freshwater Gammari̇dea (Crustacea, Amphipoda) fauna of Ordu (Turkey)

    MEHMET EKİNCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Balıkçılık TeknolojisiOrdu Üniversitesi

    Balıkçılık Teknolojisi Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ MİROĞLU

  2. Metil-sübstitüe metoksi konduritollerin sentezi

    Synthesis of methyl-substituted methoxy conduritols

    DİLEK KAPLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    KimyaOrdu Üniversitesi

    Kimya Ana Bilim Dalı

    DOÇ. DR. LATİF KELEBEKLİ

  3. Enerji ihtiyacının karşılanmasında doğalgaz ve rüzgâr kaynaklı enerji çevrim santralleri; yatımlar üzerine stratejik bir analiz

    Natural gas and wind based cycle plant in supplying the needs of energy reguirement; a strategic analysis on investments

    GÜVEN KARAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    İşletmeOrdu Üniversitesi

    Yenilenebilir Enerji Ana Bilim Dalı

    YRD. DOÇ. DR. KADİR AKSAY

  4. Ordu ekolojik koşullarında bazı kuru fasulye (Phaseolus vulgaris L.) çeşit ve genotiplerinin verim, verim öğeleri ile tohum ve teknolojik özelliklerinin belirlenmesi

    Determination of yield and components with seed and technological characteristics of some dry beans (Phaseolus vulgaris L.) varieties and genotypes on in ecological conditions of Ordu

    YAŞAR ÖZBEKMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    ZiraatOrdu Üniversitesi

    Tarla Bitkileri Ana Bilim Dalı

    PROF. DR. NURİ YILMAZ

  5. Fındık zurufu kompostunun toprak kalitesi üzerine etkisi

    The effect of adding of hazelnut husk compost on soil quality

    SELAHATTİN AYGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    ZiraatOrdu Üniversitesi

    Toprak Bilimi ve Bitki Besleme Ana Bilim Dalı

    PROF. DR. TAYFUN AŞKIN