Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi
Применение и тестирование алгоритмов статистического машинного перевода для тюркских языков
- Tez No: 614828
- Danışmanlar: PROF. DR. ULAN BRİMKULOV, DOÇ. DR. MEHMET TEKEREK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.
Özet (Çeviri)
Машинный перевод – процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы, а также является подотраслью вычислительной лингвистики. Несмотря на недостаточно точные переводы, с точки зрения синтаксических, семантических критериев, использование усовершенствованных методов в машинном переводе, привело к получению сравнительно приемлемых переводов. За последние годы, активно разрабатываются самообучающиеся методы статистического анализа больших объемов данных. Современное развитие машинного перевода среди тюркских языков развивается в сторону методов основанные на правилах. Тем не менее, один из ведущих современных методов, метод статистического машинного перевода, в настоящее время редко применяется среди тюркских языков. Целью данной работы является применение и тестирование методов статистического машинного перевода, с учетом морфологических особенностей тюркских языков. В данной работе были использованы методы статистического машинного перевода на основе N-грамм и на основе Фраз между кыргызким и турецким языками, используя ограниченные данные обучения. В ходе исследования был проведен обзор литературы о развитии машинного перевода. Статистические системы машинного перевода на основе N-грамм и на основе Фраз построены с использованием сложных методик, в связи с этим, для надежного управления данными были применены специальные инструментарии, как Moses, SRILM, Giza++, MARIE. Качество перевода систем статистического машинного перевода было оценено с помощью алгоритма BLEU и дополнительно сравнено с качеством переводов онлайн сервиса Google Переводчик. Согласно xi результатам, в системах статистического машинного перевода на основе N-грамм и на основе Фраз, с использованием ограниченных данных, качество перевода было получено среднего значения 0.1 между кыргызким и турецким языками. В большинстве случаев, переводы по смыслу не соответствовали с человеческим переводом. Для достижения более качественных текстовых переводов, были представлены некоторые рекомендации по улучшению систем статистического машинного перевода. Ключевые слова: N-грамма, статистическая система машинного перевода, модель языка, модель перевода, декодирование.
Benzer Tezler
- Ordu ili (Türkiye) tatlısu Gammaridea (Crustacea, Amphipoda) faunası üzerine bir araştırma
Study on freshwater Gammari̇dea (Crustacea, Amphipoda) fauna of Ordu (Turkey)
MEHMET EKİNCİ
Yüksek Lisans
Türkçe
2015
Balıkçılık TeknolojisiOrdu ÜniversitesiBalıkçılık Teknolojisi Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ALİ MİROĞLU
- Metil-sübstitüe metoksi konduritollerin sentezi
Synthesis of methyl-substituted methoxy conduritols
DİLEK KAPLAN
- Enerji ihtiyacının karşılanmasında doğalgaz ve rüzgâr kaynaklı enerji çevrim santralleri; yatımlar üzerine stratejik bir analiz
Natural gas and wind based cycle plant in supplying the needs of energy reguirement; a strategic analysis on investments
GÜVEN KARAMAN
Yüksek Lisans
Türkçe
2015
İşletmeOrdu ÜniversitesiYenilenebilir Enerji Ana Bilim Dalı
YRD. DOÇ. DR. KADİR AKSAY
- Ordu ekolojik koşullarında bazı kuru fasulye (Phaseolus vulgaris L.) çeşit ve genotiplerinin verim, verim öğeleri ile tohum ve teknolojik özelliklerinin belirlenmesi
Determination of yield and components with seed and technological characteristics of some dry beans (Phaseolus vulgaris L.) varieties and genotypes on in ecological conditions of Ordu
YAŞAR ÖZBEKMEZ
- Fındık zurufu kompostunun toprak kalitesi üzerine etkisi
The effect of adding of hazelnut husk compost on soil quality
SELAHATTİN AYGÜN
Yüksek Lisans
Türkçe
2015
ZiraatOrdu ÜniversitesiToprak Bilimi ve Bitki Besleme Ana Bilim Dalı
PROF. DR. TAYFUN AŞKIN