Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi

Применение и тестирование алгоритмов статистического машинного перевода для тюркских языков

Tez No: 614828
Yazar: NAKILAY TAYİROVA
Danışmanlar: PROF. DR. ULAN BRİMKULOV, DOÇ. DR. MEHMET TEKEREK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme
Yıl: 2016
Dil: Türkçe
Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 57

Özet

Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.

Özet (Çeviri)

Машинный перевод – процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы, а также является подотраслью вычислительной лингвистики. Несмотря на недостаточно точные переводы, с точки зрения синтаксических, семантических критериев, использование усовершенствованных методов в машинном переводе, привело к получению сравнительно приемлемых переводов. За последние годы, активно разрабатываются самообучающиеся методы статистического анализа больших объемов данных. Современное развитие машинного перевода среди тюркских языков развивается в сторону методов основанные на правилах. Тем не менее, один из ведущих современных методов, метод статистического машинного перевода, в настоящее время редко применяется среди тюркских языков. Целью данной работы является применение и тестирование методов статистического машинного перевода, с учетом морфологических особенностей тюркских языков. В данной работе были использованы методы статистического машинного перевода на основе N-грамм и на основе Фраз между кыргызким и турецким языками, используя ограниченные данные обучения. В ходе исследования был проведен обзор литературы о развитии машинного перевода. Статистические системы машинного перевода на основе N-грамм и на основе Фраз построены с использованием сложных методик, в связи с этим, для надежного управления данными были применены специальные инструментарии, как Moses, SRILM, Giza++, MARIE. Качество перевода систем статистического машинного перевода было оценено с помощью алгоритма BLEU и дополнительно сравнено с качеством переводов онлайн сервиса Google Переводчик. Согласно xi результатам, в системах статистического машинного перевода на основе N-грамм и на основе Фраз, с использованием ограниченных данных, качество перевода было получено среднего значения 0.1 между кыргызким и турецким языками. В большинстве случаев, переводы по смыслу не соответствовали с человеческим переводом. Для достижения более качественных текстовых переводов, были представлены некоторые рекомендации по улучшению систем статистического машинного перевода. Ключевые слова: N-грамма, статистическая система машинного перевода, модель языка, модель перевода, декодирование.

Benzer Tezler

Tez No
223702
Akraba ve bitişken diller arasında bilgisayarlı çeviri için karma bir model
A hybrid model for machine translation between agglutinative and related languages
AHMET CÜNEYD TANTUĞ
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. EŞREF ADALI
Tez No
947264
Билим, илим жана маданият тармагындагы Кыргызстан менен Түркиянын кызматташтыгы (1992-2012 жж.)
Kırgız Cumhuriyeti ile Türkiye Cumhuriyeti arasında eğitim, bilim ve kültürel ilişkiler (1992-2012)
KADRİ AĞGÜN
Doktora
Kırgızca
2016
Tarih Kyrgyz State University named after I Arabaev
Tarih Ana Bilim Dalı
PROF. DR. TÖLÖBEK ABDRAHMANOV
Tez No
150702
Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri
Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types
SEVDA DÜLGER
Yüksek Lisans
Türkçe
2004
Ziraat Çanakkale Onsekiz Mart Üniversitesi
Bahçe Bitkileri Ana Bilim Dalı
YRD. DOÇ. DR. MURAT ŞEKER
Tez No
619474
Hemşireler ve hemşirelik öğrencilerinde kültürlerarası tolerans ve ilişkili faktörlerin saptanması
Determine of intercultural tolerance and related factors in nurses and nursing students
GÖZDE ÖZSEZER KAYMAK
Yüksek Lisans
Türkçe
2020
Halk Sağlığı Çanakkale Onsekiz Mart Üniversitesi
Hemşirelik Ana Bilim Dalı
PROF. DR. GÜLBU TANRIVERDİ
Tez No
64040
İş kazaları ile stres, kaygı ve öfke kavramları arasındaki ilişkinin incelenmesi: 9 Türk ve 2 İngiliz tekstil fabrikasında yapılan bir araştırma
The relations between work accidents and stress, anxiety and anger: A survey at 9 Turkish and 2 English textile factories
M. HÜLYA ÜNAL KARAGÜVEN
Doktora
Türkçe
1997
Çalışma Ekonomisi ve Endüstri İlişkileri İstanbul Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. AYŞE CAN BAYSAL

Geri Dön