Türkçe akraba dilleri arasında istatistiksel bilgisayarlı çeviri algoritmalarının uygulanması ve başarım testi
Применение и тестирование алгоритмов статистического машинного перевода для тюркских языков
- Tez No: 614828
- Danışmanlar: PROF. DR. ULAN BRİMKULOV, DOÇ. DR. MEHMET TEKEREK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: N-GRAM, istatistiksel bilgisayarlı çeviri, dil modeli, çeviri modeli, kod çözme
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Bilgisayarlı çeviri, doğal diller arası metin çevirmede kullanılan farklı yöntem ve yazılımları araştırmayı amaçlayan bilgisayarlı dilbilim alt alanıdır. Bilgisayarlı çeviri araçlarının insan çevirisi gibi yüksek seviyede sözdizimsel ve anlambilimsel analiz sağlayamamasına rağmen; gelişmiş bilgisayarlı yöntemler uygulanarak yaygın kullanılan diller arası çeviride nispeten kabul edilebilir sonuçlara ulaşılmıştır. Son yıllarda, bilgisayarlı çeviride, büyük veri üzerinde istatistiksel analizle kendi kendini eğitebilen yöntemler geliştirilmiştir. Türkçe dil ailesi üzerine yapılan bilgisayarlı çeviri araştırmalarında, doğal dillerin kurallı yapısı çözümlenerek kural tabanlı yöntemlerin uygulandığı, ancak baskın ve yaygın olarak araştırılan İstatistiksel Bilgisayarlı Çeviri yöntemlerinin ise sınırlı sayıda ve kısmen uygulandığı görülmektedir. Bu çalışmanın amacı, Türkçe dil ailesinin özellikleri göz önüne alınarak İstatistiksel Bilgisayarlı Çeviri yöntemlerini uygulamak ve başarımını çeviri örnekleri üzerinde test etmektir. Çalışma sürecinde, bilgisayarlı çevirinin başlangıcından bu yana gelişmesi ve mevcut durumu ile ilgili alanyazın taraması yapılmıştır. Araştırmalara dayalı, Kırgız Türkçesi ve Türkiye Türkçesi dilleri arasında İstatistiksel Bilgisayarlı Çeviri sistemi yöntemleri olarak NGRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri sistemleri uygulanmıştır. Sistemler sınırlı paralel korpus üzerinde eğitilmiştir. İBÇ sistemleri karmaşık metodolojilerden oluşmasıyla, İstatistiksel Bilgisayarlı Çeviri sistemini öğretim ve işletimde büyük veri yönetiminin sağlam ve güvenilir olması için İstatistiksel Bilgisayarlı Çeviri araştırmacıları tarafından yaygın olarak kullanılan Moses, SRILM, Giza++, MARIE gibi araçlardan faydalanılmıştır. Çalışma kapsamında çeviri kalitesi BLEU değerlendirme yöntemi ile puanlanmıştır. Ek olarak, uygulamada geliştirilen İBÇ sistemler çevirisi için BLEU değerlendirme puanı, günümüzün gelişmiş çevrimiçi Google Çeviri İBÇ sistem çeviri BLEU değerlendirme puanı ile karşılaştırılmıştır. Değerlendirmede, veriler, uygulanmış sistemlerin eğitilmesinde kullanılan verilere göre uzun ve kısa, gündelik ve edebi olarak çeşitlendirilmiştir. Sonuçlara göre, sınırlı korpus üzerinde eğitilmiş sistemlerde, Kırgız Türkçesi ve Türkiye Türkçesi arasında N-GRAM Tabanlı ve İfade Tabanlı İstatistiksel Bilgisayarlı Çeviri kalitesi ortalama 0.1 değerinde elde edilmiştir. Çevirisi hiç bulunmayan, ya da insan çevirisine göre uyumsuz durumlar da gözlemlenmiştir. Daha yüksek çeviri kalitesine ulaşma ve sistemler geliştirme amacıyla çeşitli öneriler sunulmuştur.
Özet (Çeviri)
Машинный перевод – процесс перевода текстов с одного естественного языка на другой с помощью специальной компьютерной программы, а также является подотраслью вычислительной лингвистики. Несмотря на недостаточно точные переводы, с точки зрения синтаксических, семантических критериев, использование усовершенствованных методов в машинном переводе, привело к получению сравнительно приемлемых переводов. За последние годы, активно разрабатываются самообучающиеся методы статистического анализа больших объемов данных. Современное развитие машинного перевода среди тюркских языков развивается в сторону методов основанные на правилах. Тем не менее, один из ведущих современных методов, метод статистического машинного перевода, в настоящее время редко применяется среди тюркских языков. Целью данной работы является применение и тестирование методов статистического машинного перевода, с учетом морфологических особенностей тюркских языков. В данной работе были использованы методы статистического машинного перевода на основе N-грамм и на основе Фраз между кыргызким и турецким языками, используя ограниченные данные обучения. В ходе исследования был проведен обзор литературы о развитии машинного перевода. Статистические системы машинного перевода на основе N-грамм и на основе Фраз построены с использованием сложных методик, в связи с этим, для надежного управления данными были применены специальные инструментарии, как Moses, SRILM, Giza++, MARIE. Качество перевода систем статистического машинного перевода было оценено с помощью алгоритма BLEU и дополнительно сравнено с качеством переводов онлайн сервиса Google Переводчик. Согласно xi результатам, в системах статистического машинного перевода на основе N-грамм и на основе Фраз, с использованием ограниченных данных, качество перевода было получено среднего значения 0.1 между кыргызким и турецким языками. В большинстве случаев, переводы по смыслу не соответствовали с человеческим переводом. Для достижения более качественных текстовых переводов, были представлены некоторые рекомендации по улучшению систем статистического машинного перевода. Ключевые слова: N-грамма, статистическая система машинного перевода, модель языка, модель перевода, декодирование.
Benzer Tezler
- Akraba ve bitişken diller arasında bilgisayarlı çeviri için karma bir model
A hybrid model for machine translation between agglutinative and related languages
AHMET CÜNEYD TANTUĞ
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF.DR. EŞREF ADALI
- Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri
Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types
SEVDA DÜLGER
Yüksek Lisans
Türkçe
2004
ZiraatÇanakkale Onsekiz Mart ÜniversitesiBahçe Bitkileri Ana Bilim Dalı
YRD. DOÇ. DR. MURAT ŞEKER
- Hemşireler ve hemşirelik öğrencilerinde kültürlerarası tolerans ve ilişkili faktörlerin saptanması
Determine of intercultural tolerance and related factors in nurses and nursing students
GÖZDE ÖZSEZER KAYMAK
Yüksek Lisans
Türkçe
2020
Halk SağlığıÇanakkale Onsekiz Mart ÜniversitesiHemşirelik Ana Bilim Dalı
PROF. DR. GÜLBU TANRIVERDİ
- İş kazaları ile stres, kaygı ve öfke kavramları arasındaki ilişkinin incelenmesi: 9 Türk ve 2 İngiliz tekstil fabrikasında yapılan bir araştırma
The relations between work accidents and stress, anxiety and anger: A survey at 9 Turkish and 2 English textile factories
M. HÜLYA ÜNAL KARAGÜVEN
Doktora
Türkçe
1997
Çalışma Ekonomisi ve Endüstri İlişkileriİstanbul Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. AYŞE CAN BAYSAL
- Die Prapositivergaenzung in Deutschen und ihre Entsprechung im Türkischen
Başlık çevirisi yok
RECEP ÖZBAY
Yüksek Lisans
Almanca
1988
DilbilimHacettepe ÜniversitesiAlman Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN YILDIZ