Transliterating Urdu to Roman Urdu using neural network
Neural ağ kullanarak Urdu'dan Römence Urdu'ya dönüştürme
- Tez No: 836239
- Danışmanlar: DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU AKKOÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Işık Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 45
Özet
Harf çevirisi, bir kelimeyi bir dilin alfabesinden başka bir dile dönüştürme işlemidir. Daha önce kullanılan teknikler istatistiksel, kelime öbeği düzey-inde ve kural tabanlı yaklaşımlarla ilgiliyken, heterojen, ölçeklenebilir ve dinamik yapısı nedeniyle Nöral Makine Çevirisi (Neural Machine Transla-tion) onun yerini almıştır. NMT, örneğin zengin kaynak dilleri için kullanılır. Almanca, Vietnam, Çince ve ayrıca Myanmar, Hintçe ve Roman-Urduca gibi zayıf kaynak dilleri için iyi performans gösteriyor. Urduca düşük kaynaklı bir dildir ve NMT modellerini kullanarak transliterasyon yapmak için yapılmış önemli bir çalışma yoktur. Bu yazıda, diziden diziye ve dikkat tabanlı modeller kullanarak Urduca'dan Roman-Urduca harf çeviri-si üzerinde çalışıyoruz. Bu model, bir dili girdi (kaynak) olarak alan Ko-dlayıcı-Kod Çözücü mimarisini kullanır ve kod çözücü bunu istenen çıktıya (hedef) dönüştürür. Bağlama duyarlı ve ölçeklenebilir çözümler sağlayan sonuçları, zengin kaynak dilleri için olağanüstü. Dil harf çevirisi alanında, Uzun Kısa Süreli Bellek (Long Short-Term Memory) ve Çift yönlü modeller, uzun vadeli bağımlılıklarla etkili bir şekilde başa çıkmak için yaygın olarak kullanılır. Görünmeyen verileri işlemek için, Bayt Çifti Kodlama (Byte Pair Encoding) ve alt sözcük tekniklerinin bir kombinasyonu kullanılır ve hem sözcük hem de karakter düzeyi katıştırmalarını içeren hibrit bir yaklaşım kullanılır. Harf çevirisi sisteminin performansını değerlendirmek için sıfır-dan oluşturulmuş 60 bin örnekten oluşan paralel bir derlem üzerinde den-eyler yapılmıştır. Sistem, hiperparametrelerde ince ayar yapmak için kapsamlı testlere tabi tutulur ve sonuçta hem eğitim hem de test veri kümel-erinde BLEU (İki Dilli Değerlendirme Öğrencisi) puanıyla ölçülen son teknoloji ürünü sonuçlara ulaşır. Ek olarak, NMT modeli ölçeklenebilir, sağlam, bağlama duyarlı bir yapı sağlar ve sözcük dağarcığı dışındaki (kelime dağarcığı dışında) sözcükleri işleyebilir.
Özet (Çeviri)
Transliteration is a process of converting a word from the alphabet of one lan-guage to another language. Previously used techniques are related to statistical, phrase level and rule-based approaches but Neural Machine Translation (NMT) has replaced it because of its heterogeneous, scalable and dynamic structure. NMT is used for rich resource languages e.g. German, Vietnam, Chinese and also performing well for poor resource languages like Myanmar, Hindi, and Roman-Urdu. Urdu is a low resource language and there is no sig-nificant work done to transliterate using NMT models. In this paper, we are working on Urdu to Roman-Urdu transliteration using sequence-to-sequence and attention-based models. This model uses the Encoder-Decoder architecture that takes one language as input (source) and decoder transforms it to desire output (target). Its results are phenomenal for rich resource languages, provid-ing context aware and scalable solutions. In the field of language translitera-tion, Long Short-Term Memory (LSTM) and Bi-directional models are com-monly employed to effectively deal with long-term dependencies. To handle unseen data, a combination of Byte Pair Encoding (BPE) and subword tech-niques is utilized, employing a hybrid approach that incorporates both word and character level embeddings. In order to evaluate the performance of the transliteration system, experiments are conducted on a parallel corpus consist-ing of 60k samples, which were generated from scratch. The system undergoes extensive testing to fine-tune the hyperparameters, ultimately achieving state-of-the-art results measured by the BLEU score on both the training and testing datasets. Additionally, the NMT model provides scalable, robust, context aware structure and can handle out-of-vocabulary (OOV) words.
Benzer Tezler
- Fahri Bilge' nin Kayseri yöresi Türk Halk Bilimi çalışmaları
Turkish folkore studies of Fahri Bilge in Kayseri
BETÜL AYDOĞDU
Yüksek Lisans
Türkçe
2005
Halk Bilimi (Folklor)Erciyes ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. İSMAİL GÖRKEM
- Mahmûd Sâbit Târîh-i Silistire (İnceleme-Metin-İndeks)
Mahmûd Sâbit Târîh-i Silistire (Analysis-Text-Index)
OKAN BÜYÜKTAPU
- Uşak kazası Bulkaz karyesinin sosyo-ekonomik durumu üzerine bir yerel tarih çalışması
A local study on the socio-economic status of the Bulkaz village of Usak province
CEMİLE BARLIK
- Et-Tuhfetü'z-Zekiyye fi'l-Lugati't-Türkiye üzerine bir dil incelemesi
Başlık çevirisi yok
GÜLHAN AL-TÜRK
Yüksek Lisans
Türkçe
2006
DilbilimGazi ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF.DR. HÜLYA KASAPOĞLU ÇENGEL