Transliterating Urdu to Roman Urdu using neural network

Neural ağ kullanarak Urdu'dan Römence Urdu'ya dönüştürme

PDF İndir

Tez No: 836239
Yazar: WAJAHATULLAH KHAN
Danışmanlar: DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU AKKOÇ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Işık Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 45

Özet

Harf çevirisi, bir kelimeyi bir dilin alfabesinden başka bir dile dönüştürme işlemidir. Daha önce kullanılan teknikler istatistiksel, kelime öbeği düzey-inde ve kural tabanlı yaklaşımlarla ilgiliyken, heterojen, ölçeklenebilir ve dinamik yapısı nedeniyle Nöral Makine Çevirisi (Neural Machine Transla-tion) onun yerini almıştır. NMT, örneğin zengin kaynak dilleri için kullanılır. Almanca, Vietnam, Çince ve ayrıca Myanmar, Hintçe ve Roman-Urduca gibi zayıf kaynak dilleri için iyi performans gösteriyor. Urduca düşük kaynaklı bir dildir ve NMT modellerini kullanarak transliterasyon yapmak için yapılmış önemli bir çalışma yoktur. Bu yazıda, diziden diziye ve dikkat tabanlı modeller kullanarak Urduca'dan Roman-Urduca harf çeviri-si üzerinde çalışıyoruz. Bu model, bir dili girdi (kaynak) olarak alan Ko-dlayıcı-Kod Çözücü mimarisini kullanır ve kod çözücü bunu istenen çıktıya (hedef) dönüştürür. Bağlama duyarlı ve ölçeklenebilir çözümler sağlayan sonuçları, zengin kaynak dilleri için olağanüstü. Dil harf çevirisi alanında, Uzun Kısa Süreli Bellek (Long Short-Term Memory) ve Çift yönlü modeller, uzun vadeli bağımlılıklarla etkili bir şekilde başa çıkmak için yaygın olarak kullanılır. Görünmeyen verileri işlemek için, Bayt Çifti Kodlama (Byte Pair Encoding) ve alt sözcük tekniklerinin bir kombinasyonu kullanılır ve hem sözcük hem de karakter düzeyi katıştırmalarını içeren hibrit bir yaklaşım kullanılır. Harf çevirisi sisteminin performansını değerlendirmek için sıfır-dan oluşturulmuş 60 bin örnekten oluşan paralel bir derlem üzerinde den-eyler yapılmıştır. Sistem, hiperparametrelerde ince ayar yapmak için kapsamlı testlere tabi tutulur ve sonuçta hem eğitim hem de test veri kümel-erinde BLEU (İki Dilli Değerlendirme Öğrencisi) puanıyla ölçülen son teknoloji ürünü sonuçlara ulaşır. Ek olarak, NMT modeli ölçeklenebilir, sağlam, bağlama duyarlı bir yapı sağlar ve sözcük dağarcığı dışındaki (kelime dağarcığı dışında) sözcükleri işleyebilir.

Özet (Çeviri)

Transliteration is a process of converting a word from the alphabet of one lan-guage to another language. Previously used techniques are related to statistical, phrase level and rule-based approaches but Neural Machine Translation (NMT) has replaced it because of its heterogeneous, scalable and dynamic structure. NMT is used for rich resource languages e.g. German, Vietnam, Chinese and also performing well for poor resource languages like Myanmar, Hindi, and Roman-Urdu. Urdu is a low resource language and there is no sig-nificant work done to transliterate using NMT models. In this paper, we are working on Urdu to Roman-Urdu transliteration using sequence-to-sequence and attention-based models. This model uses the Encoder-Decoder architecture that takes one language as input (source) and decoder transforms it to desire output (target). Its results are phenomenal for rich resource languages, provid-ing context aware and scalable solutions. In the field of language translitera-tion, Long Short-Term Memory (LSTM) and Bi-directional models are com-monly employed to effectively deal with long-term dependencies. To handle unseen data, a combination of Byte Pair Encoding (BPE) and subword tech-niques is utilized, employing a hybrid approach that incorporates both word and character level embeddings. In order to evaluate the performance of the transliteration system, experiments are conducted on a parallel corpus consist-ing of 60k samples, which were generated from scratch. The system undergoes extensive testing to fine-tune the hyperparameters, ultimately achieving state-of-the-art results measured by the BLEU score on both the training and testing datasets. Additionally, the NMT model provides scalable, robust, context aware structure and can handle out-of-vocabulary (OOV) words.

Benzer Tezler

Tez No
962547
06 Mil Yz A 6163/1 Terceme-i Tıbb-i Cedîd-i Efrencî: (1a-99b) İnceleme ve metin
06 Mil Yz A 6163/1 Terceme-i Tıbb-i Cedîd-i Efrencî: (1a-99b) Analysis and text
FATMA ELCAN
Yüksek Lisans
Türkçe
2025
Türk Dili ve Edebiyatı Boğaziçi Üniversitesi
Türk Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NAZLI İPEK HÜNER
Tez No
186365
Fahri Bilge' nin Kayseri yöresi Türk Halk Bilimi çalışmaları
Turkish folkore studies of Fahri Bilge in Kayseri
BETÜL AYDOĞDU
Yüksek Lisans
Türkçe
2005
Halk Bilimi (Folklor)Erciyes Üniversitesi
Türk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. İSMAİL GÖRKEM
Tez No
249552
Tâlib Divanı ve incelenmesi
Tâlib's divan and investigation
BANU GEZER ŞAHİN
Yüksek Lisans
Türkçe
2009
Türk Dili ve Edebiyatı Marmara Üniversitesi
Türk Edebiyatı Bölümü
DR. HAKAN TAŞ
Tez No
340405
Mahmûd Sâbit Târîh-i Silistire (İnceleme-Metin-İndeks)
Mahmûd Sâbit Târîh-i Silistire (Analysis-Text-Index)
OKAN BÜYÜKTAPU
Yüksek Lisans
Türkçe
2013
Tarih İstanbul Üniversitesi
Tarih Ana Bilim Dalı
DOÇ. FİKRET SARICAOĞLU
Tez No
221288
Judicial practices in Manastir (Bitola) in the early 20th century (in the light of the Ottoman judicial records)
Manastır (Bitola)?da 20. yüzyıl başlarında hukuki uygulamalar (Osmanlı kadı sicilleri ışığında)
ZUHRA VELİJİ
Yüksek Lisans
İngilizce
2006
Tarih Fatih Üniversitesi
Tarih Ana Bilim Dalı
PROF. DR. MEHMET İPŞİRLİ

Geri Dön