Geri Dön

Transliterating Urdu to Roman Urdu using neural network

Neural ağ kullanarak Urdu'dan Römence Urdu'ya dönüştürme

  1. Tez No: 836239
  2. Yazar: WAJAHATULLAH KHAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÜLSÜM ÇİĞDEM ÇAVDAROĞLU AKKOÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 45

Özet

Harf çevirisi, bir kelimeyi bir dilin alfabesinden başka bir dile dönüştürme işlemidir. Daha önce kullanılan teknikler istatistiksel, kelime öbeği düzey-inde ve kural tabanlı yaklaşımlarla ilgiliyken, heterojen, ölçeklenebilir ve dinamik yapısı nedeniyle Nöral Makine Çevirisi (Neural Machine Transla-tion) onun yerini almıştır. NMT, örneğin zengin kaynak dilleri için kullanılır. Almanca, Vietnam, Çince ve ayrıca Myanmar, Hintçe ve Roman-Urduca gibi zayıf kaynak dilleri için iyi performans gösteriyor. Urduca düşük kaynaklı bir dildir ve NMT modellerini kullanarak transliterasyon yapmak için yapılmış önemli bir çalışma yoktur. Bu yazıda, diziden diziye ve dikkat tabanlı modeller kullanarak Urduca'dan Roman-Urduca harf çeviri-si üzerinde çalışıyoruz. Bu model, bir dili girdi (kaynak) olarak alan Ko-dlayıcı-Kod Çözücü mimarisini kullanır ve kod çözücü bunu istenen çıktıya (hedef) dönüştürür. Bağlama duyarlı ve ölçeklenebilir çözümler sağlayan sonuçları, zengin kaynak dilleri için olağanüstü. Dil harf çevirisi alanında, Uzun Kısa Süreli Bellek (Long Short-Term Memory) ve Çift yönlü modeller, uzun vadeli bağımlılıklarla etkili bir şekilde başa çıkmak için yaygın olarak kullanılır. Görünmeyen verileri işlemek için, Bayt Çifti Kodlama (Byte Pair Encoding) ve alt sözcük tekniklerinin bir kombinasyonu kullanılır ve hem sözcük hem de karakter düzeyi katıştırmalarını içeren hibrit bir yaklaşım kullanılır. Harf çevirisi sisteminin performansını değerlendirmek için sıfır-dan oluşturulmuş 60 bin örnekten oluşan paralel bir derlem üzerinde den-eyler yapılmıştır. Sistem, hiperparametrelerde ince ayar yapmak için kapsamlı testlere tabi tutulur ve sonuçta hem eğitim hem de test veri kümel-erinde BLEU (İki Dilli Değerlendirme Öğrencisi) puanıyla ölçülen son teknoloji ürünü sonuçlara ulaşır. Ek olarak, NMT modeli ölçeklenebilir, sağlam, bağlama duyarlı bir yapı sağlar ve sözcük dağarcığı dışındaki (kelime dağarcığı dışında) sözcükleri işleyebilir.

Özet (Çeviri)

Transliteration is a process of converting a word from the alphabet of one lan-guage to another language. Previously used techniques are related to statistical, phrase level and rule-based approaches but Neural Machine Translation (NMT) has replaced it because of its heterogeneous, scalable and dynamic structure. NMT is used for rich resource languages e.g. German, Vietnam, Chinese and also performing well for poor resource languages like Myanmar, Hindi, and Roman-Urdu. Urdu is a low resource language and there is no sig-nificant work done to transliterate using NMT models. In this paper, we are working on Urdu to Roman-Urdu transliteration using sequence-to-sequence and attention-based models. This model uses the Encoder-Decoder architecture that takes one language as input (source) and decoder transforms it to desire output (target). Its results are phenomenal for rich resource languages, provid-ing context aware and scalable solutions. In the field of language translitera-tion, Long Short-Term Memory (LSTM) and Bi-directional models are com-monly employed to effectively deal with long-term dependencies. To handle unseen data, a combination of Byte Pair Encoding (BPE) and subword tech-niques is utilized, employing a hybrid approach that incorporates both word and character level embeddings. In order to evaluate the performance of the transliteration system, experiments are conducted on a parallel corpus consist-ing of 60k samples, which were generated from scratch. The system undergoes extensive testing to fine-tune the hyperparameters, ultimately achieving state-of-the-art results measured by the BLEU score on both the training and testing datasets. Additionally, the NMT model provides scalable, robust, context aware structure and can handle out-of-vocabulary (OOV) words.

Benzer Tezler

  1. Fahri Bilge' nin Kayseri yöresi Türk Halk Bilimi çalışmaları

    Turkish folkore studies of Fahri Bilge in Kayseri

    BETÜL AYDOĞDU

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    Halk Bilimi (Folklor)Erciyes Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. İSMAİL GÖRKEM

  2. Mahmûd Sâbit Târîh-i Silistire (İnceleme-Metin-İndeks)

    Mahmûd Sâbit Târîh-i Silistire (Analysis-Text-Index)

    OKAN BÜYÜKTAPU

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Tarihİstanbul Üniversitesi

    Tarih Ana Bilim Dalı

    DOÇ. FİKRET SARICAOĞLU

  3. Uşak kazası Bulkaz karyesinin sosyo-ekonomik durumu üzerine bir yerel tarih çalışması

    A local study on the socio-economic status of the Bulkaz village of Usak province

    CEMİLE BARLIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    TarihUşak Üniversitesi

    Tarih Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ LEYLA AKSU KILIÇ

  4. Tâlib Divanı ve incelenmesi

    Tâlib's divan and investigation

    BANU GEZER ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    Türk Dili ve EdebiyatıMarmara Üniversitesi

    Türk Edebiyatı Bölümü

    DR. HAKAN TAŞ

  5. Et-Tuhfetü'z-Zekiyye fi'l-Lugati't-Türkiye üzerine bir dil incelemesi

    Başlık çevirisi yok

    GÜLHAN AL-TÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    DilbilimGazi Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF.DR. HÜLYA KASAPOĞLU ÇENGEL