Geri Dön

Syllable-based approach with deep learning methods on Turkish diacritic restoration

Türkçe diakritik restorasyonu konusunda derin öğrenme yöntemleriyle hece tabanlı yaklaşım

  1. Tez No: 891705
  2. Yazar: ÖZNUR ACAR
  3. Danışmanlar: PROF. DR. YUSUF SİNAN AKGÜL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 94

Özet

İnternetin yaygınlaşması ve teknolojinin hızla ilerlemesi nedeniyle birden fazla dilde mevcut olan dijital metinlerin miktarı sürekli artmaktadır. Ancak klavye düzenleri ve alfabelerdeki farklılıklar nedeniyle birçok aksan işareti yok veya yanlış kullanılıyor, bu da okumayı zorlaştırabiliyor. Bu kusurlara rağmen kelime anlamlarını doğru bir şekilde yorumlamak için doğal dil işlemeyi gerektiren uygulamalar bu konuda zorluk yaşamaktadır. Mevcut araştırma, çeşitli dilleri kapsayan çok sayıda doğal dil işleme (NLP) uygulamasının temel bir bileşeni olan aksan restorasyonuna (DR) odaklanmaktadır. Türkçenin anlam açısından güçlü hece duyarlılığı dikkate alınarak bu çalışmada hece temelli çift yönlü dönüştürücü yapı geliştirilmiştir. Modelin performansını daha da arttırmak için hece ve kelime yapısı kısıtlamaları ve kuralları eğitim seti üzerinde başarılı bir şekilde kodlanmıştır. Model eğitimi sırasında verilere bu yapısal kısıtlamaların ve kuralların eklenmesiyle, modelin anlambilimi öğrenme yeteneği özellikle geliştirildi. Sonuç olarak, çalışmanın sonuçları, önerilen modelin konfigürasyonunun iyileştirilmesiyle mümkün olan ve daha önceki kelime tabanlı ve karakter tabanlı araştırmaların sonuçlarını geride bırakan dikkate değer ilerlemeyi vurgulamaktadır. %99,02 gibi dikkat çekici bir doğruluk oranına ulaştık. Spesifik olarak, belirsiz kelimeleri çözmedeki %97,06'lık son derece yüksek doğruluk oranı, başarılı anlamsal öğrenmenin göstergesiydi. Bu başarı, çeşitli dillerde NLP uygulamalarını geliştirme potansiyelini vurguluyor ve aksan restorasyonu alanında önemli bir kilometre taşını temsil ediyor.

Özet (Çeviri)

The amount of digital text available in multiple languages is constantly expanding due to the widespread usage of the Internet and the quick advancement of technology. However many diacritical marks are absent or misused due to variations in keyboard layouts and alphabets, which can make reading difficult. Applications requiring natural language processing to accurately interpret word meanings in spite of these flaws are challenged by this. The present investigation centers on diacritic restoration (DR), an essential component of numerous natural language processing (NLP) applications spanning various languages. Given Turkish's strong syllable sensitivity in meaning, a syllable-based bidirectional transformer structure has been developed in this work. To further enhance the model's performance, the syllable, and word structure restrictions and rules were successively coded on the training set. By introducing these structural restrictions and rules into the data during model training, the model's ability to learn semantics was particularly enhanced. As a result, the study's conclusions emphasize the notable advancement made possible by refining the configuration of the suggested model, surpassing the results of previous word-based and character-based research. We achieved a remarkable 99.02% accuracy rate. Specifically, the extremely high accuracy rate of 97.06% in resolving ambiguous words indicated successful semantic learning. This accomplishment highlights the potential for enhancing NLP applications across a range of languages and represents a significant milestone in the field of diacritic restoration.

Benzer Tezler

  1. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli

    Syllable-based image captioning model based on deep neural networks for image archives

    YAĞMUR KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TÜLİN ERÇELEBİ AYYILDIZ

  3. Lem'i Atlı'nın eserlerinde müzik-edebiyat ilişkisi

    Başlık çevirisi yok

    YASEMİN ŞEHNAZ GÜLDAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Güzel Sanatlarİstanbul Teknik Üniversitesi

    PROF.DR. SELAHATTİN İÇLİ

  4. Design and implementation of a platform independent automatic speech recognition system

    Platformdan bağımsız bir otomatik konuşma tanıma sisteminin tasarlanması ve uygulanması

    DOĞAN URGUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULKADİR ERDEN

    YRD. DOÇ. DR. HAKAN TORA

  5. Sözcük ve hece tabanlı konuşma tanıma sistemlerinin karşılaştırılması

    A comparison of word and syllable-based speech recognition systems

    ÖZLEM YAKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    MatematikAdnan Menderes Üniversitesi

    Matematik Ana Bilim Dalı

    YRD. DOÇ. DR. RIFAT AŞLIYAN