Syllable-based approach with deep learning methods on Turkish diacritic restoration
Türkçe diakritik restorasyonu konusunda derin öğrenme yöntemleriyle hece tabanlı yaklaşım
- Tez No: 891705
- Danışmanlar: PROF. DR. YUSUF SİNAN AKGÜL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Gebze Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 94
Özet
İnternetin yaygınlaşması ve teknolojinin hızla ilerlemesi nedeniyle birden fazla dilde mevcut olan dijital metinlerin miktarı sürekli artmaktadır. Ancak klavye düzenleri ve alfabelerdeki farklılıklar nedeniyle birçok aksan işareti yok veya yanlış kullanılıyor, bu da okumayı zorlaştırabiliyor. Bu kusurlara rağmen kelime anlamlarını doğru bir şekilde yorumlamak için doğal dil işlemeyi gerektiren uygulamalar bu konuda zorluk yaşamaktadır. Mevcut araştırma, çeşitli dilleri kapsayan çok sayıda doğal dil işleme (NLP) uygulamasının temel bir bileşeni olan aksan restorasyonuna (DR) odaklanmaktadır. Türkçenin anlam açısından güçlü hece duyarlılığı dikkate alınarak bu çalışmada hece temelli çift yönlü dönüştürücü yapı geliştirilmiştir. Modelin performansını daha da arttırmak için hece ve kelime yapısı kısıtlamaları ve kuralları eğitim seti üzerinde başarılı bir şekilde kodlanmıştır. Model eğitimi sırasında verilere bu yapısal kısıtlamaların ve kuralların eklenmesiyle, modelin anlambilimi öğrenme yeteneği özellikle geliştirildi. Sonuç olarak, çalışmanın sonuçları, önerilen modelin konfigürasyonunun iyileştirilmesiyle mümkün olan ve daha önceki kelime tabanlı ve karakter tabanlı araştırmaların sonuçlarını geride bırakan dikkate değer ilerlemeyi vurgulamaktadır. %99,02 gibi dikkat çekici bir doğruluk oranına ulaştık. Spesifik olarak, belirsiz kelimeleri çözmedeki %97,06'lık son derece yüksek doğruluk oranı, başarılı anlamsal öğrenmenin göstergesiydi. Bu başarı, çeşitli dillerde NLP uygulamalarını geliştirme potansiyelini vurguluyor ve aksan restorasyonu alanında önemli bir kilometre taşını temsil ediyor.
Özet (Çeviri)
The amount of digital text available in multiple languages is constantly expanding due to the widespread usage of the Internet and the quick advancement of technology. However many diacritical marks are absent or misused due to variations in keyboard layouts and alphabets, which can make reading difficult. Applications requiring natural language processing to accurately interpret word meanings in spite of these flaws are challenged by this. The present investigation centers on diacritic restoration (DR), an essential component of numerous natural language processing (NLP) applications spanning various languages. Given Turkish's strong syllable sensitivity in meaning, a syllable-based bidirectional transformer structure has been developed in this work. To further enhance the model's performance, the syllable, and word structure restrictions and rules were successively coded on the training set. By introducing these structural restrictions and rules into the data during model training, the model's ability to learn semantics was particularly enhanced. As a result, the study's conclusions emphasize the notable advancement made possible by refining the configuration of the suggested model, surpassing the results of previous word-based and character-based research. We achieved a remarkable 99.02% accuracy rate. Specifically, the extremely high accuracy rate of 97.06% in resolving ambiguous words indicated successful semantic learning. This accomplishment highlights the potential for enhancing NLP applications across a range of languages and represents a significant milestone in the field of diacritic restoration.
Benzer Tezler
- Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli
Syllable-based image captioning model based on deep neural networks for image archives
YAĞMUR KAYA
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TÜLİN ERÇELEBİ AYYILDIZ
- Design and implementation of a platform independent automatic speech recognition system
Platformdan bağımsız bir otomatik konuşma tanıma sisteminin tasarlanması ve uygulanması
DOĞAN URGUN
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULKADİR ERDEN
YRD. DOÇ. DR. HAKAN TORA
- Sözcük ve hece tabanlı konuşma tanıma sistemlerinin karşılaştırılması
A comparison of word and syllable-based speech recognition systems
ÖZLEM YAKAR
Yüksek Lisans
Türkçe
2016
MatematikAdnan Menderes ÜniversitesiMatematik Ana Bilim Dalı
YRD. DOÇ. DR. RIFAT AŞLIYAN