Syllable-based approach with deep learning methods on Turkish diacritic restoration

Türkçe diakritik restorasyonu konusunda derin öğrenme yöntemleriyle hece tabanlı yaklaşım

PDF İndir

Tez No: 891705
Yazar: ÖZNUR ACAR
Danışmanlar: PROF. DR. YUSUF SİNAN AKGÜL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Gebze Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 94

Özet

İnternetin yaygınlaşması ve teknolojinin hızla ilerlemesi nedeniyle birden fazla dilde mevcut olan dijital metinlerin miktarı sürekli artmaktadır. Ancak klavye düzenleri ve alfabelerdeki farklılıklar nedeniyle birçok aksan işareti yok veya yanlış kullanılıyor, bu da okumayı zorlaştırabiliyor. Bu kusurlara rağmen kelime anlamlarını doğru bir şekilde yorumlamak için doğal dil işlemeyi gerektiren uygulamalar bu konuda zorluk yaşamaktadır. Mevcut araştırma, çeşitli dilleri kapsayan çok sayıda doğal dil işleme (NLP) uygulamasının temel bir bileşeni olan aksan restorasyonuna (DR) odaklanmaktadır. Türkçenin anlam açısından güçlü hece duyarlılığı dikkate alınarak bu çalışmada hece temelli çift yönlü dönüştürücü yapı geliştirilmiştir. Modelin performansını daha da arttırmak için hece ve kelime yapısı kısıtlamaları ve kuralları eğitim seti üzerinde başarılı bir şekilde kodlanmıştır. Model eğitimi sırasında verilere bu yapısal kısıtlamaların ve kuralların eklenmesiyle, modelin anlambilimi öğrenme yeteneği özellikle geliştirildi. Sonuç olarak, çalışmanın sonuçları, önerilen modelin konfigürasyonunun iyileştirilmesiyle mümkün olan ve daha önceki kelime tabanlı ve karakter tabanlı araştırmaların sonuçlarını geride bırakan dikkate değer ilerlemeyi vurgulamaktadır. %99,02 gibi dikkat çekici bir doğruluk oranına ulaştık. Spesifik olarak, belirsiz kelimeleri çözmedeki %97,06'lık son derece yüksek doğruluk oranı, başarılı anlamsal öğrenmenin göstergesiydi. Bu başarı, çeşitli dillerde NLP uygulamalarını geliştirme potansiyelini vurguluyor ve aksan restorasyonu alanında önemli bir kilometre taşını temsil ediyor.

Özet (Çeviri)

The amount of digital text available in multiple languages is constantly expanding due to the widespread usage of the Internet and the quick advancement of technology. However many diacritical marks are absent or misused due to variations in keyboard layouts and alphabets, which can make reading difficult. Applications requiring natural language processing to accurately interpret word meanings in spite of these flaws are challenged by this. The present investigation centers on diacritic restoration (DR), an essential component of numerous natural language processing (NLP) applications spanning various languages. Given Turkish's strong syllable sensitivity in meaning, a syllable-based bidirectional transformer structure has been developed in this work. To further enhance the model's performance, the syllable, and word structure restrictions and rules were successively coded on the training set. By introducing these structural restrictions and rules into the data during model training, the model's ability to learn semantics was particularly enhanced. As a result, the study's conclusions emphasize the notable advancement made possible by refining the configuration of the suggested model, surpassing the results of previous word-based and character-based research. We achieved a remarkable 99.02% accuracy rate. Specifically, the extremely high accuracy rate of 97.06% in resolving ambiguous words indicated successful semantic learning. This accomplishment highlights the potential for enhancing NLP applications across a range of languages and represents a significant milestone in the field of diacritic restoration.

Benzer Tezler

Tez No
895368
Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
824948
Görüntü arşivleri için derin sinir ağları kullanılarak hecelere dayalı görüntü alt yazılama modeli
Syllable-based image captioning model based on deep neural networks for image archives
YAĞMUR KAYA
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TÜLİN ERÇELEBİ AYYILDIZ
Tez No
36860
Lem'i Atlı'nın eserlerinde müzik-edebiyat ilişkisi
Başlık çevirisi yok
YASEMİN ŞEHNAZ GÜLDAŞ
Yüksek Lisans
Türkçe
1994
Güzel Sanatlar İstanbul Teknik Üniversitesi
PROF.DR. SELAHATTİN İÇLİ
Tez No
948154
Ölçünlü Türkçede e ünlüsü alçalmasına seslem tabanlı bir yaklaşım
A syllable-based approach to lowering of e in standard Turkish
GÖKTUĞ BÖRTLÜ
Doktora
Türkçe
2025
Dilbilim Ankara Üniversitesi
Dilbilim Ana Bilim Dalı
DOÇ. DR. İPEK PINAR UZUN
Tez No
354499
Design and implementation of a platform independent automatic speech recognition system
Platformdan bağımsız bir otomatik konuşma tanıma sisteminin tasarlanması ve uygulanması
DOĞAN URGUN
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Atılım Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULKADİR ERDEN
YRD. DOÇ. DR. HAKAN TORA

Geri Dön