Diacritic restoration of Turkish sentences
Türkçe cümlelerde fonetik işaretlerin düzeltilmesi
- Tez No: 729919
- Danışmanlar: DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK, PROF. TANKUT ACARMAN, DR. ÖĞR. ÜYESİ CEMAL OKAN ŞAKAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 40
Özet
Bu proje, Türkçe 'deki fonetik harflerin düzeltilmesine odaklanmaktadır. Mobil ve masaüstü cihazlarda sanal klavye kullanımının artmasıyla birlikte Türkçe harflerin olmaması veya yazım hatası nedeniyle Türkçe kelime hata oranı önemli ölçüde artmıştır. Metin bazlı çalışan birçok sisteme hizmet eden verilerdeki bu sorunu kaldırmak ve temiz bir veri tabanı inşa edebilmek için fonetik harf düzeltmeleri büyük önem arz etmektedir. Çünkü Türkçe de dâhil olmak üzere Rumence, Arapça ve Vietnamca gibi dillerde bu harflerin oldukça yoğun bir kullanımı bulunmakta ve bu harflerin varlığı anlam açısından da büyük farklılık ortaya koymaktadır. Türkçe 'de bu konuya ait benzer çalışmalar mevcut lâkin bu çalışmanın ayrıştığı en önemli noktalardan biri fonetik harfler kümesine“â”ve“î”harflerinin de eklenmesidir. Bu çalışmada, bahsedilen sorunun üstesinden gelmek için öncelikle Türkçe 'ye dair hem çok çeşitli kelimeler barındıran hem de yazım kurallarına uygun bir şekilde yazılmış yaklaşık 5000 adet kitap ile ham bir veri kümesi hazırlandı . Bu ham veri kümesi, birkaç temizleme adımından geçirilerek incelemeye ve oluşturulacak sistemi eğitmeye hazır hale getirildi. İlk olarak bu veri kümeleri ile N-Gram modelleri oluşturuldu. Oluşturulan modeller üzerinde Zipf ve Mandelbrot dağılımları gözlemdi ve ne kadar iyi bir dil modeli tasarlandığını değerlendirmek için“perplexity (karışıklık)”değerleri hesaplandı. Burada elde edilen yüksek uyumluluk değerleri sonrası bu veriler bir sonraki olan öğrenme ve değerlendirme adımlarında kullanıldı. Projenin son adımı olan, modelin eğitimi ve değerlendirmesinde,“seq2seq”temelli öğrenme modeli kullanılarak, harf bazlı sistem eğitimi yapıldı. Veri kümesinden ayrıştırılan kontrol parçaları üzerindeki kelimelerde fonetik ve fonetik harflerin Latin karşılıkları rastgele olarak değiştirilerek yeni bir yapay girdi kümesi oluşturuldu. Eğitilen model, oluşturulan bu kontrol setiyle değerlendirildi ve %90 üzerinden başarımlar elde edildi.
Özet (Çeviri)
This project focuses on correcting phonetic letters in Turkish. With the increase in the use of virtual keyboards on mobile and desktop devices, the Turkish word error rate has increased significantly due to the absence of Turkish letters or typos. Phonetic letter corrections are of great importance in order to remove this problem in the data that serves many text-based systems and to build a clean database. Because these letters are used extensively in languages such as Romanian, Arabic and Vietnamese, including Turkish, and the presence of these letters also reveals a great difference in terms of meaning. There are similar studies on this subject in Turkish, but one of the most important points of this study is the addition of the letters“â”and“î”to the set of diacritic letters. In this study, in order to overcome the mentioned problem, first of all, a raw dataset was prepared with approximately 5000 books on Turkish, both containing a wide variety of words and written in accordance with the spelling rules. This raw dataset was made ready for review and training the system to be created by going through several cleaning steps. First, N-Gram models were created with these datasets. Zipf and Mandelbrot distributions were observed on the generated models, and perplexity values were calculated to evaluate how well a language model was designed. After the high compatibility values obtained here, these data were used in the next learning and evaluation steps. In the training and evaluation of the model, which is the last step of the project, letter-based system training was carried out by using the“seq2seq”based learning model. A new artificial input set was created by randomly changing the Latin equivalents of the diacritic letters and phonetic letters in the words on the control sets separated from the main data set. The trained model was evaluated with this control set and success rates over 90% were obtained.
Benzer Tezler
- Syllable-based approach with deep learning methods on Turkish diacritic restoration
Türkçe diakritik restorasyonu konusunda derin öğrenme yöntemleriyle hece tabanlı yaklaşım
ÖZNUR ACAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF SİNAN AKGÜL
- Yazım kurallarına uygun yazılmamış türkçe metinleri makine çevirisi yöntemleriyle normalleştirme
Normalizing non-canonical turkish texts using machine translation approaches
TALHA ÇOLAKOĞLU
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Trafik yorumlarının sınıflandırılmasında normalizasyonun etkisi
The effect of normalization on the classification of traffic comments
ZEYNEP ÖZER
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OĞUZ FINDIK
- Arguvan-Arapkir (Malatya) arasında Malatya fay hattı boyunca gözlenen neojen volkaniklerinin petrolojisi
The Petrological of neogen volcanics Malatya fault ahead between Arguvan and Arapkir (Malatya)
TANER EKİCİ
Doktora
Türkçe
2003
Jeoloji MühendisliğiÇukurova ÜniversitesiJeoloji Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN PARLAK
- Understanding the problems ofthe support of an endangered language in typography: Proposal of a typeface that supports the laz language
Başlık çevirisi yok
ZEYNEP ÖZÜM ASILKAZANCI
Yüksek Lisans
İngilizce
2018
DilbilimESAD - Escola Superior de Artes e DesignDR. JOANA CORREİA
DR. İRFAN ÇAĞATAY ALEKSİVA