A SEQ2SEQ transformer model for Turkish spelling correction

Türkçe yazım hatası düzeltme için SEQ2SEQ transformer modeli

PDF İndir

Tez No: 761161
Yazar: ŞAHİN BATMAZ
Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

Doğal dil işleme (NLP), yapay zeka içerisindeki ilgi çekici bir alandır. Doğal dil aracılığıyla insanın makinelerle etkileşimini sağlar. NLP model mimarilerinde iki ana kavram vardır; girdi vektörleştirme ve girdinin bağlamsal temsil edilmesi. Girdi vektörleştirme işleminde üç tokenizasyon yaklaşımı bulunmaktadır: karakter düzeyi, kelime düzeyi ve kelime parçaları düzeyi. Kelime düzeyinde tokenizasyon yönteminde, sözcük dağarcığının geniş olması problemi yaşanmaktadır. Ayrıca Türkçe gibi eklemeli dillerde, aynı kökten türeyen sözcüklerin birbirinden tamamen farklı sözcükler olarak ele alınmasına neden olmakta ve modelin bu sözcükler arasındaki ilişkileri ve morfolojik eklerin anlamlarını öğrenmesini zorlaşmaktadır. Ayrıca, tüm NLP modellerin ortak bir sorun vardır: veride bulunan yazım hataları. Yazım hataları ile girdi kelimeleri tamamen farklı hale gelir ve model bunları anlayamaz. Bu tezde, yazım hatalarının düzeltilmesi için karakter düzeyinde bir seq2seq dönüştürücü modeli geliştirilmiştir. Model için doğru yazılmış Türkçe cümleler toplanmış ve toplanan cümlelere farklı türdeki yazım hataları sistematik olarak eklenerek Türkçe yazım düzeltmesi için bir veri seti oluşturulmuştur. Seq2seq modelleri tekrarlanan kod çözme yönteminden dolayı yüksek bir tahmin süresine sahiptir. Bu sorunu çözmek için, transformer modelinin çıktıları tek seferde tahmin ettiği, yeni bir model mimarisi önerilmiştir, tek adımlı seq2seq transformer modeli. Önerilen modeller, tam eşleşme kriterleri ile test edilmiştir. Standart seq2seq modeli ve tek adımlı seq2seq modeli sırasıyla \%68.64 ve \%42.69 doğruluk oranı elde etti. Son olarak, standart seq2seq modeli 160 giriş karakteri için 8.47 saniyede tahminleme yaparken, tek adımlı seq2seq modeli 160 giriş karakteri için CPU'da 73 milisaniyede ve GPU'da 28 milisaniyede tahminleme yapar.

Özet (Çeviri)

Natural language processing (NLP) is a fascinating area of artificial intelligence. It allows humans to interact with machines through natural language. There are two main concepts in NLP model architectures, namely input vectorization and contextual representation. The input vectorization process starts with tokenization, where there are three approaches: character-level, word-level, and subword-level. Word-level tok- enization results in a large vocabulary, and in agglutinative languages such as Turkish, words derived from the same stem are treated as different words. This makes it difficult for NLP models to understand their relationships and the meaning of the morphological affixes. Furthermore, all NLP models suffer from a common problem: spelling errors in the data. In case of spelling errors, the misspelled tokens become completely different and the models cannot understand them. In this thesis, a character-level seq2seq trans- former model is developed for spelling error correction. To train the model, a dataset for Turkish spelling correction is created by collecting correctly spelled Turkish sen- tences and systematically adding spelling errors to them. Seq2seq models suffer from multiple decoding iterations and have high prediction time. To address this problem, a novel model architecture, one-step seq2seq transformer model, is proposed in which the transformer model predicts the outputs in one iteration. The proposed models are tested with the exact match criteria. The standard seq2seq model and the one-step seq2seq model achieved 68.64% and 42.69% accuracy, respectively. Finally, the stan- dard seq2seq model makes predictions for 160 input characters in 8.47 seconds, while the one-step seq2seq model makes predictions for the same number of characters in 73 milliseconds on CPU and 28 milliseconds on GPU.

Benzer Tezler

Tez No
877258
Transformer-based spelling error detection and correction for Turkish language
Türkçe dili için dönüştürücü-tabanlı heceleme hatası tespiti ve düzeltme
BURAK AYTAN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. CEMAL OKAN ŞAKAR
Tez No
844231
A faithfulness-aware pretraining strategy for abstractive text summarization
Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi
MOHANAD ALREFAAI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
Tez No
899334
Eğitim alanında derin öğrenme tekniklerini kullanan bir soru cevaplama sistemi
A question answering system using deep learning techniques in the education domain
ZEYNEP ŞANLI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ
Tez No
895432
Türkçe dilinde eşanlatım derlemi oluşturma ve doğal dil işleme modellerinin karşılaştırılması
Turkish paraphrase corpus generation and comparison of natural language processing models
HİLAL TEKGÖZ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEVİNÇ İLHAN OMURCA
Tez No
864101
A comparative study of deep learning approaches for autonomous vehicle control
Otonom araç kontrolü için ̇derin öğrenme yaklaşımlarının karşılaştırılması
EMRE ŞAHİN
Yüksek Lisans
İngilizce
2024
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLAY ÖKE GÜNEL

Geri Dön