Geri Dön

A SEQ2SEQ transformer model for Turkish spelling correction

Türkçe yazım hatası düzeltme için SEQ2SEQ transformer modeli

  1. Tez No: 761161
  2. Yazar: ŞAHİN BATMAZ
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Doğal dil işleme (NLP), yapay zeka içerisindeki ilgi çekici bir alandır. Doğal dil aracılığıyla insanın makinelerle etkileşimini sağlar. NLP model mimarilerinde iki ana kavram vardır; girdi vektörleştirme ve girdinin bağlamsal temsil edilmesi. Girdi vektörleştirme işleminde üç tokenizasyon yaklaşımı bulunmaktadır: karakter düzeyi, kelime düzeyi ve kelime parçaları düzeyi. Kelime düzeyinde tokenizasyon yönteminde, sözcük dağarcığının geniş olması problemi yaşanmaktadır. Ayrıca Türkçe gibi eklemeli dillerde, aynı kökten türeyen sözcüklerin birbirinden tamamen farklı sözcükler olarak ele alınmasına neden olmakta ve modelin bu sözcükler arasındaki ilişkileri ve morfolojik eklerin anlamlarını öğrenmesini zorlaşmaktadır. Ayrıca, tüm NLP modellerin ortak bir sorun vardır: veride bulunan yazım hataları. Yazım hataları ile girdi kelimeleri tamamen farklı hale gelir ve model bunları anlayamaz. Bu tezde, yazım hatalarının düzeltilmesi için karakter düzeyinde bir seq2seq dönüştürücü modeli geliştirilmiştir. Model için doğru yazılmış Türkçe cümleler toplanmış ve toplanan cümlelere farklı türdeki yazım hataları sistematik olarak eklenerek Türkçe yazım düzeltmesi için bir veri seti oluşturulmuştur. Seq2seq modelleri tekrarlanan kod çözme yönteminden dolayı yüksek bir tahmin süresine sahiptir. Bu sorunu çözmek için, transformer modelinin çıktıları tek seferde tahmin ettiği, yeni bir model mimarisi önerilmiştir, tek adımlı seq2seq transformer modeli. Önerilen modeller, tam eşleşme kriterleri ile test edilmiştir. Standart seq2seq modeli ve tek adımlı seq2seq modeli sırasıyla \%68.64 ve \%42.69 doğruluk oranı elde etti. Son olarak, standart seq2seq modeli 160 giriş karakteri için 8.47 saniyede tahminleme yaparken, tek adımlı seq2seq modeli 160 giriş karakteri için CPU'da 73 milisaniyede ve GPU'da 28 milisaniyede tahminleme yapar.

Özet (Çeviri)

Natural language processing (NLP) is a fascinating area of artificial intelligence. It allows humans to interact with machines through natural language. There are two main concepts in NLP model architectures, namely input vectorization and contextual representation. The input vectorization process starts with tokenization, where there are three approaches: character-level, word-level, and subword-level. Word-level tok- enization results in a large vocabulary, and in agglutinative languages such as Turkish, words derived from the same stem are treated as different words. This makes it difficult for NLP models to understand their relationships and the meaning of the morphological affixes. Furthermore, all NLP models suffer from a common problem: spelling errors in the data. In case of spelling errors, the misspelled tokens become completely different and the models cannot understand them. In this thesis, a character-level seq2seq trans- former model is developed for spelling error correction. To train the model, a dataset for Turkish spelling correction is created by collecting correctly spelled Turkish sen- tences and systematically adding spelling errors to them. Seq2seq models suffer from multiple decoding iterations and have high prediction time. To address this problem, a novel model architecture, one-step seq2seq transformer model, is proposed in which the transformer model predicts the outputs in one iteration. The proposed models are tested with the exact match criteria. The standard seq2seq model and the one-step seq2seq model achieved 68.64% and 42.69% accuracy, respectively. Finally, the stan- dard seq2seq model makes predictions for 160 input characters in 8.47 seconds, while the one-step seq2seq model makes predictions for the same number of characters in 73 milliseconds on CPU and 28 milliseconds on GPU.

Benzer Tezler

  1. Transformer-based spelling error detection and correction for Turkish language

    Türkçe dili için dönüştürücü-tabanlı heceleme hatası tespiti ve düzeltme

    BURAK AYTAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMAL OKAN ŞAKAR

  2. A faithfulness-aware pretraining strategy for abstractive text summarization

    Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi

    MOHANAD ALREFAAI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  3. Eğitim alanında derin öğrenme tekniklerini kullanan bir soru cevaplama sistemi

    A question answering system using deep learning techniques in the education domain

    ZEYNEP ŞANLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

  4. Türkçe dilinde eşanlatım derlemi oluşturma ve doğal dil işleme modellerinin karşılaştırılması

    Turkish paraphrase corpus generation and comparison of natural language processing models

    HİLAL TEKGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SEVİNÇ İLHAN OMURCA

  5. A comparative study of deep learning approaches for autonomous vehicle control

    Otonom araç kontrolü için ̇derin öğrenme yaklaşımlarının karşılaştırılması

    EMRE ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜLAY ÖKE GÜNEL