Geri Dön

Transformer-based spelling error detection and correction for Turkish language

Türkçe dili için dönüştürücü-tabanlı heceleme hatası tespiti ve düzeltme

  1. Tez No: 877258
  2. Yazar: BURAK AYTAN
  3. Danışmanlar: DOÇ. DR. CEMAL OKAN ŞAKAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Bu çalışma, Türkçe'nin karmaşık yapısından kaynaklanan özgün zorluklara yönelik doğal dil işleme (NLP) teknolojilerinin geliştirilmesi ve uygulanması üzerine yoğunlaşmaktadır. İlk olarak, Türkçe'ye özel RoBERTa dil modeli geliştirilip diğer modellerle kıyaslandı ve Türkçe için özel NLP görevlerindeki etkinliği ortaya kondu. Sonrasında, Türkçe yazım hatalarını belirleyebilen bir Bi-LSTM modeli geliştirildi; bu model, yanlış pozitifleri azaltarak temiz bir veri seti oluşturulmasını sağladı. Bu temiz veri seti kullanılarak, dil işleme kabiliyetlerini artıran gelişmiş bir 8 katmanlı RoBERTa modeli geliştirildi. Araştırmanın son noktası, dil akışını bozmadan Türkçe yazım hatalarını düzelten bir RoBERTa'dan RoBERTa'ya seq2seq modelinin geliştirilmesi oldu. Bu çalışma, Türkçe'nin dijital ortamlarda daha etkili bir şekilde temsil edilmesini ve işlenmesini büyük ölçüde geliştirmektedir.

Özet (Çeviri)

This work focuses on the development and application of natural language processing (NLP) technologies to address the unique challenges arising from the complex structure of the Turkish language. Initially, a specialized RoBERTa language model was developed for Turkish and compared with other models, demonstrating its effectiveness in NLP tasks specific to Turkish. Subsequently, a Bi-LSTM model capable of detecting Turkish spelling errors was developed; this model significantly reduced false positives, enabling the creation of a clean dataset. Using this dataset, an advanced 8-layer RoBERTa model was developed to enhance language processing capabilities. The pinnacle of the research was the development of a RoBERTa-to- RoBERTa seq2seq model that corrects Turkish spelling errors without disrupting the natural flow of the language. This work significantly improves the representation and processing of Turkish in digital environments.

Benzer Tezler

  1. Türkçe yazım denetleyen editör

    Turkish spelling checker editor

    K.MESUT YARIMBIYIKLI

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    DOÇ. DR. TAKUHİ NADİA ERDOĞAN

  2. Sosyal medyada kullanıcı gizliliğini korumak için taraf tespiti görevinde dönüştürücü dil modellerini yanıltma yöntemleri

    Methods of deceiving transformer language models in stance detection to protect user privacy in social media

    DİLARA DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MÜCAHİD KUTLU

  3. Fault detection of a planetary gear system based on non-linear dynamic modeling and vibration signals via non-stationary time series models

    Doğrusal olmayan dinamik modelleme ve titreşim sinyallerine dayalı bir planet dişli sisteminin durgun olmayan zaman serisi modelleri ile hata tespiti

    BEHRANG HOSSEINIAGHDAM

    Doktora

    İngilizce

    İngilizce

    2023

    Makine MühendisliğiOrta Doğu Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER CİĞEROĞLU

  4. Bireyselleştirilmiş portfolyo uygulamasının bitişik eğik yazı becerilerine etkisi

    The effect of individualized portfolio implementation on cursive handwriting skills

    ECMEL YAŞAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Eğitim ve ÖğretimAnadolu Üniversitesi

    İlköğretim Ana Bilim Dalı

    PROF. DR. MEHMET GÜLTEKİN

  5. Kendini iyileştirebilen hidrojel esaslı kontakt lens malzemesi geliştirilmesi

    Development of self-healing hydrogel based contact lens material

    BÜŞRA KAŞAĞICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyomühendislikSakarya Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. MAHMUT ÖZACAR