Transformer-based spelling error detection and correction for Turkish language
Türkçe dili için dönüştürücü-tabanlı heceleme hatası tespiti ve düzeltme
- Tez No: 877258
- Danışmanlar: DOÇ. DR. CEMAL OKAN ŞAKAR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 86
Özet
Bu çalışma, Türkçe'nin karmaşık yapısından kaynaklanan özgün zorluklara yönelik doğal dil işleme (NLP) teknolojilerinin geliştirilmesi ve uygulanması üzerine yoğunlaşmaktadır. İlk olarak, Türkçe'ye özel RoBERTa dil modeli geliştirilip diğer modellerle kıyaslandı ve Türkçe için özel NLP görevlerindeki etkinliği ortaya kondu. Sonrasında, Türkçe yazım hatalarını belirleyebilen bir Bi-LSTM modeli geliştirildi; bu model, yanlış pozitifleri azaltarak temiz bir veri seti oluşturulmasını sağladı. Bu temiz veri seti kullanılarak, dil işleme kabiliyetlerini artıran gelişmiş bir 8 katmanlı RoBERTa modeli geliştirildi. Araştırmanın son noktası, dil akışını bozmadan Türkçe yazım hatalarını düzelten bir RoBERTa'dan RoBERTa'ya seq2seq modelinin geliştirilmesi oldu. Bu çalışma, Türkçe'nin dijital ortamlarda daha etkili bir şekilde temsil edilmesini ve işlenmesini büyük ölçüde geliştirmektedir.
Özet (Çeviri)
This work focuses on the development and application of natural language processing (NLP) technologies to address the unique challenges arising from the complex structure of the Turkish language. Initially, a specialized RoBERTa language model was developed for Turkish and compared with other models, demonstrating its effectiveness in NLP tasks specific to Turkish. Subsequently, a Bi-LSTM model capable of detecting Turkish spelling errors was developed; this model significantly reduced false positives, enabling the creation of a clean dataset. Using this dataset, an advanced 8-layer RoBERTa model was developed to enhance language processing capabilities. The pinnacle of the research was the development of a RoBERTa-to- RoBERTa seq2seq model that corrects Turkish spelling errors without disrupting the natural flow of the language. This work significantly improves the representation and processing of Turkish in digital environments.
Benzer Tezler
- Türkçe yazım denetleyen editör
Turkish spelling checker editor
K.MESUT YARIMBIYIKLI
Yüksek Lisans
Türkçe
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ. DR. TAKUHİ NADİA ERDOĞAN
- Sosyal medyada kullanıcı gizliliğini korumak için taraf tespiti görevinde dönüştürücü dil modellerini yanıltma yöntemleri
Methods of deceiving transformer language models in stance detection to protect user privacy in social media
DİLARA DOĞAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MÜCAHİD KUTLU
- Fault detection of a planetary gear system based on non-linear dynamic modeling and vibration signals via non-stationary time series models
Doğrusal olmayan dinamik modelleme ve titreşim sinyallerine dayalı bir planet dişli sisteminin durgun olmayan zaman serisi modelleri ile hata tespiti
BEHRANG HOSSEINIAGHDAM
Doktora
İngilizce
2023
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER CİĞEROĞLU
- Bireyselleştirilmiş portfolyo uygulamasının bitişik eğik yazı becerilerine etkisi
The effect of individualized portfolio implementation on cursive handwriting skills
ECMEL YAŞAR
Yüksek Lisans
Türkçe
2016
Eğitim ve ÖğretimAnadolu Üniversitesiİlköğretim Ana Bilim Dalı
PROF. DR. MEHMET GÜLTEKİN
- Kendini iyileştirebilen hidrojel esaslı kontakt lens malzemesi geliştirilmesi
Development of self-healing hydrogel based contact lens material
BÜŞRA KAŞAĞICI
Yüksek Lisans
Türkçe
2023
BiyomühendislikSakarya ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. MAHMUT ÖZACAR