A novel hybrid language model for finite state-based morphology
Sonlu durum tabanlı morfoloji için yeni bir hibrit dil modeli
- Tez No: 651613
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ERCAN TOPCU
- Tez Türü: Doktora
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 111
Özet
Bu tezde, Türkçe'nin morfolojik analizinde kural tabanlı bir yaklaşım ve yapay sinir ağı (ANN) tabanlı yaklaşımın hibrit kullanımı incelenmiştir. Herhangi bir kural tabanlı XMOR morfolojik analizatör ile yapay sinir ağı tabanlı bir yaklaşımı birleştiren yeni bir hibrit algoritma geliştirilmiştir. Bu geliştirilen model dilden bağımsız ve başka bir dil için de uygulanabilir olmaktadır. Her iki tekniği içeren hibrit modellerin kullanımı, performans iyileştirmeleri açısından değerlendirilmiştir. Türkçe'nin sondan eklemeli bir dil yapısına sahip olmasından dolayı, kelimeye ek koymak gerekmektedir. İyi bir kural tabanlı morfolojik analizatör, sözlükte tanımlanan hemen hemen tüm kelimeleri kapsar, ancak sosyal medya gibi ücretsiz olarak erişilebilen kaynaklardan alınan büyük veriler düzeltilmeden önce sözlüğe kaydedilememektedirler. Bu tür kelimeler genellikle hatalı olmakta ve morfolojik analizden öncesinde düzeltilmelidirler. Önerilen hibrit yaklaşım, iki seviyeli fonolojik kurallara göre yapay bir sinir ağının dinamik üretimi fikri üzerine inşa edilmiştir. Salt morfolojik analizin kapsamını artırmak için dilsel ayrıştırma, yapay sinir ağı tabanlı bir hata düzeltme modeli ve istatistiksel filtreleme kombinasyonu kullanılmaktadır. Bu tezde geliştirilen hibrit yöntem, OCRd text verilerinin morfolojik analiz performansını yüzde 99,90'a sosyal medya verileri için de yüzde 99,82'ye yükseltmektedir. Bu şekildeki hibrit yöntem kural tabanlı ve uzun kısa vadeli bellek tabanlı teknikleri birleştirmektedir. Sonuçta bu da yazarın bilgisi dahilinde, Türkçe'nin morfolojik analizi için yeni bir son teknolojiyi temsil etmektedir.
Özet (Çeviri)
In this dissertation, we explore the combined usage of a rule-based approach and artificial neural network-based approach in Turkish morphological analysis. We design a language-independent novel hybrid algorithm combining the rule-based X-arbitrary morphological analyzer (XMOR) and an arbitrary ANN-based approach. The usage of hybrid models including both techniques is evaluated for performance improvements. Because of the agglutinative nature of the Turkish language, the suffixation of words is essential. A good rule-based morphological analyzer covers almost all words defined in the lexicon, but big data retrieved from freely available resources, such as social media, cannot be used as lexicon entries before correcting the error. Such words are usually erroneous and should be corrected prior to morphological analysis. The proposed hybrid approach is built on the idea of the dynamic generation of an artificial neural network according to two-level phonological rules. A combination of linguistic parsing, a neural network-based error correction model, and statistical filtering is utilized to increase the coverage of pure morphological analysis. The current hybrid method combines rule-based and long short-term memory-based techniques to increase the morphological analysis performance up to 99.90 percentage for OCRd data and 99.82 percentage for social media data, which represents a new state-of-the-art morphological analysis for Turkish to the best of the author's knowledge.
Benzer Tezler
- Performance of laminated glass subjected to blast and impact loading
Patlama ve darbe yüklemesine maruz kalan lamine camın yapısal performansı
MOHELDEEN HEJAZI
Doktora
İngilizce
2024
Makine Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ SARI
- Türkçe için sahte haber tespit modelinin oluşturulması
A fake news detection model for Turkish language
UĞUR MERTOĞLU
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURKAY GENÇ
PROF. DR. HAYRİ SEVER
- Optimizing large language models: A comparative study of retrieval-augmented generation, fine-tuning, and hybrid approaches
Büyük dil modellerinin optimize edilmesi: RAG, fine-tuning ve bunlarin birleşiminin (hibrit) modellerin karşilaştirilmasi
GÜLSÜM BUDAKOĞLU
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTED ÜniversitesiUygulamalı Veri Bilimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAKAN EMEKCİ
- A robust and hybrid machine learning model for university satisfaction estimation on Turkish Twitter feeds
Türkçe Twitter yayınlarında üniversite memnuniyeti tahmini için sağlam ve hibrit bir makine öğrenme modeli
ABDULFATTAH ESMAIL HASAN ABDULLAH BA ALAWI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FERHAT BOZKURT
- Hybrid deep multi-criteria recommender system model
Hibrit derin çok kriterli öneri sistemi modeli
ABDULRAHMAN ALNAHHAS
Yüksek Lisans
İngilizce
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF İLKER TOPCU