Geri Dön

A novel hybrid language model for finite state-based morphology

Sonlu durum tabanlı morfoloji için yeni bir hibrit dil modeli

  1. Tez No: 651613
  2. Yazar: AYLA KAYABAŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ERCAN TOPCU
  4. Tez Türü: Doktora
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

Bu tezde, Türkçe'nin morfolojik analizinde kural tabanlı bir yaklaşım ve yapay sinir ağı (ANN) tabanlı yaklaşımın hibrit kullanımı incelenmiştir. Herhangi bir kural tabanlı XMOR morfolojik analizatör ile yapay sinir ağı tabanlı bir yaklaşımı birleştiren yeni bir hibrit algoritma geliştirilmiştir. Bu geliştirilen model dilden bağımsız ve başka bir dil için de uygulanabilir olmaktadır. Her iki tekniği içeren hibrit modellerin kullanımı, performans iyileştirmeleri açısından değerlendirilmiştir. Türkçe'nin sondan eklemeli bir dil yapısına sahip olmasından dolayı, kelimeye ek koymak gerekmektedir. İyi bir kural tabanlı morfolojik analizatör, sözlükte tanımlanan hemen hemen tüm kelimeleri kapsar, ancak sosyal medya gibi ücretsiz olarak erişilebilen kaynaklardan alınan büyük veriler düzeltilmeden önce sözlüğe kaydedilememektedirler. Bu tür kelimeler genellikle hatalı olmakta ve morfolojik analizden öncesinde düzeltilmelidirler. Önerilen hibrit yaklaşım, iki seviyeli fonolojik kurallara göre yapay bir sinir ağının dinamik üretimi fikri üzerine inşa edilmiştir. Salt morfolojik analizin kapsamını artırmak için dilsel ayrıştırma, yapay sinir ağı tabanlı bir hata düzeltme modeli ve istatistiksel filtreleme kombinasyonu kullanılmaktadır. Bu tezde geliştirilen hibrit yöntem, OCRd text verilerinin morfolojik analiz performansını yüzde 99,90'a sosyal medya verileri için de yüzde 99,82'ye yükseltmektedir. Bu şekildeki hibrit yöntem kural tabanlı ve uzun kısa vadeli bellek tabanlı teknikleri birleştirmektedir. Sonuçta bu da yazarın bilgisi dahilinde, Türkçe'nin morfolojik analizi için yeni bir son teknolojiyi temsil etmektedir.

Özet (Çeviri)

In this dissertation, we explore the combined usage of a rule-based approach and artificial neural network-based approach in Turkish morphological analysis. We design a language-independent novel hybrid algorithm combining the rule-based X-arbitrary morphological analyzer (XMOR) and an arbitrary ANN-based approach. The usage of hybrid models including both techniques is evaluated for performance improvements. Because of the agglutinative nature of the Turkish language, the suffixation of words is essential. A good rule-based morphological analyzer covers almost all words defined in the lexicon, but big data retrieved from freely available resources, such as social media, cannot be used as lexicon entries before correcting the error. Such words are usually erroneous and should be corrected prior to morphological analysis. The proposed hybrid approach is built on the idea of the dynamic generation of an artificial neural network according to two-level phonological rules. A combination of linguistic parsing, a neural network-based error correction model, and statistical filtering is utilized to increase the coverage of pure morphological analysis. The current hybrid method combines rule-based and long short-term memory-based techniques to increase the morphological analysis performance up to 99.90 percentage for OCRd data and 99.82 percentage for social media data, which represents a new state-of-the-art morphological analysis for Turkish to the best of the author's knowledge.

Benzer Tezler

  1. Performance of laminated glass subjected to blast and impact loading

    Patlama ve darbe yüklemesine maruz kalan lamine camın yapısal performansı

    MOHELDEEN HEJAZI

    Doktora

    İngilizce

    İngilizce

    2024

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ SARI

  2. Türkçe için sahte haber tespit modelinin oluşturulması

    A fake news detection model for Turkish language

    UĞUR MERTOĞLU

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURKAY GENÇ

    PROF. DR. HAYRİ SEVER

  3. Optimizing large language models: A comparative study of retrieval-augmented generation, fine-tuning, and hybrid approaches

    Büyük dil modellerinin optimize edilmesi: RAG, fine-tuning ve bunlarin birleşiminin (hibrit) modellerin karşilaştirilmasi

    GÜLSÜM BUDAKOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTED Üniversitesi

    Uygulamalı Veri Bilimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAKAN EMEKCİ

  4. A robust and hybrid machine learning model for university satisfaction estimation on Turkish Twitter feeds

    Türkçe Twitter yayınlarında üniversite memnuniyeti tahmini için sağlam ve hibrit bir makine öğrenme modeli

    ABDULFATTAH ESMAIL HASAN ABDULLAH BA ALAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FERHAT BOZKURT

  5. Hybrid deep multi-criteria recommender system model

    Hibrit derin çok kriterli öneri sistemi modeli

    ABDULRAHMAN ALNAHHAS

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. YUSUF İLKER TOPCU