Geri Dön

Doğal dil işlemede çizgesel ve olasılık tabanlı bir otomatik öğrenme uygulaması

A machine learning application in natural language processing based on probabilistic graph models

  1. Tez No: 179824
  2. Yazar: HAYRİ VOLKAN AGUN
  3. Danışmanlar: YRD. DOÇ. DR. ERDEM UÇAR, YRD. DOÇ. DR. YILMAZ KILIÇASLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Saklı Markov Modelleri, Türkçe için Sözdizimsel Etiketleme, Düzleme Teknikleri. Kümeleme, Çizge Madenciliği, Hidden Markov Models, Syntactic Tagging for Turkish, Language Smoothing, Clustering, Graph Mining
  7. Yıl: 2008
  8. Dil: Türkçe
  9. Üniversite: Trakya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 66

Özet

Bu tez çalışmasında Türkçe'deki sözdizimsel özelliklerin öğrenilmesi için çizge tabanlı bir otomatik öğrenme modeli sunulmaktadır. Çalışmada bir derlem kullanılarak tasarlanan çizge modeli eğitilmiş ve girilen bir cümle için doğru sözdizimsel etiketler bu model aracılığıyla çıkarılmıştır. Modelin tasarımı sırasında, olasılık tabanlı çizge modeli olan Saklı Markov Modelleri ve çizge teorisinden yararlanılmıştır. Sunulan çalışmada diğer olasılık tabanlı etiketleme algoritmalarından ve istatistiksel doğal dil işleme çalışmalarından farklı olarak Türkçe'nin biçimbilimsel özelliklerinin de kullanılabildiği olasılık tabanlı bir çizge modeli geliştirilmiştir. İlk olarak, ODTÜ-Sabancı Ağaç derleminden model için belirlenen bağlantılara göre bir çizge üretilmiş, daha sonra bu çizge üzerinden sözdizimsel öğelerin bulunabileceği Saklı Markov Modeli oluşturulmuş ve bu modelin üzerinde Viterbi algoritması uygulanarak bir cümle için sözdizimsel öğelerin bulunması sağlanmıştır. Modelin testi için N-Kere Çapraz Doğrulama algoritması kullanılarak başarı ölçülmüştür. Karmaşık derlem çizge modelinden Saklı Markov Modelinin bulunması için çizge teorisinde kullanılan Subdue çizge eşleme algoritmasından yararlanılmıştır. Saklı Markov Modeli ve çizge arama algoritmalarını birlikte kullanılarak daha karmaşık ilişkiye sahip öğeleri (sözdizimsel ve biçimbilimsel ilişkiler gibi) öğrenme için gereken model yapısı oluşturulmuştur. Karmaşık ilişkilerin, sonuç çıkarma ve otomatik öğrenme metotlarının bir arada kullanarak öğrenilmesi, ileride kavram uzayının öğrenilmesi doğrultusunda yapılabilecek çalışmalar için bir alt yapı oluşturmaktadır.Tezin organizasyonu şu şeklidedir. İlk bölüm Türkçe'nin karakteristiği ve istatistiksel doğal dil işleme konularını, ikinci bölüm çalışmanın konusu olan çizge algoritmalarını, üçüncü bölüm uygulamada kullanılan Saklı Markov Modellerini ve dördüncü bölüm uygulamayı ve sonuçlarını, beşinci bölüm ise yorumları içermektedir.

Özet (Çeviri)

In this thesis, a model based on combinatorial and probabilistic graphical approaches is proposed for learning of syntactic tor m s for Turkish sentences. A Treebank is used to train a designed probabilistic graphical model and syntactic tags are inferred for a Turkish sentence from this model. Hidden Markov Models and Graph Theory constitute the framework for this model and application. In this proposed model, in a way different from other probabilistic tagging methods and statistical natural language processing applications, a probabilistic graphical model has been developed for syntactic tagging based on morphological features of Turkish language. In the application, firstly a graph model has been constructed from METU-Sabanci Treebank based on certain relations; secondly, a Hidden Markov Model which was extracted from the graph model has been created and trained by the Viterbi algorithm in order to find syntactic features of a given sentence. In order to test the model the N-Fold Cross Validation algorithm is used. When extracting the Hidden Markov Model from the complex Treebank graph model the Subdue graph matching algorithm is used. In conclusion, it is observed that graph models and graph mining algorithms can be a new model in learning of complex relations such as syntactic and morphological relations. Since this study offers an exemplary case where discrete mathematical models and machine learning algorithms are used together, it theoretically supports conceptual space learning studies.The organization of the thesis is as follows: First chapter presents the characteristics of Turkish and gives an account of statistical natural language processing applications. The second chapter includes the graph algorithms which are used in this study. The third chapter offers information about Hidden Markov Models and language smoothing techniques. The forth chapter reports on the application and its results. The fifth chapter includes a conclusion and an evaluation of the results.

Benzer Tezler

  1. Measuring and improving interpretability of word embeddings using lexical resources

    Sözcüksel kaynaklar kullanarak kelime temsillerinin yorumlanabilirliklerinin ölçülmesi ve iyileştirilmesi

    LÜTFİ KEREM ŞENEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA ÇUKUR

    DR. ÖĞR. ÜYESİ AYKUT KOÇ

  2. Machine learning methods in natural language processing

    Doğal dil işlemede makine öğrenmesi yöntemleri

    BETÜL GÜVENÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    YRD. DOÇ. DR. FATİH ECEVİT

  3. Cross model alignment in natural language processing

    Doğal dil işlemede modeller arası hizalama

    KADİR GÜNEL

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

  4. Development of data augmentation methods to improve performance of supervised machine learning models in natural language processing

    Doğal dil işlemede denetimli makine öğrenimi modellerinin performansını arttırmak için veri zenginleştirme yöntemlerinin geliştirilmesi

    ABDUL MAJEED ISSIFU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT CAN GANİZ

  5. A systematic evaluation of semantic representations in natural language processing

    Doğal dil işlemede semantik gösterimlerin sistematik değerlendirilmesi

    ÖZGE SEVGİLİ ERGÜVEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SELMA TEKİR