Geri Dön

Türkçe kelimelerin markov zinciri kullanımı ile biçim birimi çözümlemesinin istatistiksel olarak geliştirilmesi

The istatistical improvement of the Markov chain usage of Turkish words and analysis of morphology

  1. Tez No: 245019
  2. Yazar: EBRU YAKAR
  3. Danışmanlar: YRD. DOÇ. DR. B. TANER DİNÇER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Dilbilim, İstatistik, Linguistics, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: Türkçe
  9. Üniversite: Muğla Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Doğal Dil İşleme sahasındaki çalışmalar, en genel anlamda dilin karakteristik bilgilerinin kısıtlı örneklerden elde edilmesiyle, matematik/olasılık kurallar halinde bilgisayar ortamına aktarılmasını ve aktarılan bilgilerin genellenerek problemlere çözümler üretilmesini sağlama amacını güder. Doğal dillerin işlenmesini istatistik/olasılık esasında modelleyen, anlam ile simgesel gösterimler arasındaki bağıntıyı tanımlamayı amaçlayan, dilbilimin bir alt dalı da hesaplamalı dilbilimdir. Hesaplamalı dil biliminde, herhangi bir yazılı metnin dil bilimsel çözümlemesi, ?Biçim, Sözlük, Söz Dizimi, Anlam, Kullanım ve Söylem? olmak üzere 6 alt süreçte gerçekleştirilir. Her alt sürecin çıktısı bir sonraki alt sürecin girdisidir. İstisna olarak biçim çözümlemesinin girdisi ham metindir ve söylem çözümlemesinin çıktısı bir başka alt süreçte kullanılmamaktadır. Bu çalışmanın kapsamı sadece ?Biçim?den oluşmaktadır. Türkçe üzerine yapılan çalışmada da belirtildiği gibi biçim birimsel bir analiz olmadan gövdeleme ve kökleme yapmanın hatalara sebep olacağı bir gerçektir.Bu çalışma, Gizli Markov Modelleri ile Türkçe kelimelerin gövdelenme ve köklenmesine ilişkin ilk örneği olarak gösterilebilir. GMM'ler kullanılarak gerçek anlamda etkili bir başarıma ulaşabilmek için öncelikle doğru kodlanmış zengin bir derleme ihtiyaç vardır. Türkçe için bugüne değin hazırlanmış derlemler incelendikten sonra, elle ve doğru kodlanmış bir derleme ihtiyaç olduğu kanısına varılmıştır. Bu bağlamda MuDer derlemi hazırlanmıştır. Gizli Markov Modellerini temel alan HmmStemmer gövdeleme ve HmmLemmatiser kökleme algoritması olmak üzere iki farklı algoritma önerilmiştir. HmmStemmer, kodlanmış MuDer derlemi üzerinden, Turkish Stemmer gövdeleme algoritması ile karşılaştırılmış ve gerçek gövdelere ulaşmadaki başarımının daha yüksek olduğu sonucuna ulaşılmıştır. HmmLemmatiser kökleme algoritması da sahadaki ilk çalışmadır.

Özet (Çeviri)

The studies in the area of Natural Language Processing, in the most general sense, aim to transfer the characteristic knowledge of the language acquired from limited examples to a computer environment as mathematics/possibility rules and to find solutions to the problems by generalizing these transferred knowledge. One sub-branch of the linguistics is computational linguistics which models the processing of natural language on there basis of statistics/probability and aims to define the relation between the meaning and symbolic representations. In computational linguistics, the linguistic analysis of a written text is made in 6 processes: ?Morphology, Lexicon, Syntax, Semantics, Pragmatics, and Phonology.? The output of each process is an input of the following process. Exceptionally, the input of morphological analysis is a raw text and the output of phonological analysis is not used in any other process. The content of this study consists of only ?morphology.? As it was stated in the studies on Turkish, it is a fact that without a morphological analysis, stemming will cause to mistakes.This study can be considered as the first model related to the stemming and lemmatization of the Hidden Markov Models and Turkish words. In order to be able to achieve a real effective success by using HMMs, initially, a truly coded, rich collection is needed. After the collections designed for Turkish were analyzed, it is concluded that there is a need for a manually and truly coded collection. In this sense, MuDer collection is designed. Based on Hidden Markov Models, two different stemming algorithms, HmmStemmer stemming and HmmLemmatiser lemmatization are proposed. HmmStemmer algorithm was compared with the Turkish stemmer algorithm over coded MuDer collection, and it was concluded that HmmStemmer algorithm had been more successful in reaching real stems. HmmLemmatiser lemmatization algorithm is original study at this area.

Benzer Tezler

  1. Paralel iki heterojen kanallı servis sisteminin analizi

    Analysed of server system with parallel two heterogeneous channels

    YEŞİM ERLAT (YENİ)

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    İstatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. FARUK ALPASLAN

  2. Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri

    Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types

    SEVDA DÜLGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    ZiraatÇanakkale Onsekiz Mart Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT ŞEKER

  3. Turkish morphological disambiguation using multiple conditional random fields

    Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme

    RAZIEH EHSANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. GÜLŞEN ERYİĞİT

  4. Markov zincirinde bootstrap

    Bootstrapping Markov chains

    SERHAT DUMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    İstatistikAnkara Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. İHSAN KARABULUT

  5. Yönetim muhasebesinde Markov zincirleri ile stokastik bütçeleme

    Stochastic budgeting with Markov chains in managerial accounting

    MERT ÖNCEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    İşletmeGazi Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. HÜSEYİN KAMİL BÜYÜKMİRZA