Türkçe kelimelerin markov zinciri kullanımı ile biçim birimi çözümlemesinin istatistiksel olarak geliştirilmesi
The istatistical improvement of the Markov chain usage of Turkish words and analysis of morphology
- Tez No: 245019
- Danışmanlar: YRD. DOÇ. DR. B. TANER DİNÇER
- Tez Türü: Yüksek Lisans
- Konular: Dilbilim, İstatistik, Linguistics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: Türkçe
- Üniversite: Muğla Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 81
Özet
Doğal Dil İşleme sahasındaki çalışmalar, en genel anlamda dilin karakteristik bilgilerinin kısıtlı örneklerden elde edilmesiyle, matematik/olasılık kurallar halinde bilgisayar ortamına aktarılmasını ve aktarılan bilgilerin genellenerek problemlere çözümler üretilmesini sağlama amacını güder. Doğal dillerin işlenmesini istatistik/olasılık esasında modelleyen, anlam ile simgesel gösterimler arasındaki bağıntıyı tanımlamayı amaçlayan, dilbilimin bir alt dalı da hesaplamalı dilbilimdir. Hesaplamalı dil biliminde, herhangi bir yazılı metnin dil bilimsel çözümlemesi, ?Biçim, Sözlük, Söz Dizimi, Anlam, Kullanım ve Söylem? olmak üzere 6 alt süreçte gerçekleştirilir. Her alt sürecin çıktısı bir sonraki alt sürecin girdisidir. İstisna olarak biçim çözümlemesinin girdisi ham metindir ve söylem çözümlemesinin çıktısı bir başka alt süreçte kullanılmamaktadır. Bu çalışmanın kapsamı sadece ?Biçim?den oluşmaktadır. Türkçe üzerine yapılan çalışmada da belirtildiği gibi biçim birimsel bir analiz olmadan gövdeleme ve kökleme yapmanın hatalara sebep olacağı bir gerçektir.Bu çalışma, Gizli Markov Modelleri ile Türkçe kelimelerin gövdelenme ve köklenmesine ilişkin ilk örneği olarak gösterilebilir. GMM'ler kullanılarak gerçek anlamda etkili bir başarıma ulaşabilmek için öncelikle doğru kodlanmış zengin bir derleme ihtiyaç vardır. Türkçe için bugüne değin hazırlanmış derlemler incelendikten sonra, elle ve doğru kodlanmış bir derleme ihtiyaç olduğu kanısına varılmıştır. Bu bağlamda MuDer derlemi hazırlanmıştır. Gizli Markov Modellerini temel alan HmmStemmer gövdeleme ve HmmLemmatiser kökleme algoritması olmak üzere iki farklı algoritma önerilmiştir. HmmStemmer, kodlanmış MuDer derlemi üzerinden, Turkish Stemmer gövdeleme algoritması ile karşılaştırılmış ve gerçek gövdelere ulaşmadaki başarımının daha yüksek olduğu sonucuna ulaşılmıştır. HmmLemmatiser kökleme algoritması da sahadaki ilk çalışmadır.
Özet (Çeviri)
The studies in the area of Natural Language Processing, in the most general sense, aim to transfer the characteristic knowledge of the language acquired from limited examples to a computer environment as mathematics/possibility rules and to find solutions to the problems by generalizing these transferred knowledge. One sub-branch of the linguistics is computational linguistics which models the processing of natural language on there basis of statistics/probability and aims to define the relation between the meaning and symbolic representations. In computational linguistics, the linguistic analysis of a written text is made in 6 processes: ?Morphology, Lexicon, Syntax, Semantics, Pragmatics, and Phonology.? The output of each process is an input of the following process. Exceptionally, the input of morphological analysis is a raw text and the output of phonological analysis is not used in any other process. The content of this study consists of only ?morphology.? As it was stated in the studies on Turkish, it is a fact that without a morphological analysis, stemming will cause to mistakes.This study can be considered as the first model related to the stemming and lemmatization of the Hidden Markov Models and Turkish words. In order to be able to achieve a real effective success by using HMMs, initially, a truly coded, rich collection is needed. After the collections designed for Turkish were analyzed, it is concluded that there is a need for a manually and truly coded collection. In this sense, MuDer collection is designed. Based on Hidden Markov Models, two different stemming algorithms, HmmStemmer stemming and HmmLemmatiser lemmatization are proposed. HmmStemmer algorithm was compared with the Turkish stemmer algorithm over coded MuDer collection, and it was concluded that HmmStemmer algorithm had been more successful in reaching real stems. HmmLemmatiser lemmatization algorithm is original study at this area.
Benzer Tezler
- Paralel iki heterojen kanallı servis sisteminin analizi
Analysed of server system with parallel two heterogeneous channels
YEŞİM ERLAT (YENİ)
Yüksek Lisans
Türkçe
1997
İstatistikOndokuz Mayıs Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. FARUK ALPASLAN
- Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri
Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types
SEVDA DÜLGER
Yüksek Lisans
Türkçe
2004
ZiraatÇanakkale Onsekiz Mart ÜniversitesiBahçe Bitkileri Ana Bilim Dalı
YRD. DOÇ. DR. MURAT ŞEKER
- Turkish morphological disambiguation using multiple conditional random fields
Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme
RAZIEH EHSANI
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. GÜLŞEN ERYİĞİT
- Markov zincirinde bootstrap
Bootstrapping Markov chains
SERHAT DUMAN
Yüksek Lisans
Türkçe
2006
İstatistikAnkara Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. İHSAN KARABULUT
- Yönetim muhasebesinde Markov zincirleri ile stokastik bütçeleme
Stochastic budgeting with Markov chains in managerial accounting
MERT ÖNCEL
Yüksek Lisans
Türkçe
2014
İşletmeGazi Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. HÜSEYİN KAMİL BÜYÜKMİRZA