Disambiguation of stemming in turkish words in a text

Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi

PDF İndir

Tez No: 290396
Yazar: HALİL TOSUNOĞLU
Danışmanlar: DOÇ. DR. MELİH KIRLIDOĞ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: İngilizce
Üniversite: Marmara Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 76

Özet

Kök bulma (stemming) bilgi erişimi(information retrieval), arama motorları gibi popüler olan uygulamalar için bir ihtiyaçtır. Çoğu kelimenin yapı eklerinin birleştirilmesiyle oluşturulduğu çekimli dillerde uygulanabilen çeşitli kök bulma algoritmaları mevcuttur. Kök bulma algoritmaları gerçeklenip uygulandıktan sonra birden fazla çözüme ulaşılabilir. Bu çözümlerin bazıları aynı kök ile farklı ek kombinasyonları olabileceği gibi bazıları da farklı kök ve eklerden oluşabilir.Kök bulma asıl olarak kelimelerin gerçek köklerini bulmak amacıyla gerçekleştirildiği için, bu çalışmada da sadece ayrı kök çözümlemeleri üzerindeki kök bulma belirsizliğinin giderilmesi ile ilgilenilmiştir. Kök bulma algoritmalarının çoğu bu belirsizlik giderme problemine çözüm getirmeye çalışır. Çözümler genellikle dile bağımlı, kurala dayalı veya istatistiksel yöntemlerden oluşmaktadır. Özellikle kurala dayalı yöntemler dil üzerinde büyük bilgi gerektirmektedir.Bu çalışmada, kök bulma belirsizliğinin giderilmesinde güdümsüz öğrenme (unsupervised learning) üzerine bir yöntem sunulmaktadır. Bir kök bulucunun (stemmer) kök çözümleri, kök bağlantıları sözlüğü oluşturmak için kullanılır. Bu sözlük herhangi bir cümle öğesi (part-of-speech) olan kelimenin kök bulma belirsizliğini gidermede kullanılır. Temel olarak kelimelerdeki kök bulma belirsizliğinin giderilmesi bu kelimeleri çevreleyen kökler kullanılarak sağlanır.

Özet (Çeviri)

Stemming is a need for popular applications like information retrieval, search engines etc. There are several stemming algorithms which can be applied on most of the agglutinative languages, in which most words are formed by joining morphemes together. After implementing and applying the stemming algorithms to words, there may be more than one solution. Some of the solutions may be same root with different suffix combinations and some may be different roots with suffixes.Since stemming is mainly implemented to retrieve the real roots of words, this study is concerned with the stemming disambiguation of distinct root solutions. Most of stemming algorithms try to give a solution for this disambiguation problem. The solutions are mainly rule-based and stochastic methods and dependent to the language. Especially rule-based methods need great knowledge of the language.In this study, an unsupervised learning method of stemming disambiguation implementation is presented. Root solutions of a stemmer are used in forming a dictionary of root relations. The stemmer is run over a large corpus with n-gram analyzes to form the dictionary of root relations. This dictionary is accessed to solve any ambiguity on part-of-speech (POS) word stemming solutions. Basically the stemming disambiguation of words will be obtained using the roots surrounding them.

Benzer Tezler

Tez No
256758
Türkçe için tümleşik bir biçimbirim çözümleme ve sözcük türü tespit yöntemi
An integrated method for morphological analyse and part of speech tagging in Turkish
TARIK KIŞLA
Doktora
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Uluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
Tez No
178147
Türkçe metinlerdeki anlam belirsizliği olan sözcüklerin bilgisayar algoritmaları ile anlam belirginleştirmesi
Sense disambiguation of ambiguous words in Turkish texts by machine learning algorithms
ZEYNEP ORHAN
Doktora
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SABRİ ARIK
Tez No
694541
Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon
Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması
KEZBAN BAŞIBÜYÜK
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. DENİZ ZEYREK BOZŞAHİN
Tez No
33500
Tagging and morphological disambiguation of turkish text
Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi
İLKER KURUÖZ
Yüksek Lisans
İngilizce
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. KEMAL OFLAZER
Tez No
753663
Automatic usage disambiguation of the enclitic da in turkish
Türkçe'deki Enklitik Da'nın Söylem Ve Söylem Dışı Rolünün Otomatik Belirlenmesi
ELİF EBRU ERSÖYLEYEN
Yüksek Lisans
İngilizce
2022
Dilbilim Orta Doğu Teknik Üniversitesi
Bilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN

Geri Dön