Disambiguation of stemming in turkish words in a text
Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi
- Tez No: 290396
- Danışmanlar: DOÇ. DR. MELİH KIRLIDOĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Kök bulma (stemming) bilgi erişimi(information retrieval), arama motorları gibi popüler olan uygulamalar için bir ihtiyaçtır. Çoğu kelimenin yapı eklerinin birleştirilmesiyle oluşturulduğu çekimli dillerde uygulanabilen çeşitli kök bulma algoritmaları mevcuttur. Kök bulma algoritmaları gerçeklenip uygulandıktan sonra birden fazla çözüme ulaşılabilir. Bu çözümlerin bazıları aynı kök ile farklı ek kombinasyonları olabileceği gibi bazıları da farklı kök ve eklerden oluşabilir.Kök bulma asıl olarak kelimelerin gerçek köklerini bulmak amacıyla gerçekleştirildiği için, bu çalışmada da sadece ayrı kök çözümlemeleri üzerindeki kök bulma belirsizliğinin giderilmesi ile ilgilenilmiştir. Kök bulma algoritmalarının çoğu bu belirsizlik giderme problemine çözüm getirmeye çalışır. Çözümler genellikle dile bağımlı, kurala dayalı veya istatistiksel yöntemlerden oluşmaktadır. Özellikle kurala dayalı yöntemler dil üzerinde büyük bilgi gerektirmektedir.Bu çalışmada, kök bulma belirsizliğinin giderilmesinde güdümsüz öğrenme (unsupervised learning) üzerine bir yöntem sunulmaktadır. Bir kök bulucunun (stemmer) kök çözümleri, kök bağlantıları sözlüğü oluşturmak için kullanılır. Bu sözlük herhangi bir cümle öğesi (part-of-speech) olan kelimenin kök bulma belirsizliğini gidermede kullanılır. Temel olarak kelimelerdeki kök bulma belirsizliğinin giderilmesi bu kelimeleri çevreleyen kökler kullanılarak sağlanır.
Özet (Çeviri)
Stemming is a need for popular applications like information retrieval, search engines etc. There are several stemming algorithms which can be applied on most of the agglutinative languages, in which most words are formed by joining morphemes together. After implementing and applying the stemming algorithms to words, there may be more than one solution. Some of the solutions may be same root with different suffix combinations and some may be different roots with suffixes.Since stemming is mainly implemented to retrieve the real roots of words, this study is concerned with the stemming disambiguation of distinct root solutions. Most of stemming algorithms try to give a solution for this disambiguation problem. The solutions are mainly rule-based and stochastic methods and dependent to the language. Especially rule-based methods need great knowledge of the language.In this study, an unsupervised learning method of stemming disambiguation implementation is presented. Root solutions of a stemmer are used in forming a dictionary of root relations. The stemmer is run over a large corpus with n-gram analyzes to form the dictionary of root relations. This dictionary is accessed to solve any ambiguity on part-of-speech (POS) word stemming solutions. Basically the stemming disambiguation of words will be obtained using the roots surrounding them.
Benzer Tezler
- Türkçe için tümleşik bir biçimbirim çözümleme ve sözcük türü tespit yöntemi
An integrated method for morphological analyse and part of speech tagging in Turkish
TARIK KIŞLA
Doktora
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. BAHAR KARAOĞLAN
- Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon
Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması
KEZBAN BAŞIBÜYÜK
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. DENİZ ZEYREK BOZŞAHİN
- Türkçe metinlerdeki anlam belirsizliği olan sözcüklerin bilgisayar algoritmaları ile anlam belirginleştirmesi
Sense disambiguation of ambiguous words in Turkish texts by machine learning algorithms
ZEYNEP ORHAN
Doktora
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SABRİ ARIK
- Tagging and morphological disambiguation of turkish text
Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi
İLKER KURUÖZ
Yüksek Lisans
İngilizce
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. KEMAL OFLAZER
- Automatic usage disambiguation of the enclitic da in turkish
Türkçe'deki Enklitik Da'nın Söylem Ve Söylem Dışı Rolünün Otomatik Belirlenmesi
ELİF EBRU ERSÖYLEYEN
Yüksek Lisans
İngilizce
2022
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN