Geri Dön

Disambiguation of stemming in turkish words in a text

Türkçe kelimelerde metne göre kök bulma belirsizliğinin giderilmesi

  1. Tez No: 290396
  2. Yazar: HALİL TOSUNOĞLU
  3. Danışmanlar: DOÇ. DR. MELİH KIRLIDOĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Kök bulma (stemming) bilgi erişimi(information retrieval), arama motorları gibi popüler olan uygulamalar için bir ihtiyaçtır. Çoğu kelimenin yapı eklerinin birleştirilmesiyle oluşturulduğu çekimli dillerde uygulanabilen çeşitli kök bulma algoritmaları mevcuttur. Kök bulma algoritmaları gerçeklenip uygulandıktan sonra birden fazla çözüme ulaşılabilir. Bu çözümlerin bazıları aynı kök ile farklı ek kombinasyonları olabileceği gibi bazıları da farklı kök ve eklerden oluşabilir.Kök bulma asıl olarak kelimelerin gerçek köklerini bulmak amacıyla gerçekleştirildiği için, bu çalışmada da sadece ayrı kök çözümlemeleri üzerindeki kök bulma belirsizliğinin giderilmesi ile ilgilenilmiştir. Kök bulma algoritmalarının çoğu bu belirsizlik giderme problemine çözüm getirmeye çalışır. Çözümler genellikle dile bağımlı, kurala dayalı veya istatistiksel yöntemlerden oluşmaktadır. Özellikle kurala dayalı yöntemler dil üzerinde büyük bilgi gerektirmektedir.Bu çalışmada, kök bulma belirsizliğinin giderilmesinde güdümsüz öğrenme (unsupervised learning) üzerine bir yöntem sunulmaktadır. Bir kök bulucunun (stemmer) kök çözümleri, kök bağlantıları sözlüğü oluşturmak için kullanılır. Bu sözlük herhangi bir cümle öğesi (part-of-speech) olan kelimenin kök bulma belirsizliğini gidermede kullanılır. Temel olarak kelimelerdeki kök bulma belirsizliğinin giderilmesi bu kelimeleri çevreleyen kökler kullanılarak sağlanır.

Özet (Çeviri)

Stemming is a need for popular applications like information retrieval, search engines etc. There are several stemming algorithms which can be applied on most of the agglutinative languages, in which most words are formed by joining morphemes together. After implementing and applying the stemming algorithms to words, there may be more than one solution. Some of the solutions may be same root with different suffix combinations and some may be different roots with suffixes.Since stemming is mainly implemented to retrieve the real roots of words, this study is concerned with the stemming disambiguation of distinct root solutions. Most of stemming algorithms try to give a solution for this disambiguation problem. The solutions are mainly rule-based and stochastic methods and dependent to the language. Especially rule-based methods need great knowledge of the language.In this study, an unsupervised learning method of stemming disambiguation implementation is presented. Root solutions of a stemmer are used in forming a dictionary of root relations. The stemmer is run over a large corpus with n-gram analyzes to form the dictionary of root relations. This dictionary is accessed to solve any ambiguity on part-of-speech (POS) word stemming solutions. Basically the stemming disambiguation of words will be obtained using the roots surrounding them.

Benzer Tezler

  1. Türkçe için tümleşik bir biçimbirim çözümleme ve sözcük türü tespit yöntemi

    An integrated method for morphological analyse and part of speech tagging in Turkish

    TARIK KIŞLA

    Doktora

    Türkçe

    Türkçe

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    PROF. DR. BAHAR KARAOĞLAN

  2. Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon

    Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması

    KEZBAN BAŞIBÜYÜK

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

  3. Türkçe metinlerdeki anlam belirsizliği olan sözcüklerin bilgisayar algoritmaları ile anlam belirginleştirmesi

    Sense disambiguation of ambiguous words in Turkish texts by machine learning algorithms

    ZEYNEP ORHAN

    Doktora

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SABRİ ARIK

  4. Tagging and morphological disambiguation of turkish text

    Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi

    İLKER KURUÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    1994

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KEMAL OFLAZER

  5. Automatic usage disambiguation of the enclitic da in turkish

    Türkçe'deki Enklitik Da'nın Söylem Ve Söylem Dışı Rolünün Otomatik Belirlenmesi

    ELİF EBRU ERSÖYLEYEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN