Geri Dön

Gövdebul: Türkçe gövdeleme algoritması

Gövdebul: Turkish stemming algorithm

  1. Tez No: 66036
  2. Yazar: GÖKMEN DURAN
  3. Danışmanlar: YRD. DOÇ. DR. HAYRİ SEVER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1997
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

IV ÖZET Doğal dilde yazılmış düz metinlerin, elektronik ortamda saklanmasında ve gerektiğinde çevrim içi erişilmesinde Bilgi Geri-Getirim Sistemleri (BGS) kullanılmaktadır. BGS'ler dokümanlar üzerinde bir dizin yapısı oluşturup, girilen sorgulara ilgili dokümanları döndürerek cevap vermektedirler. Günümüzde yaygın olarak büyük ölçekli metinler üzerinde kullanılan ticari ve akademik BGS ürünleri bulunmakla birlikte, henüz Türkçe dokümanlar üzerinde işlem yapacak bir BGS geliştirilmemiştir. 1960'lardan itibaren gelişen bilgi geri-getirim kuramı ve deneysel çalışmalarının teknolojik sonuçlarını Türkçe tabanlı bir Bilgi Geri-Getirim Sistemine uyarlamak ve bu dalda hizmet veren (ya da verecek) gerek devlet, gerekse de ticari kuruluşların çalışmalarına ışık tutmak amacıyla, H.Ü. bünyesinde, Kaşgarlı Mahmud Bilgi Geri- Getirim Sistemi (KM-BG8), projesi başlatılmıştır. Bu tez çalışmasında, KM-BGS projesi kapsamında kullanılmak üzere, gövdebul Türkçe gövdeleme algoritması geliştirilmiştir. Yine tez kapsamında, geliştirilen alogritmarun, daha önce Türkçe üzerine geliştirilen algoritmalarla karşılaştırılması amacıyla hazırlanan deneysel çalışma sunulmuştur. Deneysel çalışma sonuçlan, gövdebul algoritmasının diğer algoritmalara göre daha başarılı sonuçlar verdiğini göstermiştir.

Özet (Çeviri)

ABSTRACT k Text based information retrieval systems (IRSs) are used to store and retrieve the text (or collection of documents in general) which are written in a natural language. IRSs attempt to find the relevant documents in regard to a given query by utilizing a reverse index structure of terms on documents. No matter what form is used for expressing queries, a query is eventually represented by terms. Although there are commercial and academic IRSs that are used on very large text- base, no IRS that processes Turkish documents has been devoioped yet. In order to adopt the theories and the technological results of the empricai studies to a Turkish based IRS and to shed light on the studies of either state or commercial organizations that somehow need to use a Turkish based IRS, the project KM-BGS (Kaşgarlî Mahmut Bilgi Geri-Getirim Sistemi) has been launched in H.Ü.. In this thesis, in order to be incorporated into KM-BGS project later, the Turkish stemming algorithm, gövde bul, has been developed. In addition, the empricai study which is used to compare our algorithm with the other two Turkish stemming algorithms previously developed are presented. The empricai results show that the gövdebul algorithm has substantially performed better than the others in terms of the number of words correctly stemmed.

Benzer Tezler

  1. Gövdelemenin ve gömünün türkçe bir bilgi erişim sistemi üzerindeki etkisinin araştırılması

    A Study on the effects of stemming and thesaurus for retrieving information in Turkish documents

    MEHMET EROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2000

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAYRİ SEVER