Geri Dön

Türkçe dokümanlar için özelleştirilebilir web tabanlı dikey arama motoru

Web based customizable vertical search engine for turkish documents

  1. Tez No: 232947
  2. Yazar: AYDIN KILIÇ
  3. Danışmanlar: YRD. DOÇ. DR. ÖZGÜR YILMAZEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Dikey Arama Motorları, Türkçe Bilgi Erişimi, Heritrix, Lucene, Dil Tanıma, Vertical Search Engines, Turkish Information Retrieval, Heritrix, Lucene, Language Identification
  7. Yıl: 2008
  8. Dil: Türkçe
  9. Üniversite: Anadolu Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

İnternet ortaya çıktığı günden buyana sürekli olarak genişlemiş, daha önce eşi benzeri görülmemiş büyüklükte bir bilgi denize dönüşmüş ve İnternet kullanımı gündelik yaşantımızın bir parçası haline gelmiştir. İnternet büyüdükçe bu devasa bilgi yığını içerisinden ihtiyaç duyulan bilgiyi arayıp bulmak da gittikçe önem kazanmıştır. İşte tam bu noktada arama motorları devreye girmiş ve bilgi erişimini kolaylaştırmışlardır. Bütün ağı indeksleyen ve yatay arama motorları olarak adlandırılan bu arama motorlarının genel bilgi ihtiyaçlarının karşılamada gösterdikleri başarıyı özel ilgi alanlarına yönelik bilgi ihtiyaçlarını karşılamada gösteremedikleri görülmüştür. Yatay arama motorları içeriğin büyük bölümünün yazıldığı İngilizce gibi birkaç dil dışında dokümanların yazıldığı dilin özelliklerini dikkate almamaktadırlar. Yatay arama motorlarının özel bilgi ihtiyaçlarını karşılamada karşılaştıkları güçlüklerin üstesinden gelmek amacıyla belirli bir alana yoğunlaşmış ve alanın özelliğine göre indeksleme, sorgulama ve sıralama algoritmaları kullanan dikey arama motorlarının kullanımı gündeme gelmiştir.Bu tezde Türk dilinin özelliklerini dikkate alan, kullanıcılar tarafından özelleştirilebilir web tabanlı bir dikey arama motoru geliştirilmesi hedeflenmiştir. Sayfalardaki Türkçe karakterlerin doğru olarak işlenmesi, dokümanın yazıldığı dilin tanınması, sembolleştirilen metnin köklerinin bulunması sağlanarak Türkçe dokümanların daha etkin olarak indekslenmesi hedeflenmiştir. Geliştirilen dikey arama motorunu oluşturan alt bileşenler ve arama motorunun geneli ayrı ayrı test edilmiş ve arama motorunun bilgi erişim etkinliğini artırdığı tespit edilmiştir.Geliştirilen dikey arama motoru genişletilebilir bir yapıya sahip olduğundan ihtiyaç halinde bütün alt bileşenleri geliştirilip özelleştirilebilmektedir.

Özet (Çeviri)

From the beginning Internet has been expanding constantly, transformed into an unprecedented sea of knowledge and Internet usage has become a part of daily life. As Internet is getting bigger, finding needed information among this huge source of information is becoming more important. At this point search engines has taken the burden and made information access easier. Despite their success on meeting general information needs, search engines - indexing whole web - which are called horizontal search engines, couldn?t repeat the same success on meeting information needs concerning specific interest areas. Except few languages most web content is created, like English, horizontal search engines don?t consider the characteristic of content language. To overcome the difficulties horizontal search engines facing meeting specific information needs use of vertical search engines focused to some specific area, using special indexing, searching and ranking algorithms suitable for specific area, came into question.In this thesis, we aimed to develop a user customizable web based vertical search engine which considers characteristics of Turkish language. It is aimed to index Turkish documents more efficiently by processing the Turkish characters found in pages correctly, identifying the document language and stemming tokenized text. We tested both sub components of search engine and whole vertical search engine and saw increased information retrieval performance.Because our vertical search engine has an extendable architecture all sub components can be extended and customized if needed.

Benzer Tezler

  1. Türkçe dokümanlar için n-gram tabanlı sınıflandırma: Yazar, tür ve cinsiyet

    N-gram based classification for turkish text: Author,genre and gender

    SİBEL DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. BANU DİRİ

  2. Türkçe dokümanlar için yazar tanıma

    Author recognition for Turkish documents

    ÖZCAN KOLYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    MatematikAdnan Menderes Üniversitesi

    Matematik Ana Bilim Dalı

    YRD. DOÇ. DR. RIFAT AŞLIYAN

  3. Türkçe dokümanlar için anlamsal benzerlik hesaplama yöntemi

    Semantic similarity method for Turkish documents

    BÜLENT YÜCESOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. ŞULE ÖĞÜDÜCÜ

  4. Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma

    Named entity recognition by conditional random fields from Turkish informal texts

    SERAP ÖZKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  5. Text coherence in Turkish via latent semantic analysis

    Gizil anlamsal analiz yöntemi ile metin tutarlılığı ölçme

    İBRAHİM KIŞLACIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDÜLKADİR GÖRÜR