Türkçe dokümanlar için özelleştirilebilir web tabanlı dikey arama motoru
Web based customizable vertical search engine for turkish documents
- Tez No: 232947
- Danışmanlar: YRD. DOÇ. DR. ÖZGÜR YILMAZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Dikey Arama Motorları, Türkçe Bilgi Erişimi, Heritrix, Lucene, Dil Tanıma, Vertical Search Engines, Turkish Information Retrieval, Heritrix, Lucene, Language Identification
- Yıl: 2008
- Dil: Türkçe
- Üniversite: Anadolu Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 83
Özet
İnternet ortaya çıktığı günden buyana sürekli olarak genişlemiş, daha önce eşi benzeri görülmemiş büyüklükte bir bilgi denize dönüşmüş ve İnternet kullanımı gündelik yaşantımızın bir parçası haline gelmiştir. İnternet büyüdükçe bu devasa bilgi yığını içerisinden ihtiyaç duyulan bilgiyi arayıp bulmak da gittikçe önem kazanmıştır. İşte tam bu noktada arama motorları devreye girmiş ve bilgi erişimini kolaylaştırmışlardır. Bütün ağı indeksleyen ve yatay arama motorları olarak adlandırılan bu arama motorlarının genel bilgi ihtiyaçlarının karşılamada gösterdikleri başarıyı özel ilgi alanlarına yönelik bilgi ihtiyaçlarını karşılamada gösteremedikleri görülmüştür. Yatay arama motorları içeriğin büyük bölümünün yazıldığı İngilizce gibi birkaç dil dışında dokümanların yazıldığı dilin özelliklerini dikkate almamaktadırlar. Yatay arama motorlarının özel bilgi ihtiyaçlarını karşılamada karşılaştıkları güçlüklerin üstesinden gelmek amacıyla belirli bir alana yoğunlaşmış ve alanın özelliğine göre indeksleme, sorgulama ve sıralama algoritmaları kullanan dikey arama motorlarının kullanımı gündeme gelmiştir.Bu tezde Türk dilinin özelliklerini dikkate alan, kullanıcılar tarafından özelleştirilebilir web tabanlı bir dikey arama motoru geliştirilmesi hedeflenmiştir. Sayfalardaki Türkçe karakterlerin doğru olarak işlenmesi, dokümanın yazıldığı dilin tanınması, sembolleştirilen metnin köklerinin bulunması sağlanarak Türkçe dokümanların daha etkin olarak indekslenmesi hedeflenmiştir. Geliştirilen dikey arama motorunu oluşturan alt bileşenler ve arama motorunun geneli ayrı ayrı test edilmiş ve arama motorunun bilgi erişim etkinliğini artırdığı tespit edilmiştir.Geliştirilen dikey arama motoru genişletilebilir bir yapıya sahip olduğundan ihtiyaç halinde bütün alt bileşenleri geliştirilip özelleştirilebilmektedir.
Özet (Çeviri)
From the beginning Internet has been expanding constantly, transformed into an unprecedented sea of knowledge and Internet usage has become a part of daily life. As Internet is getting bigger, finding needed information among this huge source of information is becoming more important. At this point search engines has taken the burden and made information access easier. Despite their success on meeting general information needs, search engines - indexing whole web - which are called horizontal search engines, couldn?t repeat the same success on meeting information needs concerning specific interest areas. Except few languages most web content is created, like English, horizontal search engines don?t consider the characteristic of content language. To overcome the difficulties horizontal search engines facing meeting specific information needs use of vertical search engines focused to some specific area, using special indexing, searching and ranking algorithms suitable for specific area, came into question.In this thesis, we aimed to develop a user customizable web based vertical search engine which considers characteristics of Turkish language. It is aimed to index Turkish documents more efficiently by processing the Turkish characters found in pages correctly, identifying the document language and stemming tokenized text. We tested both sub components of search engine and whole vertical search engine and saw increased information retrieval performance.Because our vertical search engine has an extendable architecture all sub components can be extended and customized if needed.
Benzer Tezler
- Türkçe dokümanlar için n-gram tabanlı sınıflandırma: Yazar, tür ve cinsiyet
N-gram based classification for turkish text: Author,genre and gender
SİBEL DOĞAN
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. BANU DİRİ
- Türkçe dokümanlar için yazar tanıma
Author recognition for Turkish documents
ÖZCAN KOLYİĞİT
Yüksek Lisans
Türkçe
2013
MatematikAdnan Menderes ÜniversitesiMatematik Ana Bilim Dalı
YRD. DOÇ. DR. RIFAT AŞLIYAN
- Türkçe dokümanlar için anlamsal benzerlik hesaplama yöntemi
Semantic similarity method for Turkish documents
BÜLENT YÜCESOY
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ŞULE ÖĞÜDÜCÜ
- Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Text coherence in Turkish via latent semantic analysis
Gizil anlamsal analiz yöntemi ile metin tutarlılığı ölçme
İBRAHİM KIŞLACIK
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDÜLKADİR GÖRÜR