Text document querying via hierarchical clustering of documents in vector spaces
Vektör uzayında dökümanların sıradüzensel olarak gruplandırılmasıyla metin veri tabanlarında sorgulama
- Tez No: 129331
- Danışmanlar: PROF. DR. FİKRET GÜRGEN, YRD. DOÇ. DR. ULUĞ BAYAZIT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2002
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 118
Özet
ÖZET VEKTÖR UZAYINDA DOKÜMANLARIN SERADÜZENSEL OLARAK GRUPLANDIRILMASIYLA METİN VERİ TABANLARINDA SORGULAMA Metin tipi veri tabanları doküman başlıklarının indekslenmesiyle oluşturulan vektör uzaylarında oldukça büyük ve seyrek matrisler olarak tanımlanır. Bu matris uzayında istenilen ya da buna yakın bir konudaki dokümanların araştırılması (sorgulanması) büyük zaman alır ve araştırma sonucuna ulaşılabilmesi için oldukça çok sayıda hesaplama yapılması gerekir. Literatürde yapılan çalışmalarda büyük boyutlu metin veri tabanlarına boyut indirgenmesi uygulandıktan sonra bu yeni boyutlarda tanımlanan her bir dokümanın tek tek taranmasıyla sonuca varılan yöntemler tanımlanmıştır. Bu çalışmada ise boyut indirgenmesi yapıldıktan sonra istenilen dokümanların tek bir büyük bir matris içerisindeki tüm dokümanlara bakılarak aranması yerine veri tabanındaki dokümanların önce gamlandırılarak benzer konudaki dokümanların aynı gruplara toplanması ve araştırmanın bu alt gruplardaki daha az sayıdaki benzer dokümanlara bakılarak yapılması önerilmiştir. Böylece tüm veri tabanına bakılması yerine çok daha az sayıdaki dokümana bakıldığından daha az sayıda hesaplama yapılarak sorgulama sonucuna kısa zamanda varılacaktır. Gruplamaların sıradüzensel bir ağaç yapısıyla yapılması, böylece sorgulamanın ağaç içerisinde özyineli olarak belirlenecek olan grubun içindeki alt gruplara yönlendirilmesiyle aramanın küçük gruplarda yapılması önerilmiştir. Tasarlanan dört değişik tipte sıradüzensel ağaç yapısı üç ayrı veri tabam üzerinde denenmiştir. Sonuç olarak yapılan sorgulamalara bulunan dokümanların büyük bir bölümü sorgulama vektörüne en yakın ilk üç dokümandan biri çıkmış ve az bir kısmı ise başarısız olmuştur. Bu yöntemle araştırmalardaki hesaplama sayısı azaltılmıştır. Varılan sonuçlardan bir diğeri de yapılan araştırmanın sonucunun aynı zamanda kullanılan sorgulama vektörüyle de ilgili olduğudur. Sorgulama vektöründe ne kadar çok kelime bulunursa sonuçta bulunacak dokümanın sorgulama vektörüne yakın bir doküman olma olasılığı o oranda yüksek olacaktır.
Özet (Çeviri)
IV ABSTRACT TEXT DOCUMENT QUERYING VIA HIERARCHICAL CLUSTERING OF DOCUMENTS IN VECTOR SPACES Text databases are big sparse matrices defined in the vector spaces that are formed via indexing the titles of documents. Searching through these databases for finding documents about a desired subject takes a long time and lots of calculations have to be done to get the result. In the literature, the proposed methods for searching these databases contain applying dimension reduction to the databases, then defining the documents in these new dimensions and then searching all of the documents in the reduced dimensions one by one to find the relevant documents about a desired subject. In this study, after applying dimension reduction, grouping the similar documents together and then searching through these small groups containing small amount of documents instead of searching the whole collection one by one are proposed. Thus fewer similar documents in groups will be searched and a result can be found in a short period by doing less calculations. Making the grouping as a hierarchical tree structure is proposed, so that it can be possible to direct the search to smaller groups in each step. Four different tree structures are proposed on three different example text databases are tested. Most of the results to the queryings are one of three closest vectors to the query vector and a few results are unsuccessful. By this method the searching complexity is reduced. Another finding is the fact that a result to a search is related to the search or query vector. The more keywords contain a search vector, the larger is the probability of finding a good result (a closer document to the query vector). a.W&FE?^T P&w ı.. ;.j^v,'^,
Benzer Tezler
- Design of a model for efficiency of web information discovery tools
Web'te bilgi kaynakları arama araçlarının etkinliği için bir model tasarımı
BİROL TİLKİ
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. VELİ HAKKOYMAZ
- Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği
Mining Turkish documents by meaning based techniques
AHMET GÜVEN
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OYA KALIPSIZ
- Multipath querying of hierarchically tree structured document databases in vector spaces
Vektör uzayında sıradüzensel ağaç yapısı ile düzenlenmiş metin veri tabanlarının çoklu yollar üzerinden sorgulanması
UĞUR AYAN
Yüksek Lisans
İngilizce
2004
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET GÜRGEN
YRD. DOÇ. DR. ULUĞ BAYAZIT
- Parallel procesing of encrypted XML documents in database as a service concept
Şifrelenmiş XML dokümanlarının paralel olarak sorgulanması
OZAN ÜNAY
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. TAFLAN İMRE GÜNDEM
- Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN