Bulanık kümeleme kullanılarak benzer belge aranması

Searching for similar documents using fuzzy clustering

PDF İndir

Tez No: 212382
Yazar: RIDVAN SARAÇOĞLU
Danışmanlar: PROF. DR. NOVRUZ ALLAHVERDİ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2007
Dil: Türkçe
Üniversite: Selçuk Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 139

Özet

Günümüzde teknolojinin gelismesi ile birlikte her geçen gün büyük miktarlarda veriler ortaya çıkmaya ve depolanmaya baslanmıstır. Bu verilerden faydalanmanın yolu ise onların verimli bir sekilde organize edilmesi ve yararlı bilgilere dönüstürülmesinden geçmektedir. Bunu amaçlayan veri madenciliginin bir çesidi ise metinsel veriler üzerinde çalısan metin madenciligidir. Metinsel belgelerin kullanıslı bir sekilde organize edilmesi, islenmesi ve faydalı bilgiler çıkarılması gibi amaçları yerine getirmek için gerekenlerin basında metin sınıflandırıcısı, metinsel belge arama mekanizmaları vb. araçlar gelmektedir. Bir metinsel belge arama islemini iki farklı yaklasımla ele almak mümkündür. Bunlardan biri genis bir alandaki belgeler üzerinde anahtar kelime seçilmesine dayalı olarak arama yapmaktır (internet arama motorları gibi). Bir digeri ise daha dar bir alanda metinin tüm kelimelerini kullanmak suretiyle daha ayrıntılı bir arama yapmaktır (bir kütüphanedeki kitaplar üzerinde yapılacak arama gibi). Bu çalısmada ele alınan konu ise bulanık kümeleme ve metinlerin tüm kelimelerini kullanarak bir arama yaklasımı ortaya koymaktır. Bu yaklasım; önisleme, kümeleme/sınıflandırma ve benzerlik ölçümü olmak üzere üç temel asamadan olusmaktadır. Bu çalısmada önisleme asaması ile ilgili olarak terim agırlıklandırma yöntemleri üzerinde durulmustur. Bulanık kümeleme kullanıldıgından dolayı mevcut terim agırlıklandırma yöntemlerinin bulanık kümeleme ile birlikte kullanımları incelenmis ve performansları karsılastırılmıstır. En iyi performansı gösteren yöntem belirlenerek daha sonraki asamalarda bu yöntem kullanılmıstır. Benzerlik ölçümü asaması için ise mevcut benzerlik ölçümlerinin önerilen arama yaklasımındaki performansları incelenmistir. Yine bu asama için verinin boyutuna dayalı yeni bir benzerlik ölçümü önerilmistir. Bu önerilen yeni benzerlik ölçümünün süre ve verimlilik açılarından önceki yöntemlere göre daha iyi oldugu görülmüstür. Son olarak, bir test belgesinin birden fazla kategoriye ait olması seklinde özetlenebilecek olan çoklu kategori problemi ele alınmıstır. Bu problemin çözümü için önerilen arama yaklasımının kümeleme/sınıflandırma asaması gelistirilmeye çalısılmıstır. Bu amaçla hangi belgelerin birden fazla kategoriye ait olduklarını tespit etmek için mevcut sınıflandırma yöntemi probleme adapte edilmistir. Ayrıca, kategorilerin arasında bir iliski matrisi olusturularak, bir belge birden fazla kategoriye ait ise bunların hangi kategoriler oldukları tespit edilmeye çalısılmıstır. Önceki çalısmalarda pek yer verilmemis olan bu çoklu kategori probleminde önemli ölçüde bir basarı saglanmıstır. Anahtar Kelimeler ? Benzer belge arama, bulanık kümeleme, bulanık benzerlik sınıflandırması, terim agırlıklandırma, benzerlik ölçümü, çoklu kategori problemi

Özet (Çeviri)

Nowadays, large amount of data has started to arise and stored by development of technology. The way of benefitting these data are to organize them efficiently and convert them to useful information. A kind of data mining that aims this is text minig which works over textual data. The first of necessities for implementing the aims like being organized textual documents usefully, being processed them and extracted useful information are text classifier, textual document search mechanisms and tools like them. It is possible to discuss a textual document search operation with two diffrent approaches. One of them is to perform a search that bases on selection of a keyword in a large area (like internet search engines). The other is to perform a more detailed search by using all the words of text (a search that will be performed on the books in a library). The subject that is discusses in this study is to produce a search approach by using fuzzy clustering and all the words of text. This approach consists of three main stages like pre-processing, clustering/classification and similarity measurement. In this study, term weighting methods have been emphasized related to preprocessing stage. Because of using fuzzy clustering, the usage of existing term weighting methods with fuzzy clustering has been investigated and their performances have been compared.The method which shows the best performance has been determined and this method has been used in the following stages. For similarity measurement stage, the performances of existing similarity measurements in suggested search approach, have been investigated. Still for this stage, a new similarity measurement that bases on the size of data has been suggested. It is seen that this new similarity method that is suggested, is better than previous methods in terms of time and efficiency. As last, multiple category problems that can be summarized as a test document belonging to more that one category, has been discussed. Clustering/classification stage of the suggested search approach for solution of this problem has been tried to develop. For this aim, existing classification method has been adapted to the problem to determine which documents belong to more than one category. Besides, the categories have been tried to determine by being formed a relation matrix, if a document belongs to more than one category. In this multiple category problem that is not seen in the previous studies, a great amount of achievement has been obtained. Keywords ? Searching similiar document, Fuzzy clustering, Fuzzy similarity classification, Term weighting, Similarity measurement, Multiple category problem

Benzer Tezler

Tez No
651235
Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi
Deep learning based clustering analysis based on the semantic similarity of question documents
ERAY YELMEN
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEVCİHAN DURU
Tez No
389451
Multivariate and fuzzy clustering approaches to dynamic classification of traffic flow states
Çok değişkenli ve bulanık yaklaşımlarla trafik akımının dinamik sınıflandırılması
MEHMET ALİ SİLGU
Yüksek Lisans
İngilizce
2015
Trafik İstanbul Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. HİLMİ BERK ÇELİKOĞLU
Tez No
877461
Data driven optimization and applications in complex real-life problems
Veri güdümlü optimizasyon ve kompleks gerçek hayat problemlerinde uygulamaları
NURULLAH GÜLEÇ
Doktora
İngilizce
2024
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR KABAK
Tez No
494685
Bulanık c-ortalamalar kümeleme analizi ve sağlık alanında uygulaması
Fuzzy c-means clustering method and its application in medical field
SURİYE ÖZGÜR
Yüksek Lisans
Türkçe
2017
Biyoistatistik Ege Üniversitesi
Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. MEHMET NURULLAH ORMAN
Tez No
327261
Çokboyutlu veritabanlarında kümeleme yöntemleri.
Çokboyutlu veritabanlarında kümeleme yöntemleri.
ELVİN NASIBOV
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. BURAK ORDİN

Geri Dön