Geri Dön

Çok boyutlu uzayda görsel veri madenciliği için üç yeni çatı tasarımı ve uygulamaları

Three new frameworks for the design and application of visual data mining in high dimensional space

  1. Tez No: 178051
  2. Yazar: TURGAY TUGAY BİLGİN
  3. Danışmanlar: PROF.DR. ALİ YILMAZ ÇAMURCU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 161

Özet

Veri madenciliği, veri ambarlarında veya diğer bilgi depolarında tutulmakta olan büyük miktardaki verinin islenerek içindeki değerli olabilecek bilginin ortaya çıkarılması sürecidir. Veri görsellestirme, algılanabilirliği arttırmak için verinin etkilesimli ve bilgisayar desteği ile görsel olarak temsil edilmesidir. Görsel veri madenciliği ise görsellestirmeyi insan ile bilgisayar arasında bir iletisim kanalı olarak kullanarak yeni ve yorumlanabilir örüntüler ortaya çıkarma sürecidir. Bu tez çalısmasında, veri madenciliği ve veri görsellestirme algoritmalarının çok boyutlu veri setlerinde kullanılması sırasında karsılasılan zorluklar irdelenerek bunlar için çözüm yöntemleri gelistirilmistir. Tez çalısması altı bölümden olusmaktadır. ?lk bölümde öncelikle veri madenciliği, görsellestirme, kümeleme analizi ve görsel veri madenciliği kavramları tanımlanarak veri madenciliğindeki güncel problemlerden bahsedilmistir. Daha sonra, tez kapsamında çözüm getirilen problemin tanımı yapılarak tezin amacı ve organizasyonu verilmistir. Problemin tanımının ardından ikinci bölümde literatürde mevcut bulunan görsellestirme teknikleri, çok boyutluluk sorunu ve çok boyutlu veri setlerinde kullanılan veri madenciliği yöntemleri incelenmistir. Ayrıca veri madenciliği sürecinin kalitesini ve performansını doğrudan etkileyen uzaklık ve benzerlik ölçüm yöntemleri ile küme kalitesi ölçüm yöntemleri verilmistir. Bu bölümde son olarak, iliski tabanlı kümeleme çatısı adı verilen sistemin yapısı incelenmistir. ?liski tabanlı kümeleme çatısı çok boyutlu uzayda hem veri görsellestirme hem kümeleme uygulamaları gelistirmek için uygun altyapı sağlamaktadır. Tez kapsamında iliski tabanlı kümeleme çatısı üzerinde sürdürülen çalısmalarda üç yenilik gerçeklestirildi. Bu yenilikler ve bilimsel katkıları üçüncü, dördüncü ve besinci bölümlerde deneysel sonuçlar ile birlikte verilmistir. Üçüncü bölümde iliski tabanlı kümeleme çatısına, normalde sahip olmadığı yoğunluk tabanlı kümeleme ve istisna filtreleme yetenekleri kazandırmak amacı ile mevcut çatı temel alınarak yeni bir çatı gelistirilmistir. Yeni çatı sisteminde kullanılan görsellestirme aracı istisna filtreleme isleminin insan gözü aracılığı ile görsel olarak da gerçeklestirilebilmesine olanak sağlamaktadır. Çatı, farklı veri setlerine uygulanmıs ve elde edilen sonuçlar bölüm sonunda değerlendirilmistir. Dördüncü bölümde, dengelenmemis kümelenmelerin tespit edilebilmesine olanak veren yeni bir çatı gelistirilmistir. ?liski tabanlı çatı sisteminin dengelenmemis kümelere sahip veri setlerine uygulanması durumunda, veri setindeki kümeleri dengeli olmaya zorladığı görülmüstür. Probleme çözüm olarak, mevcut çatı sisteminde kullanılan graf bölmeleme algoritması yerine Graclus olarak adlandırılan farklı bir kümeleme algoritmasının kullanılabileceği gösterilmis ve yardımcı bir ara uzay kullanılarak istisna filtreleme islemi gerçeklestirilmistir. Besinci bölümde, tez çalısması süresince kullanılan çatıların gerektirdiği yüksek hesaplama gücü ihtiyaçlarını azaltacak bir önisleme sistemi gelistirilmistir. Gelistirilen sistem ile elde edilen sonuçlar, önisleme asaması kullanılmadan elde edilmesi olası sonuçların tahminine de olanak sağlamaktadır. Üç farklı veri setleri ile gerçeklestirilen ölçümler ile önisleme sisteminin bellek ve islemci ihtiyacı konusunda önemli oranda tasarruf sağladığı, küme kalitesi konusunda ise hissedilir bir fark olusturmadığı deneysel sonuçlar ile gösterilmistir. Altıncı bölümde, tez çalısması ile elde edilen sistemlerin genel değerlendirmesi yapılarak, sağlanan bilimsel katkılar özetlenmis, konu ile ilgili çalısacak arastırmacılar için öneriler verilmistir.

Özet (Çeviri)

Data mining is the process of searching through and extracting potentially useful knowledge from huge amounts of data stored in data warehouses or other kinds of information stores. Data visualization is an interactive way to improve perceptibility through computer aided visual representation of the data. Visual data mining is the process of using visualization as a communication channel between human and computer to extract new and interpretable patterns. In this dissertation, difficulties of using data mining and data visualization algorithms on high dimensional datasets are examined. New methods are developed to deal with them. This dissertation consists of six chapters. In the first chapter data mining, cluster analysis and visual data mining concepts are described and current challenges in data mining are discussed. In addition, problem description, objectives and organization of the dissertation are presented. In the second chapter, literature review of the visualization techniques, the curse of dimensionality and high dimensional data mining techniques are further investigated. Distance and similarity measures which impact the quality and performance of data mining are presented and clustering evaluation methods are discussed. Relationship based clustering framework which provides a convenient way of clustering and data visualization in high dimensional space is examined in the last section of this chapter. Three improvements on the relationship based clustering framework are introduced in the dissertation. These improvements and contributions are presented with the numerous experimental results in third, fourth and fifth chapters. The relationship based clustering framework is normally not capable of density based clustering and outlier filtering. In the third chapter, an improved framework based on the existing framework is introduced to bring in these capabilities. A visualization tool which is used in the new framework enables filtering outliers by the human eye. The framework is used for mining various real life datasets and the results are discussed at the end of the chapter. In the fourth chapter, a new framework is developed to deal with unbalanced clusters. It is realized that, relationship based clustering framework forces clusters to be balanced when applied to the datasets consisting of unbalanced clusters. The graph partitioning algorithm which is the main part of the existing framework is replaced by another type of clustering algorithm called Graclus to deal with this issue. Also, an intermediate space is introduced to filter outliers. All frameworks mentioned in the previous chapters consume much memory and cpu resources. In the fifth chapter, a new preprocessing system is introduced to reduce the computing power requirements. The results gathered from the framework which uses the new preprocessing system, is not the same as the ones gathered from the original framework. However, the new preprocessing system is capable of estimating the results of the original framework. Experimental results on three different real world datasets prove that, the proposed preprocessing system perceiveably reduces the computing power requirements. On the other hand, the difference between the quality of the clusters is not noticeable. The sixth chapter concludes the dissertation with a summary of the scientific contributions and presents some future directions of research and some recommendations for the researchers.

Benzer Tezler

  1. Çok boyutlu ölçekleme yöntemlerinin incelenemesi ve bir uygulama

    Investigating of multidimensional analysis methods an application

    ESRA YİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    İstatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    Y.DOÇ.DR. YÜKSEL ÖNER

  2. Çoklu faktör analizi ve uygulaması

    Multiple factor analysis and application

    İSMAİL GENEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyoistatistikVan Yüzüncü Yıl Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. SIDDIK KESKİN

  3. A Very low bit rate video coder decoder

    Çok düşük veri hızlarında video kodlayıcı çözücü

    HAKKI TUNÇ BOSTANCI

  4. Localisation in 3-dimensional music production: Pannerbank application as a solution for positioning of multiple sources and extended panning aesthetics

    3 boyutlu müzik prodüksiyonunda lokalizasyon: Çoklu kaynakların pozisyonlanması ve ileri panlama estetiği için çözüm olarak Pannerbank uygulaması

    OĞUZ ÖZ

    Doktora

    İngilizce

    İngilizce

    2024

    Müzikİstanbul Teknik Üniversitesi

    Müzik Ana Bilim Dalı

    PROF. DR. CAN KARADOĞAN

  5. Tümevarım öğrenme tekniklerinden C4.5'in incelenmesi

    Research on C4.5 as of the inductive learning techniques

    SAVAŞ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAKİR KOCABAŞ