Geri Dön

Veri madenciliğinde yüksek boyutlu veriler ile uygulama

Application of high dimensional data in data mining

  1. Tez No: 275964
  2. Yazar: KAZIM YILDIZ
  3. Danışmanlar: PROF. DR. A. YILMAZ ÇAMURCU, YRD. DOÇ. DR. BUKET DOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: Türkçe
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 95

Özet

Veri madenciliğinde önemli tekniklerden biri kümeleme analizidir. Kümeleme analizinde, veri içerisindeki grupların önceden hiçbir bilgi olmadan bulunması amaçlanır. Kümeleme analizinde çeşitli yöntemler ve bu yöntemlere bağlı çeşitli algoritmalar bulunmaktadır.Bu tezin amacı, yüksek boyutlu veri kaynaklarının yapısını ve karşılaşılan yüksek boyutluluk problemini incelemek, yüksek boyutlu verilerde boyut indirgeme tekniklerini kullanmak ve boyutu indirgenmiş veriler ile kümeleme yapmaktır.Boyut indirgeme yapılmadan ve boyut indirgenerek K-Means, K-Medoids ve Fuzzy C-Means algoritmaları ile Iris, Diabet, Vehicle, Abalone, Milliyet, BBC yüksek boyutlu veri setleri üzerinde çeşitli testler yapıldı ve algoritmaların performansları saflık, entropi ve ortak bilgi açısından karşılaştırıldı.Boyut indirgeme tekniklerinden PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE ve LLC kullanılan işlemci, kullanılan bellek, geçen zaman açısından çeşitli veri setlerinde incelenerek karşılaştırıldı. Bu teknikler ile Boyutu indirgenen veriler K-Means, K-Medoids ve Fuzzy C-Means algoritmaları kullanılarak kümeleme yapılmıştır. Kümeleme algoritmalarının deneysel sonuçları açıklanmaktadır.Elde edilen deneysel sonuçlarda boyut indirgeme algoritmaları içerisinde en etkili olanlar Laplacian, FastMVU, ve t-SNE algoritmaları olduğu gözlenmiştir. Boyutu indirgenen veri setlerinde en etkili çalışan kümeleme algoritması FCM olduğu belirlenmiştir. Ayrıca veri setlerinin boyutu indirgendiğinde küme saflığı ve ortak bilgileri artmaktadır.

Özet (Çeviri)

Clustering analysis is one of the important technique in data mining. In the clustering analysis, unknown data groups are discovered. There are number of techniques and algorithms in cluster analysis.The aim of this thesis is to investigate the structure of high dimensional data resources and the problems about this issue, to use dimensional reduction techniques in high dimensional data and to cluster these data.Some kinds of tests have been made on the high dimensional data sets such as Iris, Diabet, Vehicle, Abalone, Milliyet, BBC with the help of algorithms as follows; K-Means, K-Medoids and Fuzzy C-Means with and without dimensional reduction process. Then, the performances of algorithms have been compared in terms of purity, entropi and common data.The dimensional reduction techniques such as PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE and LLC were investigated on some data sets and then compared in terms of processor, using memory and time. After the dimensional reduction process these datas were clustered by using K-Means, K-Medoids and Fuzzy C-Means algorithms. The experimental results of clustering algorithms have been told.From the experimental results, it was observed that, the most efficient algorithms among the dimensional reduction algorithms are Laplacian, FastMVU and t-SNE algorithms. Among the data sets that its? dimension reduced it was determined that the most efficient working clustering algorithm is FCM algorithm. In addition when the data sets dimension is reduced, its? purity and common data are increases.

Benzer Tezler

  1. Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları

    Data mining applications using partitional clustering methods

    MELTEM IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ÖZGÜL VAYVAY

  2. Veri madenciliği ve demetleme

    Data mining and clustering

    AHMET CÜNEYD TANTUĞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  3. Diagnosis of thyroid disease via support vector machines

    Destek vektör makineleri ile tiroid hastalıkları tanısı

    NURİ KORHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLAY ÖKE GÜNEL

  4. New approach to unsupervısed based classıfıcatıon on mıcroarray data

    Mi̇krodi̇zi̇li̇m veri̇lerden danışmansız öğrenmeye dayalı sınıflamada yeni̇ yaklaşım

    ERDAL COŞGUN

    Doktora

    İngilizce

    İngilizce

    2013

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERGUN KARAAĞAOĞLU

  5. Web portallarında kullanıcı davranışlarının yerinde tespiti ve web madenciliğinde kullanımı için yenilikçi bir yaklaşım

    An innovative approach for on-premises detection of user behaviors on web portals and its use in web mining

    ÖZKAN CANAY

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. ÜMİT KOCABIÇAK