Veri madenciliğinde yüksek boyutlu veriler ile uygulama

Application of high dimensional data in data mining

PDF İndir

Tez No: 275964
Yazar: KAZIM YILDIZ
Danışmanlar: PROF. DR. A. YILMAZ ÇAMURCU, YRD. DOÇ. DR. BUKET DOĞAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2010
Dil: Türkçe
Üniversite: Marmara Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 95

Özet

Veri madenciliğinde önemli tekniklerden biri kümeleme analizidir. Kümeleme analizinde, veri içerisindeki grupların önceden hiçbir bilgi olmadan bulunması amaçlanır. Kümeleme analizinde çeşitli yöntemler ve bu yöntemlere bağlı çeşitli algoritmalar bulunmaktadır.Bu tezin amacı, yüksek boyutlu veri kaynaklarının yapısını ve karşılaşılan yüksek boyutluluk problemini incelemek, yüksek boyutlu verilerde boyut indirgeme tekniklerini kullanmak ve boyutu indirgenmiş veriler ile kümeleme yapmaktır.Boyut indirgeme yapılmadan ve boyut indirgenerek K-Means, K-Medoids ve Fuzzy C-Means algoritmaları ile Iris, Diabet, Vehicle, Abalone, Milliyet, BBC yüksek boyutlu veri setleri üzerinde çeşitli testler yapıldı ve algoritmaların performansları saflık, entropi ve ortak bilgi açısından karşılaştırıldı.Boyut indirgeme tekniklerinden PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE ve LLC kullanılan işlemci, kullanılan bellek, geçen zaman açısından çeşitli veri setlerinde incelenerek karşılaştırıldı. Bu teknikler ile Boyutu indirgenen veriler K-Means, K-Medoids ve Fuzzy C-Means algoritmaları kullanılarak kümeleme yapılmıştır. Kümeleme algoritmalarının deneysel sonuçları açıklanmaktadır.Elde edilen deneysel sonuçlarda boyut indirgeme algoritmaları içerisinde en etkili olanlar Laplacian, FastMVU, ve t-SNE algoritmaları olduğu gözlenmiştir. Boyutu indirgenen veri setlerinde en etkili çalışan kümeleme algoritması FCM olduğu belirlenmiştir. Ayrıca veri setlerinin boyutu indirgendiğinde küme saflığı ve ortak bilgileri artmaktadır.

Özet (Çeviri)

Clustering analysis is one of the important technique in data mining. In the clustering analysis, unknown data groups are discovered. There are number of techniques and algorithms in cluster analysis.The aim of this thesis is to investigate the structure of high dimensional data resources and the problems about this issue, to use dimensional reduction techniques in high dimensional data and to cluster these data.Some kinds of tests have been made on the high dimensional data sets such as Iris, Diabet, Vehicle, Abalone, Milliyet, BBC with the help of algorithms as follows; K-Means, K-Medoids and Fuzzy C-Means with and without dimensional reduction process. Then, the performances of algorithms have been compared in terms of purity, entropi and common data.The dimensional reduction techniques such as PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE and LLC were investigated on some data sets and then compared in terms of processor, using memory and time. After the dimensional reduction process these datas were clustered by using K-Means, K-Medoids and Fuzzy C-Means algorithms. The experimental results of clustering algorithms have been told.From the experimental results, it was observed that, the most efficient algorithms among the dimensional reduction algorithms are Laplacian, FastMVU and t-SNE algorithms. Among the data sets that its? dimension reduced it was determined that the most efficient working clustering algorithm is FCM algorithm. In addition when the data sets dimension is reduced, its? purity and common data are increases.

Benzer Tezler

Tez No
185009
Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları
Data mining applications using partitional clustering methods
MELTEM IŞIK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ÖZGÜL VAYVAY
Tez No
126982
Veri madenciliği ve demetleme
Data mining and clustering
AHMET CÜNEYD TANTUĞ
Yüksek Lisans
Türkçe
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
421285
Diagnosis of thyroid disease via support vector machines
Destek vektör makineleri ile tiroid hastalıkları tanısı
NURİ KORHAN
Yüksek Lisans
İngilizce
2015
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLAY ÖKE GÜNEL
Tez No
358990
New approach to unsupervısed based classıfıcatıon on mıcroarray data
Mi̇krodi̇zi̇li̇m veri̇lerden danışmansız öğrenmeye dayalı sınıflamada yeni̇ yaklaşım
ERDAL COŞGUN
Doktora
İngilizce
2013
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERGUN KARAAĞAOĞLU
Tez No
856604
Web portallarında kullanıcı davranışlarının yerinde tespiti ve web madenciliğinde kullanımı için yenilikçi bir yaklaşım
An innovative approach for on-premises detection of user behaviors on web portals and its use in web mining
ÖZKAN CANAY
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. ÜMİT KOCABIÇAK

Geri Dön