Veri madenciliğinde yüksek boyutlu veriler ile uygulama
Application of high dimensional data in data mining
- Tez No: 275964
- Danışmanlar: PROF. DR. A. YILMAZ ÇAMURCU, YRD. DOÇ. DR. BUKET DOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 95
Özet
Veri madenciliğinde önemli tekniklerden biri kümeleme analizidir. Kümeleme analizinde, veri içerisindeki grupların önceden hiçbir bilgi olmadan bulunması amaçlanır. Kümeleme analizinde çeşitli yöntemler ve bu yöntemlere bağlı çeşitli algoritmalar bulunmaktadır.Bu tezin amacı, yüksek boyutlu veri kaynaklarının yapısını ve karşılaşılan yüksek boyutluluk problemini incelemek, yüksek boyutlu verilerde boyut indirgeme tekniklerini kullanmak ve boyutu indirgenmiş veriler ile kümeleme yapmaktır.Boyut indirgeme yapılmadan ve boyut indirgenerek K-Means, K-Medoids ve Fuzzy C-Means algoritmaları ile Iris, Diabet, Vehicle, Abalone, Milliyet, BBC yüksek boyutlu veri setleri üzerinde çeşitli testler yapıldı ve algoritmaların performansları saflık, entropi ve ortak bilgi açısından karşılaştırıldı.Boyut indirgeme tekniklerinden PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE ve LLC kullanılan işlemci, kullanılan bellek, geçen zaman açısından çeşitli veri setlerinde incelenerek karşılaştırıldı. Bu teknikler ile Boyutu indirgenen veriler K-Means, K-Medoids ve Fuzzy C-Means algoritmaları kullanılarak kümeleme yapılmıştır. Kümeleme algoritmalarının deneysel sonuçları açıklanmaktadır.Elde edilen deneysel sonuçlarda boyut indirgeme algoritmaları içerisinde en etkili olanlar Laplacian, FastMVU, ve t-SNE algoritmaları olduğu gözlenmiştir. Boyutu indirgenen veri setlerinde en etkili çalışan kümeleme algoritması FCM olduğu belirlenmiştir. Ayrıca veri setlerinin boyutu indirgendiğinde küme saflığı ve ortak bilgileri artmaktadır.
Özet (Çeviri)
Clustering analysis is one of the important technique in data mining. In the clustering analysis, unknown data groups are discovered. There are number of techniques and algorithms in cluster analysis.The aim of this thesis is to investigate the structure of high dimensional data resources and the problems about this issue, to use dimensional reduction techniques in high dimensional data and to cluster these data.Some kinds of tests have been made on the high dimensional data sets such as Iris, Diabet, Vehicle, Abalone, Milliyet, BBC with the help of algorithms as follows; K-Means, K-Medoids and Fuzzy C-Means with and without dimensional reduction process. Then, the performances of algorithms have been compared in terms of purity, entropi and common data.The dimensional reduction techniques such as PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE and LLC were investigated on some data sets and then compared in terms of processor, using memory and time. After the dimensional reduction process these datas were clustered by using K-Means, K-Medoids and Fuzzy C-Means algorithms. The experimental results of clustering algorithms have been told.From the experimental results, it was observed that, the most efficient algorithms among the dimensional reduction algorithms are Laplacian, FastMVU and t-SNE algorithms. Among the data sets that its? dimension reduced it was determined that the most efficient working clustering algorithm is FCM algorithm. In addition when the data sets dimension is reduced, its? purity and common data are increases.
Benzer Tezler
- Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları
Data mining applications using partitional clustering methods
MELTEM IŞIK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektronik ve Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ÖZGÜL VAYVAY
- Veri madenciliği ve demetleme
Data mining and clustering
AHMET CÜNEYD TANTUĞ
Yüksek Lisans
Türkçe
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Diagnosis of thyroid disease via support vector machines
Destek vektör makineleri ile tiroid hastalıkları tanısı
NURİ KORHAN
Yüksek Lisans
İngilizce
2015
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLAY ÖKE GÜNEL
- New approach to unsupervısed based classıfıcatıon on mıcroarray data
Mi̇krodi̇zi̇li̇m veri̇lerden danışmansız öğrenmeye dayalı sınıflamada yeni̇ yaklaşım
ERDAL COŞGUN
Doktora
İngilizce
2013
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. ERGUN KARAAĞAOĞLU
- Web portallarında kullanıcı davranışlarının yerinde tespiti ve web madenciliğinde kullanımı için yenilikçi bir yaklaşım
An innovative approach for on-premises detection of user behaviors on web portals and its use in web mining
ÖZKAN CANAY
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. ÜMİT KOCABIÇAK