Analysis and applications of data mining algorithms

Veri madenciliği algoritmalarının analizi ve uygulanması

PDF İndir

Tez No: 271177
Yazar: NESLİHAN DOĞAN
Danışmanlar: DOÇ. DR. ZUHAL TANRIKULU
Tez Türü: Yüksek Lisans
Konular: İşletme, Business Administration
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2010
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Sosyal Bilimler Enstitüsü
Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Sınıflandırma algoritmaları büyük veri setlerinden kıymetli bilginin elde edilmesi amacıyla kullanılan Veri Madenciliği modellerinden en yaygınıdır. Yıllardır, sınıflandırma algoritmalarının birbirleriyle karşılaştırılması veri madenciliği toplumunun ilgisini çekmektedir. Genel olarak modelleri karşılaştırma kriterleri modelin doğruluğu, karmaşıklığı, sağlamlığı, ölçeklenebilirliği, entegrasyonu, anlaşılabilirliği, istikrarlılığı ve ilgi çekiciliğidir. Bu çalışma sınıflandırma modellerinin doğruluk, zorluk ve sağlamlık özellikleriyle ilgilenmektedir. Veri madencisi genellikle modelini seçerken sınıflandırma doğruluk oranına göre karar verir, dolayısıyla her modelin doğruluğu önemli rol oynar. Bu çalışmada zorluk ile modelin harcadığı işlemci zamanı kastedilmektedir. Çalışma bazı sınıflandırma algoritmalarının çoklu veri setleri üzerinde 3 aşamalı deney sonuçlarını sunmaktadır: 1. Algoritmaların ham veri setleri üzerinde uygulanması, 2. Aynı algoritmaların veri setlerindeki sürekli sayıların münferit aralıklara dönüştürülmesinden sonra tekrar edilmesi, 3.Aynı algoritmaların veri setlerinde Ana Bileşenler Çözümlemesi yapılmasından sonra tekrar edilmesidir. Ortaya çıkan sonuçlara göre algoritmaların farklı deney aşamalarındaki doğruluk ve karmaşıklık dereceleri karşılaştırılmıştır. Ayrıca veri setlerinin karakteristikleri, ya da uygulama detayları ile doğruluk ya da zorluk arasındaki ilişkiler de incelenmiş ve son olarak da veri seti ve uygulama özellikleri ışığında bir sınıflandıma algoritmasının doğruluk ve karmaşıklık derecesini tahmin edebilecek bir regresyon modeli kurulmaya çalışılmıştır. Son olarak tez çalışması temizlenmiş ve temizlenmemiş veri setleri üzerinde tekrarlı deneylerle ölçülebilen sınıflayıcıların sağlamlığı kriteriyle de ilgilenmiştir.

Özet (Çeviri)

Classification algorithms are the most commonly used Data Mining models that are widely used to extract valuable knowledge from hu ge amounts of data. Comparing the classification algorithms has been interesting the data mining community for many years. The criteria to evaluate the classifiers are mostly the accuracy, complexity, robustness, scalability, integration, comprehensibility, stability and interestingness abilities of it. This thesis study is concerned with the accuracy, complexity and robustness of the classifiers. The data miner selects the model mostly with respect to its classification accuracy; therefore, the performance of each classifier plays a very crucial role. As complexity, the cpu time consumed by each classifier is implied in the study. The study firstly discusses the application of some classification models on multiple datasets in 3 stages: firstly implementing the algorithms on pure datasets, secondly implementing the algorithms on the same datasets where continuous numerical variables are discretised, thirdly implementing the algorithms on the same datasets where Principal Component Analysis is applied. On the results, the accuracies and complexities are compared. The relationship of dataset characteristics and implementation attributes between accuracy and complexity is also debated, and finally, a regression model is introduced for predicting the classifier accuracy and complexity with given dataset and implementation conditions. Finally, the study is also concerned with the robustness of the classifiers which is measured by repetitive experiments on noisy and cleaned datasets.

Benzer Tezler

Tez No
394495
K-means ile DBSCAN algoritması'nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması
Parallelization of K-means and DBSCAN algorithms and use on analysis of big data on Hadoop and performance and competence comparison
FURKAN KAYIM
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Beykent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN SİLAHTAROĞLU
Tez No
439597
A knowledge discovery approach to urban analysis the Beyoğlu preservation area as a data mine
Kent analizinde bir bilgi keşfi yaklaşımı bir veri madeni olarak Beyoğlu kentsel koruma alanı
AHU SÖKMENOĞLU SOHTORİK
Doktora
İngilizce
2016
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. GÜLEN ÇAĞDAŞ
PROF. DR. İKBAL SEVİL SARIYILDIZ
Tez No
216012
EEG sinyallerindeki epileptiform aktivitenin veri madenciliği süreci ile tespiti
The detection of an epileptiform activity on EEG signals by using data mining process
MEHMET ALBAYRAK
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Elektrik ve Elektronik Mühendisliği Bölümü
PROF. DR. ETEM KÖKLÜKAYA
Tez No
343799
Veri madenciliği ile yazılım mühendisliği dersi projelerinin iyileştirilmesi
Improvement of software engineering studies projects with data mining
PINAR CİHAN
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OYA KALIPSIZ
Tez No
647337
Araştırma projelerinde kümeleme ile çoklu analiz
Multiple analysis with research in research projects
GÜLİZAR PAT
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. ÜMİT KOCABIÇAK

Geri Dön