Veri madenciliğinde kümeleme analizi yöntemi uygulaması
A Cluster analysis application on data mining
- Tez No: 136090
- Danışmanlar: DOÇ. DR. YILMAZ ÇAMURCU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2003
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Kontrol Eğitimi Bilim Dalı
- Sayfa Sayısı: 136
Özet
ÖZET veri madenciliğinde kümeleme analizi yöntemi uygulaması Veri Madenciliği, büyük veri yığınlarından anlamlı bilgiler elde etme işlemidir. Kendiliğinden oluşan kümelenmeler, örüntüler, birliktelikler ve istisnalar veritabanlarmdaki bilgi kaynaklandır. Veri madenciliği yöntem ve teknikleri bu kaynaklan analiz ederek taşıdıklan bilgiyi keşfetmeye çalışırlar. Bu çalışmada, veri madenciliğinde yeni geliştirilen yöntem ve teknikler incelenmiş ve içlerinden seçilen bir tekniği temsil eden algoritmalan kullanan uygulama yazahmlan oluşturularak deneysel amaçlı sentetik veritabanına uygulanmıştır. Seçilen tekniği temsil eden algoritmalardan biri gerçek hayatta kullanılan ve Türkiye'nin sıcaklık verilerini içeren Meteorolojik veritabanına uygulanarak Türkiye üzerinde benzer sıcaklık rejimine sahip bölgeler tespit edilmeye çalışılmıştır. Tez çalışması, dünyada her geçen gün daha çok önem kazanan veri madenciliğinde yaşanan son gelişmelerin incelendiği ve yakın gelecekte kullamlması beklenen teknolojilerin açıklandığı bir kaynak olacaktır. Aynca bu tez çalışmasının, kullanım alanlan hızla artan veri madenciliği yöntem ve teknMerinin Meteoroloji bilimine sağlayacağı olası katkılar konusunda yol gösterici olması amaçlanmıştır. Tezin ikinci bölümünde veri madenciliğine giriş yapılarak genel tanımlar, veri madenciliğinin uygulama alanlan ve veri madenciliğinde bilgi keşfi kavramı ve aşamalan açıklanmış, veri madenciliği tekniklerine genel hatlanyla değinilmiştir. Üçüncü bölümde veri madenciliği tekniklerinden kümeleme analizi detaylı olarak incelenmiştir. Bu bölümde kümeleme analizinin tanımı, kümeleme analizindekullanılan veri türleri ve kümeleme analizi teknikleri açıklanarak her bir kümeleme tekniğini kullanan algoritmaların teorik yapısı ve çalışma şekli hakkında bilgiler verilmiştir. Dördüncü bölümde, kümeleme tekniklerinden yoğunluk tabanlı metotları temsil eden DBSCAN, OPTICS ile bölümlemeli metotları temsil eden K-means algoritması yapay olarak üretilmiş sentetik veritabanına uygulanarak elde edilen sonuçlar karşılaştınlmıştır. Bölüm sonunda da her algoritma ile elde edilen sonuçlar karşılaştırılarak yeni geliştirilen metotların geleneksel metotlardan farkları ve üstünlükleri açıklanmıştır. Beşinci bölümde, yoğunluk tabanlı metotları temsilen seçilen DBSCAN algoritması gerçek hayatta kullanılan bir veritabanına uygulanarak algoritmanın gerçek veritabanlarmda gösterdiği davranışlar ve performansı incelenmiştir. Uygulama için seçilen meteoroloji veritabammn yapısı ve bu veritabanından elde edilen sonuçlar da bu bölümde verilmiştir. Tez konusu yoğunluk tabanlı kümeleme metodlarmı kullanan algoritmalar veri madenciliğinin henüz yeni sayılabilecek ve gelişmekte olan alanlarındandır. Gelecekte, verinin içeriği kadar konumunu da dikkate alan bu algoritmalar istatistik yöntemlerin verimli olmadığı uzaysal verilerin analizinde çok daha fazla kullamlacaklardır. Bilindiği gibi Türkiye coğrafi bölgelere ayrılmıştır. Bu bölgelerin oluşturulmasmda iklim özelliklerinden çok ülkenin siyasi haritası dikkate alınmıştır. Bu çalışma, veri madenciliği yöntemlerinden yoğunluk tabanlı kümeleme metodlanmn Meteoroloji verilerine uygulanarak Türkiye'de benzer sıcaklık bölgelerinin belirlenmesi için yeni bir yaklaşım sağlayacaktır. Tez çalışmasında elde edilen sonuçlardan Türkiye'nin iklimsel bölgelere ayrılması çalışmalarında yararlanılabilir. Haziran 2003 Turgay Tugay BİLGİN VI
Özet (Çeviri)
ABSTRACT A CLUSTER ANALYSIS APPLICATION ON DATA MINING Data mining is extracting knowledge from large amounts of data. All of natural clusterings, patterns, communities and outliers are knowledge resources. Data mining technique and methods try to discover the knowledge by analyzing these resources. In this thesis, new techniques and methods on data mining are investigated and one of these methods are chosen and application softwares developed based on the chosen method. All algorithms of the chosen method are applied to a synthetic database. One of these algorithms is applied to a Meteorological database which contains temperature data of Turkey. Clustering results of Meteorological data is used to determine the regions in Turkey which have similar temperature regime. Data mining is one of the most important and p opular subjects in computer sciences. Since this study contains information about new research, areas and improvements on data mining, it will be a reference for further researches. Furthermore, this study will be guide for the researchers who want to use data mining techniques and methods on Meteorology science. Part two provides an introduction to data mining and knowledge discovery in databases. General definitions, application areas of data mining and data mining techniques are briefly described. Part three presents detailed information on cluster analysis which is one of the methods of data mining. Definition of cluster analysis, data types used on cluster analysis and cluster analysis techniques are described. Theoretical background of all clustering algorithms and techniques are explained in this chapter. vnIn Part four DBSCAN, OPTICS as representatives of density based clustering methods and K-means as representative of partitioning methods are all applied to the synthetic database and results are compared. At the end of the part four, traditional methods and new methods are compared. Differences and superiorities of all methods are explained. In part five, DBSCAN as representative of density based methods is applied to a real world database. Meteorological database is chosen for real world data. Behavior and performance of DBSCAN on real world data is observed. Design and architecture of database and results of DBSCAN application is described in this chapter. Density based clustering algorithms which is main subject of the thesis is new and developing branch of data mining. Density based clustering algorithms not only take into consideration the value of the data but also position of it. In future, algorithms of density based methods will be widely used on spatial databases where statistical methods not yield good results. Turkey is divided into geographical regions as known. During drawing regions, the political map of the Turkey is taken into consideration rather than climatic characteristics. This study will provide a new approach that^uses density based clustering methods in data mining to determine the regions which have similar temperature regime. The results of the study could be used to divide Turkey into regions according to climatic characteristics. June 2003 Turgay Tugay BİLGİN vm
Benzer Tezler
- Veri madenciliğinde kümeleme analizi ve sağlık sektöründe bir uygulaması
Clustering analysis in data mining and an application in health sector
SELİM ÇAM
Yüksek Lisans
Türkçe
2014
İstatistikCumhuriyet ÜniversitesiSayısal Yöntemler Ana Bilim Dalı
DOÇ. DR. HÜDAVERDİ BİRCAN
- Kümeleme analizi kullanılarak benzin istasyonlarının operasyonel değerlendirilmesi
Operational evaluations of gas stations using cluster analysis
HALİL ÇAĞDAŞ DARAKÇI
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ŞENOL ZAFER ERDOĞAN
- Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları
Data mining applications using partitional clustering methods
MELTEM IŞIK
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektronik ve Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ÖZGÜL VAYVAY
- Estimation of heart disease based on data mining using patients health database
Hasta sağlığı veri tabanı kullanarak veri madenciliğine dayalı kalp hastalığı tahmini
AZHAR HATEM JEBUR AL BAIDHANI
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Ana Bilim Dalı
Assist. Prof. YASA EKŞİOĞLU ÖZOK
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN