Geri Dön

Veri madenciliğinde kümeleme analizi yöntemi uygulaması

A Cluster analysis application on data mining

  1. Tez No: 136090
  2. Yazar: TURGAY TUGAY BİLGİN
  3. Danışmanlar: DOÇ. DR. YILMAZ ÇAMURCU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2003
  8. Dil: Türkçe
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Kontrol Eğitimi Bilim Dalı
  13. Sayfa Sayısı: 136

Özet

ÖZET veri madenciliğinde kümeleme analizi yöntemi uygulaması Veri Madenciliği, büyük veri yığınlarından anlamlı bilgiler elde etme işlemidir. Kendiliğinden oluşan kümelenmeler, örüntüler, birliktelikler ve istisnalar veritabanlarmdaki bilgi kaynaklandır. Veri madenciliği yöntem ve teknikleri bu kaynaklan analiz ederek taşıdıklan bilgiyi keşfetmeye çalışırlar. Bu çalışmada, veri madenciliğinde yeni geliştirilen yöntem ve teknikler incelenmiş ve içlerinden seçilen bir tekniği temsil eden algoritmalan kullanan uygulama yazahmlan oluşturularak deneysel amaçlı sentetik veritabanına uygulanmıştır. Seçilen tekniği temsil eden algoritmalardan biri gerçek hayatta kullanılan ve Türkiye'nin sıcaklık verilerini içeren Meteorolojik veritabanına uygulanarak Türkiye üzerinde benzer sıcaklık rejimine sahip bölgeler tespit edilmeye çalışılmıştır. Tez çalışması, dünyada her geçen gün daha çok önem kazanan veri madenciliğinde yaşanan son gelişmelerin incelendiği ve yakın gelecekte kullamlması beklenen teknolojilerin açıklandığı bir kaynak olacaktır. Aynca bu tez çalışmasının, kullanım alanlan hızla artan veri madenciliği yöntem ve teknMerinin Meteoroloji bilimine sağlayacağı olası katkılar konusunda yol gösterici olması amaçlanmıştır. Tezin ikinci bölümünde veri madenciliğine giriş yapılarak genel tanımlar, veri madenciliğinin uygulama alanlan ve veri madenciliğinde bilgi keşfi kavramı ve aşamalan açıklanmış, veri madenciliği tekniklerine genel hatlanyla değinilmiştir. Üçüncü bölümde veri madenciliği tekniklerinden kümeleme analizi detaylı olarak incelenmiştir. Bu bölümde kümeleme analizinin tanımı, kümeleme analizindekullanılan veri türleri ve kümeleme analizi teknikleri açıklanarak her bir kümeleme tekniğini kullanan algoritmaların teorik yapısı ve çalışma şekli hakkında bilgiler verilmiştir. Dördüncü bölümde, kümeleme tekniklerinden yoğunluk tabanlı metotları temsil eden DBSCAN, OPTICS ile bölümlemeli metotları temsil eden K-means algoritması yapay olarak üretilmiş sentetik veritabanına uygulanarak elde edilen sonuçlar karşılaştınlmıştır. Bölüm sonunda da her algoritma ile elde edilen sonuçlar karşılaştırılarak yeni geliştirilen metotların geleneksel metotlardan farkları ve üstünlükleri açıklanmıştır. Beşinci bölümde, yoğunluk tabanlı metotları temsilen seçilen DBSCAN algoritması gerçek hayatta kullanılan bir veritabanına uygulanarak algoritmanın gerçek veritabanlarmda gösterdiği davranışlar ve performansı incelenmiştir. Uygulama için seçilen meteoroloji veritabammn yapısı ve bu veritabanından elde edilen sonuçlar da bu bölümde verilmiştir. Tez konusu yoğunluk tabanlı kümeleme metodlarmı kullanan algoritmalar veri madenciliğinin henüz yeni sayılabilecek ve gelişmekte olan alanlarındandır. Gelecekte, verinin içeriği kadar konumunu da dikkate alan bu algoritmalar istatistik yöntemlerin verimli olmadığı uzaysal verilerin analizinde çok daha fazla kullamlacaklardır. Bilindiği gibi Türkiye coğrafi bölgelere ayrılmıştır. Bu bölgelerin oluşturulmasmda iklim özelliklerinden çok ülkenin siyasi haritası dikkate alınmıştır. Bu çalışma, veri madenciliği yöntemlerinden yoğunluk tabanlı kümeleme metodlanmn Meteoroloji verilerine uygulanarak Türkiye'de benzer sıcaklık bölgelerinin belirlenmesi için yeni bir yaklaşım sağlayacaktır. Tez çalışmasında elde edilen sonuçlardan Türkiye'nin iklimsel bölgelere ayrılması çalışmalarında yararlanılabilir. Haziran 2003 Turgay Tugay BİLGİN VI

Özet (Çeviri)

ABSTRACT A CLUSTER ANALYSIS APPLICATION ON DATA MINING Data mining is extracting knowledge from large amounts of data. All of natural clusterings, patterns, communities and outliers are knowledge resources. Data mining technique and methods try to discover the knowledge by analyzing these resources. In this thesis, new techniques and methods on data mining are investigated and one of these methods are chosen and application softwares developed based on the chosen method. All algorithms of the chosen method are applied to a synthetic database. One of these algorithms is applied to a Meteorological database which contains temperature data of Turkey. Clustering results of Meteorological data is used to determine the regions in Turkey which have similar temperature regime. Data mining is one of the most important and p opular subjects in computer sciences. Since this study contains information about new research, areas and improvements on data mining, it will be a reference for further researches. Furthermore, this study will be guide for the researchers who want to use data mining techniques and methods on Meteorology science. Part two provides an introduction to data mining and knowledge discovery in databases. General definitions, application areas of data mining and data mining techniques are briefly described. Part three presents detailed information on cluster analysis which is one of the methods of data mining. Definition of cluster analysis, data types used on cluster analysis and cluster analysis techniques are described. Theoretical background of all clustering algorithms and techniques are explained in this chapter. vnIn Part four DBSCAN, OPTICS as representatives of density based clustering methods and K-means as representative of partitioning methods are all applied to the synthetic database and results are compared. At the end of the part four, traditional methods and new methods are compared. Differences and superiorities of all methods are explained. In part five, DBSCAN as representative of density based methods is applied to a real world database. Meteorological database is chosen for real world data. Behavior and performance of DBSCAN on real world data is observed. Design and architecture of database and results of DBSCAN application is described in this chapter. Density based clustering algorithms which is main subject of the thesis is new and developing branch of data mining. Density based clustering algorithms not only take into consideration the value of the data but also position of it. In future, algorithms of density based methods will be widely used on spatial databases where statistical methods not yield good results. Turkey is divided into geographical regions as known. During drawing regions, the political map of the Turkey is taken into consideration rather than climatic characteristics. This study will provide a new approach that^uses density based clustering methods in data mining to determine the regions which have similar temperature regime. The results of the study could be used to divide Turkey into regions according to climatic characteristics. June 2003 Turgay Tugay BİLGİN vm

Benzer Tezler

  1. Veri madenciliğinde kümeleme analizi ve sağlık sektöründe bir uygulaması

    Clustering analysis in data mining and an application in health sector

    SELİM ÇAM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    İstatistikCumhuriyet Üniversitesi

    Sayısal Yöntemler Ana Bilim Dalı

    DOÇ. DR. HÜDAVERDİ BİRCAN

  2. Kümeleme analizi kullanılarak benzin istasyonlarının operasyonel değerlendirilmesi

    Operational evaluations of gas stations using cluster analysis

    HALİL ÇAĞDAŞ DARAKÇI

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ŞENOL ZAFER ERDOĞAN

  3. Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları

    Data mining applications using partitional clustering methods

    MELTEM IŞIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ÖZGÜL VAYVAY

  4. Estimation of heart disease based on data mining using patients health database

    Hasta sağlığı veri tabanı kullanarak veri madenciliğine dayalı kalp hastalığı tahmini

    AZHAR HATEM JEBUR AL BAIDHANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Ana Bilim Dalı

    Assist. Prof. YASA EKŞİOĞLU ÖZOK

  5. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN