Veri madenciliği ve demetleme
Data mining and clustering
- Tez No: 126982
- Danışmanlar: PROF. DR. EŞREF ADALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2002
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
veri madenciliği ve demetleme ÖZET Günümüzün hızla gelişen iş dünyası içerisinde her gün değeri artan, yöneticilerin ileriye dönük olarak doğru kararlar almasında ışık tutan karar destek sistemlerinden birisi olan veri ambarı ve veri madenciliği kavramlarının ayrıntılı olarak ele alındığı bu tez çalışmasında ayrıca uygulama anlamında ortaya çıkan sorunlar da mercek altına alınmış ve teknik anlamda birtakım iyileştirmeler önerilmiştir. Günlük işleri yerine getiren canlı sistemlerde biriken bilgilerin arka planda belirli bir mantık içerisinde istif edildiği sistemlere veri ambarı adı verilmektedir. Canlı sistemlerden periyodik olarak bilgiler belirli bir şablonda toplanmakta ve veri ambarı içerisinde belirli bir anlam bütünlüğü içerisinde yığılmaktadırlar. Bu sebepten dolayı güncel olmayan veriler içeren veri ambarı içindeki bilgiler kullanılarak çeşitli araştırmalar ve incelemeler yapılır. Istatiksel raporlar oluşturulması, çok boyutlu analizler, veri madenciliği bu işlemlerden sadece birkaç tanesidir. Veri ambarı üzerinde gerçekleştirilen veri madenciliği işleminde amaç verinin iç yapısındaki ilişkileri ortaya çıkarmak, kümelenmeleri ve bu kümelerin yapıları bulmak, varolan verilerden yola çıkarak çeşitli öngörülerde bulunmak, kısaca verinin iç yapısını çözmektir. Veri madenciliğinin çeşitli yöntemleri bulunmaktadır. Bunlar sepet analizi, sınıflandırma, demetleme, ilişkisel analiz, yapay sinir ağlan, karar ağaçları, OLAP ve benzeri araçlardır. Bu yöntemlerin hiçbiri, her veri madenciliği işleminde tek başına yeterli değildir, çoğu kez birlikte kullanılması gereklidir. Demetleme işlemi sadece veri madenciliğinde kullanılmamaktadır. Görüntü işleme, imge tanıma, sıkıştırma, pazarlama ve daha birçok değişik kolda da uygulama alanı bulmuştur. Demetleme en genel olarak büyük ölçekli heterojen yapıya sahip verileri homojen demetlere ayırma işlemidir. Sonuçta demet içi benzerlik yüksek, demetler arası benzerlik de düşük olmalıdır. Demetleme yöntemini gerçeklemek için birçok algoritma bulunmaktadır. Bunlardan en yaygın kullanılanlarından bir tanesi hiyerarşik demetlemedir. Bu yapıda her veri bir demet olarak kabul edilerek işe başlanır ve her adımda birbirine en yakın demetler birleştirilerek, istenilen sayıda ya da tek bir büyük demet elde edilinceye vıııf kadar devam edilir. Bir diğer sık kullanılan demetleme yöntemi olan bölmelemeli yöntemlerden K-Means yönteminde ise öncelikle K adet merkez rastgele olarak belirlenir daha sonra da her bir verinin bu k adet merkeze uzaklığı hesap edilerek en yakın olduğu merkeze atanır. Bu şekilde her bir veri bir merkeze atandıktan sonra ikinci adıma geçmek üzere bir merkeze yani bir demete dahil tüm verilerin ortalaması alınarak yeni demet merkezi hesap edilir. Algoritma bu şekilde bir kaç adım devam ettikten sonra sonuca gitmekte ve k adet demeti oluşturmaktadır. Yukarıda kısaca tanıtılan demetleme yönteminin çok büyük ölçekli veriler üzerinde gerçeklenmesi durumunda zaman ve bellek karmaşıklığı çok artmaktadır. İşlemlerin performansını yükseltmek amacı ile bir takım iyileştirmelerin yapılması gerekmektedir. Performansı yükseltmek ve bellek karmaşıklığını azaltmak hedeflenerek yeni bir veri yapısı tasarlanmıştır. Ancak bu kriteri sağlamak için her incelemede değişen verileri saklamak için ayrı bir yapı kullanmak yerine esnek bir veri yapısı tasarlanmalıdır. Veri yapısı olarak bilinen yöntemlerle oluşturulan en esnek veri yapısında ise verimlilik çok düşük olmaktadır. Sadece 280 MB'lık bir veriyi demetlemek için 1,3 GB'lık bellek alanı işaretçiler ve diğer yardımcı alanlar ile boş yere kaplanmıştır. Algoritma tarafından kullanılmayan, sadece esnekliği korumak amaçlı işaretçilerin elendiği, verinin bellekteki yerleşiminin çok daha kompakt ve optimum seviyede olduğu bir çerçeve veri yapısı geliştirilmiştir. Bu şekilde bellek kullanım verimi arttırılmış ve bellek karmaşıklığı azaltılmıştır. Ayrıca tasarlanan kompakt veri yapısının daha da kullanışlı olması amaçlanmış ve blok mekanizması ile destek sağlanmıştır. Bu mekanizma ile veriler kompakt bir şekilde bloklar halinde bulunmaktadır ve bellek içerisinde dağınık bir şekilde yerleşebilmektedirler. Böylelikle bellek kullanımı optimize edilemeye çalışılmış ve parçalı (fragmentated) bellek durumlarında dahi olası en uygun yerleşimin sağlanması amaçlanmıştır. Veri ambarı içindeki verilerin tiplerinin çeşitliliğinden ötürü veri madenciliği algoritmalarının da bu tiplere destek vermesi gerekmektedir. Çoğu demetleme algoritması, veri madenciliğinin ortaya çıkmasından çok daha önceleri geliştirildiği için sadece sayısal veriler üzerinde çalışmakta ve çok büyük örüntü kümelerinde çok yavaş çalışmaktadır. Yapılan bu tez çalışmasında, günümüzün olası tüm veri tipleri için algoritmalar yeni genişletmeler getirilmiştir. Karakter katarı alanlarındemetlenebilmesi amacı ile iki karakter katarı arası benzerliği belirleyen, bulanık mantık ilkesini kullanan bir karakter katarı karşılaştırma yöntemi geliştirilmiştir. Ek olarak veri ambarı kayıtlarında çok sık rastlanılan kategorik veri tipi tanımlaması yapılmış ve bu veri tipinin demetlemeye dahil olabilmesi için kategorik veri tipleri üzerinde bir benzerlik tanımlaması getirilmiştir. Tezin dayandığı ilkelerin gerçeklendiği bir uygulama geliştirilmiş ve bu uygulama kapsamında çekirdek modüller gerçeklenmiştir. ön çalışması yapılmış ve çekirdek kısımları gerçeklenmiş bu yazılım ile temel veri madenciliği işlemlerinin gerçeklenebileceği bir mimari çatı oluşturulmuştur.
Özet (Çeviri)
DATA MINING AND CLUSTERING SUMMARY One of the most popular decision support system that helps managers to take future decisions more clearly is dataware house and data mining. These topics are widely analysed in this thesis, moreover with the application problems and some modifications has been supposed. Dataware house acts as the main back office repository of the operational systems that has been used to perform daily operations. Data has been periodically collected from various discrete operational systems and pushed into the warehouse by preserving the consistency of the datawarehouse. A number of analysis and investigations has been done on the datawarehouse that contains data which is not update. Some of these operations are statistical reporting, multi-dimensional analysis and data mining. The main aim of the data mining operations that takes place on the data warehouse is finding out the internal structure of the data, sensing the clusters and cluster properties, doing predictions based on the existing data; shortly finding underlying information of the data. There is various data mining techniques: market basket analysis, classification, clustering, link analysis, artificial neural networks, decision trees, OLAP and etc. However, none of these techniques is adequent for performing all data mining tasks. Collaboration of these techniques is needed to reach the solution. Clustering is widely used not only in data mining but also in various subjects like image processing, pattern recognition, compressing, marketing and many other fields. The most general definiton of clustering is partitioning large heterogenous data into homogenous clusters. As a result, internal cluster similarity should be high although similarities between clusters are low. One can find a lot of methods to cluster any data, but there is two major ones. The first one is called hierarchical clustering. In the begining of this technique, all individual records that will be clustered become individual cluster centers. After that step, the closest two records are joined and forms one single cluster.This process continues until the desired number of clusters emerge. Another common used X1 BSJSffiMAMTASYOM Mfialgorithm in clustering is K-Means algorithm that needs to know the number of desired clusters K before the analysis. This algorithm starts clustering process by choosing K cluster centers from the data randomly and then calculates the distances between all points and all cluster centers. Each point is assigned to the nearest cluster. After all points assigned to a proper cluster, each cluster center is re calculated by using the averages of the cluster members. After a number of step, K- Means converges to a stable state and forms the desired clusters. The space complexity and time complexity of clustering algorithms decribed above become very high when the data that will be clustered is too large. In that circumstances, the performance of the clustering algorithms should be improved. To minimize the space complexity of the clustering algoritms, a new approach is introduced to store the data that will be clustered in main memory. A new and flexible data structure is developed to maintain the compactness of data. The common data structures that satisfy the flexibility condition, requires 1.3 GB memory space just for the pointers and sub-fields necessary for data structures although the size of the data to be clustered is nearly 280 MB. The memory space used for pointers and sub-fields are not necessary for the clustering process and that makes the efficiency of memory usage 17%. A new data structure for storing data is produced by eliminating all unnecessary fields and pointers and stores data in a maximum compact way. In this way, the efficiency of memory usage becomes nearly 100% and the time complexity of algorithms decreases significantly. This is done by building a complete template record. The block mechanism and block management routines are added to this compact data storing structure and makes our structure more useful. In this mechanism, the data are grouped in blocks of records and these blocks can be placed anywhere in the main memory. The main target was optimizing the memory usage and we got better results eventhough the main memory is hardly fragmentated. The support of data mining for various types of data is needed for operating on data warehouses that there exists records that has various types of attributes. The most of the clustering algorithms is founded early before data mining emerges so most of them operates only on numeric values. Some extensions that supports every type of data that can be found today are added to the algorithms. A fuzzy string similarity Xllmethod that calculates the similarity between two strings is introduced for clustering string attributes. In addition, the categorical data type definition is done and a similarity measure between categoric attributes is composed to involve categorical data to the clustering. As a result, a modular application that includes the main points mentioned above is developed and the core modules are coded. An architecture for performing fundamental data mining techniques is built with this software. xiu
Benzer Tezler
- Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği
Mining Turkish documents by meaning based techniques
AHMET GÜVEN
Doktora
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OYA KALIPSIZ
- Türkçe dokümanlar için anlamsal benzerlik hesaplama yöntemi
Semantic similarity method for Turkish documents
BÜLENT YÜCESOY
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ŞULE ÖĞÜDÜCÜ
- Donanım hızlandırmalı veri demetleme
Hardware accelerated data clustering
NAZİRE MERVE ÇETİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. MURAT HACIÖMEROĞLU
- Prediction of tumor in mammogram images using data mining models
VERI MADENCILIĞI MODELLERINI KULLANARAK MAMOGRAM GÖRÜNTÜLERINDE TÜMÖRÜN TAHMIN EDILMESI
NOOR RASHID YASIR SARRAY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TİMUR İNAN
- Metin madenciliği ile doküman demetleme
Dokument clustering using text mining
SYOLAİ M.TAHA
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. SUAT ÖZDEMİR