Mixed integer programming and heuristics approaches for clustering with cluster-based feature selection
Küme özgü öznitelik seçimi ile kümeleme problemi için karma tamsayılı programlama ve sezgisel yaklaşımlar
- Tez No: 569765
- Danışmanlar: DOÇ. DR. CEM İYİGÜN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 157
Özet
Kümeleme algoritmaları, noktalar arasındaki önceden bilinmeyen gizli ilişkileri belirleyip birbirine benzeyen veri noktalarını aynı gruba, birbirinden farklı veri noktalarını ise ayrı gruplara koymayı hedefleyen gözetimsiz bir öğrenme yöntemidir. Ancak veri setinin boyutu arttıkça verinin anlaşılması zorlaştığından doğru kümelemeyi elde etme ihtimali düşer. En iyi kümelemeyi bulmak için kümeleri tanımlayan öznitelikleri belirlemek kümeleme algoritmalarının performansını arttırmak amacıyla büyük ölçekli veri setlerinde en çok kullanılan ön işleme tekniğidir. Ancak özniteliklerin ayırt edici olarak seçilip seçilmemesi, tüm özniteliklerin her küme için aynı ilgi düzeyine sahip olduğu varsayımıyla ortaya çıkmaktadır. Bu çalışmada, kümelemede kullanılacak özniteliklerin her bir küme için farklılık gösterebileceği varsayılmaktadır. Küme sayısı ve her küme için ilgili öznitelik sayısı önceden verilmektedir. Küme merkezleri bazlı bir kümeleme yaklaşımı kullanılarak, küme merkezlerinin belirlenmesi, veri noktalarının bir kümeye atanması ve her bir küme için ilgili özniteliklerin seçimi eş zamanlı olarak yapılmaktadır. Bu çalışma kapsamında küme içindeki noktaların ilgili küme merkezine seçilen öznitelikler üzerinden uzaklıklarının toplamını enazlayan karma tamsayılı bir matematiksel model önerilmiştir. Önerilen model doğrusal olmadığı için problemin çözümünde farklı doğrusallaştırma yöntemlerinin uygulandığı matematiksel modeller kullanılmıştır. Bunun yanı sıra, problemin çözümü için Benders Ayrıştırma yöntemi uygulanmıştır. Ayrıca, belirtilen problem için iki farklı sezgisel çözüm yöntemi geliştirilmiştir. Önerilen matematiksel modeller ve geliştirilen sezgisel çözüm yöntemleri nokta ve öznitelik sayısı açısından farklı büyüklükteki veri setleri üzerinde denenmiştir.
Özet (Çeviri)
Cluster analysis tries to figure out the hidden similarities between data points in order to place similar data points into the same group and different data points into separate groups using unlabeled data. Understanding the data becomes difficult and the power of obtaining informative clusters for an algorithm decreases as the dimensionality of the data set gets high. Identifying the relevant features of high dimensional data sets is the mostly used technique in order to increase the performance of the algorithm to find the best clusters. However, selecting or deselecting the features comes up with the assumption that all the selected features have the same relevance for all clusters. In this study, it is assumed that the features to be used in clustering may differ for each cluster. Number of clusters and number of relevant features in each cluster are given in advance. By using a center-based clustering approach, identifying the cluster centers, assigning data points to a cluster and selecting relevant features for each cluster are performed simultaneously. A mixed integer mathematical model is proposed which minimizes the total distance between data points and their cluster center by using the selected features for each cluster. Since the proposed model is not linear, mathematical models using different linearization methods have been used to solve the problem. In addition to those mathematical models, we propose Benders Decomposition solution method implemented on our problem. Besides, two different heuristic algorithms have been developed by taking into account the nature of the mentioned problem. The proposed mathematical models and heuristic algorithms have been experimented on several data sets in different problem sizes in terms of number of clusters, number of relevant features and number of data points.
Benzer Tezler
- Data mining for regional and graph-structured data objects
Bölgesel ve çizge-yapılı veri nesneleri için veri madenciliği
DERYA DİNLER
Doktora
İngilizce
2019
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA KEMAL TURAL
PROF. DR. NUR EVİN ÖZDEMİREL
- Mathematical programming based exact and heuristic solution approaches for a clustering problem with localized feature selection
Yerelleştirilmiş özellik seçimi ile kümeleme problemi için matematiksel modellemeye dayalı kesin çözüm ve sezgisel çözüm yaklaşımları
GÖZDENUR BÜYÜK HABACI
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SİNAN GÜREL
PROF. DR. CEM İYİGÜN
- Grup teknolojisi imalat sistemleri tasarımı için bir metodoloji ve bu metodolojinin endüstride uygulanması
Başlık çevirisi yok
NEVİN AYDIN
Doktora
Türkçe
1998
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. M. BÜLENT DURMUŞOĞLU
- Leveraging large-scale data for supply chain network design: A location-allocation model for Rwanda
Büyük ölçekli veri kullanarak tedarik zinciri ağı tasarımı: Ruanda için bir yerleşim-atama modeli
ZEYNEP GÖZE GÜRKAN
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYŞE SELİN KOCAMAN
DR. PABLO DUENAS MARTİNEZ
- Solution approaches for single source capacitated multi facility weber problem
Tek kaynaklı kapasiteli sürekli düzlemde çoklu yer seçimi problemi için çözüm yaklaşımları
HALUK DAMGACIOĞLU
Yüksek Lisans
İngilizce
2014
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. CEM İYİGÜN