Geri Dön

Mixed integer programming and heuristics approaches for clustering with cluster-based feature selection

Küme özgü öznitelik seçimi ile kümeleme problemi için karma tamsayılı programlama ve sezgisel yaklaşımlar

  1. Tez No: 569765
  2. Yazar: SENA ÖNEN ÖZ
  3. Danışmanlar: DOÇ. DR. CEM İYİGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 157

Özet

Kümeleme algoritmaları, noktalar arasındaki önceden bilinmeyen gizli ilişkileri belirleyip birbirine benzeyen veri noktalarını aynı gruba, birbirinden farklı veri noktalarını ise ayrı gruplara koymayı hedefleyen gözetimsiz bir öğrenme yöntemidir. Ancak veri setinin boyutu arttıkça verinin anlaşılması zorlaştığından doğru kümelemeyi elde etme ihtimali düşer. En iyi kümelemeyi bulmak için kümeleri tanımlayan öznitelikleri belirlemek kümeleme algoritmalarının performansını arttırmak amacıyla büyük ölçekli veri setlerinde en çok kullanılan ön işleme tekniğidir. Ancak özniteliklerin ayırt edici olarak seçilip seçilmemesi, tüm özniteliklerin her küme için aynı ilgi düzeyine sahip olduğu varsayımıyla ortaya çıkmaktadır. Bu çalışmada, kümelemede kullanılacak özniteliklerin her bir küme için farklılık gösterebileceği varsayılmaktadır. Küme sayısı ve her küme için ilgili öznitelik sayısı önceden verilmektedir. Küme merkezleri bazlı bir kümeleme yaklaşımı kullanılarak, küme merkezlerinin belirlenmesi, veri noktalarının bir kümeye atanması ve her bir küme için ilgili özniteliklerin seçimi eş zamanlı olarak yapılmaktadır. Bu çalışma kapsamında küme içindeki noktaların ilgili küme merkezine seçilen öznitelikler üzerinden uzaklıklarının toplamını enazlayan karma tamsayılı bir matematiksel model önerilmiştir. Önerilen model doğrusal olmadığı için problemin çözümünde farklı doğrusallaştırma yöntemlerinin uygulandığı matematiksel modeller kullanılmıştır. Bunun yanı sıra, problemin çözümü için Benders Ayrıştırma yöntemi uygulanmıştır. Ayrıca, belirtilen problem için iki farklı sezgisel çözüm yöntemi geliştirilmiştir. Önerilen matematiksel modeller ve geliştirilen sezgisel çözüm yöntemleri nokta ve öznitelik sayısı açısından farklı büyüklükteki veri setleri üzerinde denenmiştir.

Özet (Çeviri)

Cluster analysis tries to figure out the hidden similarities between data points in order to place similar data points into the same group and different data points into separate groups using unlabeled data. Understanding the data becomes difficult and the power of obtaining informative clusters for an algorithm decreases as the dimensionality of the data set gets high. Identifying the relevant features of high dimensional data sets is the mostly used technique in order to increase the performance of the algorithm to find the best clusters. However, selecting or deselecting the features comes up with the assumption that all the selected features have the same relevance for all clusters. In this study, it is assumed that the features to be used in clustering may differ for each cluster. Number of clusters and number of relevant features in each cluster are given in advance. By using a center-based clustering approach, identifying the cluster centers, assigning data points to a cluster and selecting relevant features for each cluster are performed simultaneously. A mixed integer mathematical model is proposed which minimizes the total distance between data points and their cluster center by using the selected features for each cluster. Since the proposed model is not linear, mathematical models using different linearization methods have been used to solve the problem. In addition to those mathematical models, we propose Benders Decomposition solution method implemented on our problem. Besides, two different heuristic algorithms have been developed by taking into account the nature of the mentioned problem. The proposed mathematical models and heuristic algorithms have been experimented on several data sets in different problem sizes in terms of number of clusters, number of relevant features and number of data points.

Benzer Tezler

  1. Data mining for regional and graph-structured data objects

    Bölgesel ve çizge-yapılı veri nesneleri için veri madenciliği

    DERYA DİNLER

    Doktora

    İngilizce

    İngilizce

    2019

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA KEMAL TURAL

    PROF. DR. NUR EVİN ÖZDEMİREL

  2. Mathematical programming based exact and heuristic solution approaches for a clustering problem with localized feature selection

    Yerelleştirilmiş özellik seçimi ile kümeleme problemi için matematiksel modellemeye dayalı kesin çözüm ve sezgisel çözüm yaklaşımları

    GÖZDENUR BÜYÜK HABACI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. SİNAN GÜREL

    PROF. DR. CEM İYİGÜN

  3. Grup teknolojisi imalat sistemleri tasarımı için bir metodoloji ve bu metodolojinin endüstride uygulanması

    Başlık çevirisi yok

    NEVİN AYDIN

    Doktora

    Türkçe

    Türkçe

    1998

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. M. BÜLENT DURMUŞOĞLU

  4. Leveraging large-scale data for supply chain network design: A location-allocation model for Rwanda

    Büyük ölçekli veri kullanarak tedarik zinciri ağı tasarımı: Ruanda için bir yerleşim-atama modeli

    ZEYNEP GÖZE GÜRKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYŞE SELİN KOCAMAN

    DR. PABLO DUENAS MARTİNEZ

  5. Solution approaches for single source capacitated multi facility weber problem

    Tek kaynaklı kapasiteli sürekli düzlemde çoklu yer seçimi problemi için çözüm yaklaşımları

    HALUK DAMGACIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEM İYİGÜN