Geri Dön

Aggregating advantages of a set of clusterings into a final clustering using object-wise similarity graph

Bir kümelenmeler kümesinin avantajlarını nesneler arası benzerlik çizgesi kullanarak bir sonuç kümelenmesinde birleştirmek

  1. Tez No: 292800
  2. Yazar: ERTUNÇ ERDİL
  3. Danışmanlar: YRD. DOÇ. DR. SELİM NECDET MİMAROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 76

Özet

Kümelenme benzer nesnelerin gruplanması sürecidir, objeler arası benzerlik genellikle bir uzaklık ölçütü ile ölçülür. Kümelenme, veri kümesinin gerçek gruplanması bilinmediği için zor bir problemdir. Kümelenme, verileri anlamlı gruplara bölmeyi amaçlar ve bir kümelenme metoduyla oluşturulmuş grup küme olarak adlandırılır. Kümelenme, verilerin anlaşılması ve özetlenmesi gibi farklı amaçlar için yararlı bir başlangıç noktasıdır. Literatürde kümelenme, biyolojiden ekonomiye kadar çeşitli uygulamalara sahiptir.Kümelenme, çeşitli bilimsel alanlarda uzun ve zengin bir geçmişe sahiptir. Kümelenme metodolojisine katkıda bulunan temel alanlar Makine Öğrenmesi, Veri Madenciliği ve Örüntü Tanımadır. Herbir kümelenme tekniği bazı avantajlar ve dezavantajlar sergiler. Bazı kümelenme algoritmaları sonucu fazlasıyla etkileyecek girdi parametrelerine bile ihtiyaç duyabilirler. Bazı kümeleme teknikleri veri kümesinin özellikleri ile ilgili kabullenmeler yapabilir ve iyi kalitede bir kümelenme yalnızca bu kabullenmeler sağlandığında beklenebilir. Uzaklık ölçütü de kümeleme oluşturma sürecinde önemli bir rol oynar. Özellikle yüksek boyutlu veri kümelerinde nesneler arası benzerliği veya uzaklığı tanımlamak zordur. Bir çok durumda bir girdi veri kümesi için, en iyi uzaklık ölçütünü, en iyi kümeleme metodunu ve en iyi girdi argümanlarını seçmek mümkün değildir. Bu yüzden, bir veri kümesi için çoklu kümelemeler elde edilebilir. Ve, çoklu kümelemeler yeni ve daha iyi kaliteye sahip bir sonuç kümelemesinde birleştirilebilir.Bu tezde, çoklu kümelemelerin birleştirilmesi için çizge tabanlı, ölçeklenebilir, güçlü ve sezgisel bir algoritma öneriyoruz. Çoklu kümelemelerin birleştirilmesi, önceki bilgilerin tekrar kullanılmasını ve daha iyi kaliteye sahip yeni bir sonuç kümelemesi oluşturulmasını gerektirir. Yeni algoritmamız, COMUSA, nesnelerden oluşan, ağırlıklı ve girdi kümelenmelerindeki kanıt biriktirilerek oluşturulmuş bir benzerlik çizgesi üzerinde çalışır. COMUSA nesneler seviyesinde çalışarak, kısa bir sürede iyi kaliteye sahip sonuç kümelemesi oluşturmayı önerir. Çok çeşitli alanlardan alınmış gerçek, sanal olarak üretilmis ve gen ifade eden zorlayıcı veri kümeleri üzerindeki geniş deneysel sonuçlar metodumuzun hem kalite hem de çalışma zamanı olarak kullanışlı olduğunu gösterir.

Özet (Çeviri)

Clustering is the process of grouping objects that are similar, where similarity between objects is usually measured by a distance metric. Clustering is a hard problem since the natural grouping of a data set is unknown. Clustering aims to divide a data set into meaningful groups where each group formed by a clustering method is referred as a cluster. Clustering is a useful starting point for different purposes such as data understanding and summarization. In the literature, there are numerous applications of clustering ranging from biology to economics.Clustering has a long and rich history in a variety of scientific fields. The main contributing research areas to clustering methodology are Machine Learning, Data Mining, and Pattern Recognition. Each clustering technique possess some advantages and disadvantages. Some clustering algorithms may even require input parameters which strongly affect the outcome. Some clustering techniques make some assumptions about the properties of the data sets and good quality clusterings are obtained, when the assumption holds. Distance metric also plays an important role in the process of producing a clustering. Especially in high dimensional data sets, it is hard to identify similarity or distance between objects. In most cases, it is not possible to choose the best distance metric, the best clustering method, and the best input parameter values for an input data set. Therefore, multiple clusterings can be obtained on a data set. And, multiple clusterings can be combined into a new and better quality final clustering.In this thesis, we propose a graph based combining multiple clusterings algorithm that is scalable, robust, and intuitive. Combining multiple clusterings requires reusing preexisting knowledge and producing a novel final clustering having better overall quality. Our new algorithm, COMUSA, works on an object-wise weighted similarity graph which is constructed by using the evidence accumulated from multiple input clusterings. COMUSA offers good quality final clusterings by working at object level in a short amount of time. Extensive experimental evaluations on some very challenging real, synthetically generated and gene expression data sets from a diverse set of domains establish the usefulness of our methods in terms of both quality and execution time.

Benzer Tezler

  1. Bir kalıp üretimi sisteminde alternatif rota esaslı grup teknolojisi uygulaması

    Başlık çevirisi yok

    BURAK ALTUNTERİM

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. M. BÜLENT DURMUŞOĞLU

  2. Grup teknolojisi imalat sistemi ve sezgisel bir kümelendirme yöntemi

    Group technology manufacturing system and a heuristic clustering method

    A. KAMİL ATALAR

    Yüksek Lisans

    Türkçe

    Türkçe

    1991

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. ATAÇ SOYSAL

  3. Öbek analizi algoritmaları

    Başlık çevirisi yok

    MUHAMMET ALTUN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ERCENGİZ

  4. Badland systems in Turkey: A holistic approach to understand the formation, controlling factors and geomorphologic characteristics

    Türkiye'deki kırgıbayır sistemleri: Oluşumlarını, kontrol eden faktörlerini ve jeomorfolojik karakterlerini anlamak üzerine bütünsel bir yaklaşım

    AYDOĞAN AVCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Coğrafyaİstanbul Teknik Üniversitesi

    Katı Yer Bilimleri Ana Bilim Dalı

    DOÇ. DR. TOLGA GÖRÜM

    DR. ÖĞR. ÜYESİ ÖMER YETEMEN

  5. Querying sensor fields by using quadtree based dynamic clusters and task sets

    Sensör sahasının Quadtree tabanlı dinamik gruplar ve görev kümeleri ile sorgulanması

    ÇAĞHAN ÇİMEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDeniz Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ERDAL ÇAYIRCI

    YRD. DOÇ. DR. VEDAT COŞKUN