Çoklu bölümlenmelerin birleştirilmesinde yeni verimli ve ölçeklenebilir yöntemler
Novel efficient and scalable methods for combining multiple clusterings
- Tez No: 266490
- Danışmanlar: YRD. DOÇ. DR. SELİM NECDET MİMAROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 108
Özet
Bölümlenme, benzer veri nesnelerinin yarı denetimli veya denetimsiz şekilde gruplanması işlemidir. Verinin anlaşılması ve indirgenmesinde sıkça kullanılır. Çoklu bölümlenmelerin birleştirilmesi, bölümlenme araştırmalarında önemli bir eğilim olup, tek bir bölümlenme algoritması ile tipik olarak elde edilenden daha ileriye gitmektedir. Temel fikir, aynı veriden farklı bakış açılarıyla değişik bölümlenmelerin yaratılabilmesidir. Bu bölümlenmeler birleştirilerek daha iyi bir nihai bölümlenme elde etmek veya verinin daha evvelden saklı kalmış bazı özelliklerini keşfetmek mümkündür. Çoklu bölümlenmeler farklı bölümlenme algoritmalarının değişken giriş parametreleri ile koşturulmasıyla elde edilebilir. Alanının uzmanları, özel mülkiyete tabi yöntemler veya dağıtık bir hesaplama ortamı bölümlenmeler sağlayabilir. Veri kümesinin rastlantısal izdüşümleri veya verinin örneklemeleri üzerinde yapılan az maliyetli hesaplamalar da bölümlenmeler sağlayabilir. Diğerleri yanında özellikle Biyobilişim, Bilgisayarlı Görme ve Metin Madenciliği çoklu bölümlenmelerin birleştirilmesi algoritmalarını kullanmaktadır.Bu tez bir literatür taraması sağlamakta ve üç yeni ve verimli yöntem ile çoklu bölümlenmelerin birleştirilmesi araştırmalarına katkıda bulunmaktadır. İlk olarak, bölüt iç uyumu ve ayrılığını veri nesnelerinin bölümlenmelerdeki birlikteliklerine göre ölçen bir hedef fonksiyon, FastFit' in hızlı hesaplanması için yeni ikili bir yöntem önerilmektedir. Bu hesaplama yöntemi hem zaman hem de yer karmaşıklığı açısından verimlidir. İkinci olarak, çizge kuramından klikler kullanılarak çoklu bölümlenmelerin birleştirilmesi için yeni hassas ve ölçeklenebilir bir yöntem olan CLICOM önerilmektedir. CLICOM büyük çizgeler üzerinde çalışan ve kısa zamanda sonuç üreten yeni çıktı duyarlı bir klik bulma algoritması da barındırmaktadır. Son olarak, ikili bir veri kümesinin yaklaşık uzaklık matrisini hesaplamak için bir grup paralel algoritma önerilmektedir. Bu algoritmalar, ortak ve dağıtık bellekli hesaplama ortamlarında, rastlantısal olarak çırpı fonksiyonundan geçirilmiş veri nesnelerinin oluşturduğu zayıf bölümlenmeleri kullanarak uzaklıkları hesaplamaktadır.Önerilen yöntemlerin deneysel sonuçları sentetik ve gerçek veriler üzerinde gösterilmiştir. Yöntemler özellikle verimlilik ve ölçeklenebilirliğin başlıca endişe olduğu büyük verilere uygundur.
Özet (Çeviri)
Clustering is a semi- or unsupervised process of grouping similar objects together.It is widely used for data understanding and data reduction. Combining Multiple Clusterings is an important research trend in clustering that goes beyond what is typically achieved by a single clustering algorithm. The basic idea is that by taking multiple looks at the same data, one can generate a diverse set of clusterings. By combining these clusterings, it is possible to obtain a better Final Clustering or discover some otherwise hidden aspects of the data set. Multiple clusterings may be produced by running different clustering algorithms with varying input parameters. Domain experts, proprietary methods, or a distributed computing environment may provide clusterings. Computationally cheap operations e.g. on random projections or random samplings of a data set may also provide multiple clusterings. A range of applications in Bioinformatics, Computer Vision, and Text Mining, among others, employ algorithms for combining multiple clusterings.This thesis provides a literature survey and contributes three novel and efficient methods to Combining Multiple Clusterings research. First, we propose a novel binary method for fast computation of an objective function, FastFit, which measures cluster cohesion and separation with respect to object co-associations. This computation method is very efficient in terms of both time and space complexity. Secondly, a novel accurate and scalable consensus method, CLICOM, is proposed to combine multiple clusterings using graph-theoretic cliques. CLICOM employs, as well, a novel output-sensitive clique finding algorithm which works on larger graphs and produces output in a short amount of time. Finally, a set of parallel algorithms is proposed to calculate an approximate distance matrix of a binary data set. These algorithms compute distances by utilizing weak clusterings of randomly hashed objects in shared and distributed memory computing environments.Experimental results of the proposed methods are shown on synthetic and real data sets. The methods are especially suited to large data sets where efficiency and scalability is a major concern.
Benzer Tezler
- Yığma kabuk strüktürlerin hesaplamalı tasarımına yönelik bütüncül bir yaklaşım
A holistic approach to computational design of masonry shell structures
ZEYNEP SENA SANCAK
Yüksek Lisans
Türkçe
2025
MimarlıkMimar Sinan Güzel Sanatlar ÜniversitesiEnformatik Ana Bilim Dalı
DOÇ. DR. BÜLENT ONUR TURAN
- Treatment of multiple gingival recessions with two different approaches
Çoklu dişeti çekilmelerinin tedavisinde farklı iki tedavi yaklaşımı
İLKNUR ÖZENCİ
Doktora
İngilizce
2014
Diş HekimliğiYeditepe ÜniversitesiPeriodontoloji Ana Bilim Dalı
PROF. DR. RECEP SELÇUK YILMAZ
- Çoklu antibiyotik dirençli, pseudomonas aeroginosa enfeksiyonu oluşturulmuş ratlarda topikal antimikrobiyal ajanların (sitrik asit %3, klorheksidin asetat %0.5 (bactigras®), gümüş sülfodiyazin %1 (silverdin®) ve silver-coated dressing (acticoat®)) etkinliğinin değerlendirilmesi:
Çoklu anti̇bi̇yoti̇k di̇rençli̇, pseudomonas aerogi̇nosa enfeksi̇yonu oluşturulmuş ratlarda topi̇kal anti̇mi̇krobi̇yal ajanlarin (si̇tri̇k asi̇t %3, klorheksi̇di̇n asetat %0.5 (bacti̇gras®), gümüş sülfodi̇yazi̇n %1 (si̇lverdi̇n®) ve si̇lver-coated dressi̇ng (acti̇coat®)) etki̇nli̇ği̇ni̇n değerlendi̇ri̇lmesi̇:
HAKAN YABANOĞLU
Tıpta Uzmanlık
Türkçe
2009
Genel CerrahiBaşkent ÜniversitesiGenel Cerrahi Ana Bilim Dalı
DOÇ. DR. ÖZGÜR BAŞARAN
- Sosyal Bilgiler öğretmen adaylarının çoklu giriş noktalarına ilişkin görüşleri
The views of social studies pre-service teachers on multiple entry points
KUDRET AYKIRI
Yüksek Lisans
Türkçe
2014
Eğitim ve ÖğretimMuğla Sıtkı Koçman Üniversitesiİlköğretim Ana Bilim Dalı
PROF. DR. İBRAHİM GÜNER
- Partial key exposure attacks on multi-power RSA
Çoklu kuvvet RSA'ya kısmi bilgi saldırıları
MUHAMMED FETHULLAH ESGİN
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir ÜniversitesiBilgi Güvenliği Mühendisliği Ana Bilim Dalı
DR. OSMANBEY UZUNKOL
DR. MEHMET SABIR KİRAZ