Geri Dön

Statistical learning with proximity catch digraphs

Yakınlık yakalama yönlü çizgeleri ile istatistiksel öğrenme

  1. Tez No: 482334
  2. Yazar: ARTÜR MANUKYAN
  3. Danışmanlar: DOÇ. DR. MİNE ÇAĞLAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, İstatistik, Computer Engineering and Computer Science and Control, Mathematics, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 219

Özet

İstatistiksel öğrenme alanındaki yöntemlerin anlamlı bir çoğunluğu veriyi çizgeler olarak modellemektedir. Yakınlık çizgeleri gözetimli ve gözetimsiz istatistiksel öğrenme alanlarındaki pek çok probleme çözümler sunmaktadırlar. Bu çizgeler arasında sınıf örtüsü yakalama yönlü çizgeleri (SÖYYÇ) sınıf örtüsü problemini (SÖP) çözmek için tanıtılmıştır. SÖYYÇ'ler sınıflama ve kümeleme için de kullanılabilir. Ancak, bu yönlü çizgeler daha iyi sınıflama ve kümeleme yöntemleri geliştirmek için de genelleştirilebilirler. Bu tezin amacı, istatistiksel öğrenme alanındaki popüler sorunlara yakınlık yakalama yönlü çizgeleri (YYYÇ) ile çözümler sunmaktır. Bu sorunlar arasında; gürbüzlük, prototip seçimi ve küme sayısının tespiti gibi sorunlar yer almaktadır. YYYÇ'ler esasında SÖYYÇ'lerin genelleştirilmiştir halleridir ve YYYÇ'ler daha önce uzaysal veri analizi problemlerinde de kullanılmışlardır. Biz SÖYYÇ'lerin ve YYYÇ'lerin gözetimli ve gözetimsiz istatistiksel öğrenme alanındaki performansını inceleyecek, bu çizgelerin gerçek yaşam problemlerin nasıl değinebileceğini tartışacağız. İlk olarak SÖYYÇ tabanlı sınıflayıcıların, veri setlerindeki sınıflardan herhangi birinin diğer sınıflardakinden daha çok gözleme sahip olduğunda, diğer sınıflayıcılara göre göreceli olarak iyi performans gösterdiğini vurgulayacağız. Bu probleme sınıf dengesizliği problemi ismi verilmektedir. Daha sonrasında, barisentrik koordinat sistemlerini kullanarak ve Delaunay mozaiklemelerini R^d yi mozaikleyecek şekilde genişleterek, YYYÇ tabanlı sınıflayıcılar ve kümeleme yöntemleri geliştireceğiz. Bu yöntemler, sınıf dengesizliklerine karşı gürbüz olacak ve hesapsal olarak takip edilebilen prototip setlerine sahip, cazip ve hızlı yöntemler olacaklardır. Özellikle kümeleme algoritmalarımız, parametrelerden bağımsız olarak tanımlanmış ve SÖYYÇ'lerin gözetimsiz halleri olan, küme yakalama yönlü çizgelerine (KYYÇ) dayalıdır. Biz veri setlerini, uzaysal veri analizinde kullanılan Ripley'nin K fonksiyonuna dayalı araçlar ile böleceğiz ve ayrıca YYYÇ'lere dayalı küme toplulukları tanımlayıp kümeleme yöntemlerini destekleyen algoritmalar geliştireceğiz. Bu tür yöntemler ise veri setlerine mahsus olan alan bilgisini elde etmenin zor olduğu gerçek yaşam problemlerinde önemini göstereceklerdir.

Özet (Çeviri)

In the field of statistical learning, a significant portion of methods model data as graphs. Proximity graphs, in particular, offer solutions to many challenges in supervised and unsupervised statistical learning. Among these graphs, class cover catch digraphs (CCCDs) have been introduced first to investigate the class cover problem (CCP), and then employed in classification and clustering. However, this family of digraphs can be improved further to construct better classifiers and clustering algorithms. The purpose of this thesis is to tackle popular problems in statistical learning like robustness, prototype selection and determining the number of clusters with proximity catch digraphs (PCD). PCDs are generalized versions of CCCDs and have been proven useful in spatial data analysis. We will investigate the performance of CCCDs and PCDs in both supervised and unsupervised statistical learning, and discuss how these digraph families address real life challenges. We show that CCCD classifiers perform relatively well when one class is more frequent than the others, an example of the class imbalance problem. Later, by using barycentric coordinate system and by extending the Delaunay tessellations to partition R^d, we establish PCD based classifiers and clustering methods that are both robust to the class imbalance problem and have computationally tractable prototype sets, making them both appealing and fast. In addition, our clustering algorithms are parameter-free clustering adaptations of an unsupervised version of CCCDs, namely cluster catch digraphs (CCDs). We partition data sets by incorporating spatial data analysis tools based on Ripley's K function, and we also define cluster ensembles based on PCDs for boosting the performance. Such methods are crucial for real life practices where domain knowledge is often infeasible.

Benzer Tezler

  1. Emlak vergisi için CBS ve makine öğrenmesi teknikleri kullanılarak toplu taşınmaz değerleme modeli tasarımı

    Designing a mass real estate valuation model using GIS and machine learning techniques for property taxation

    HALUK GÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MAHMUT OĞUZ SELBESOĞLU

  2. UNESCO hedef ve ilkeleri ışığında Türkiye'de yaşam boyu öğrenmenin bugünkü durumu ve Finlandiya, Portekiz, İtalya karşılaştırılması

    The current situation of lifelong learning in Turkey in the light of the objectives and principles of UNESCO and a comparision with Finland, Portugal, Italy

    ERGEM UTKULU

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. BERRİN BURGAZ

  3. İlkokul 4. sınıf öğrencilerinin öz düzenleyici öğrenme stratejileri ile öğrenci-öğretmen ilişkisi ve ebeveyn tutumları arasındaki ilişkinin incelenmesi

    Examining the relationship between self-regulatory learning strategies of 4th grade elementary school students and student-teacher relationship and parental attitudes

    SENA ALAGÖZ ŞEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimDüzce Üniversitesi

    Temel Eğitim Ana Bilim Dalı

    DOÇ. DR. EROL SÖZEN

  4. Topological data analysis and clustering algorithms in machine learning

    Topolojik veri analizi ve makine öğreniminde kümeleme algoritmaları

    İSMAİL GÜZEL

    Doktora

    İngilizce

    İngilizce

    2023

    Matematikİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. ATABEY KAYGUN

  5. Öbek analizi algoritmaları

    Başlık çevirisi yok

    MUHAMMET ALTUN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ERCENGİZ