Geri Dön

Dimension reduction for tree-structured data

Ağaç yapılı veriler için boyut indirgeme

  1. Tez No: 694505
  2. Yazar: ERDİNÇ DURAK
  3. Danışmanlar: DOÇ. DR. MUSTAFA KEMAL TURAL, PROF. DR. CEM İYİGÜN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 117

Özet

Ağaç yapılı verilerin istatistiksel analizi, genişleyen uygulama alanlarıyla ilgi çekici araştırma alanlarından biridir. Klasik veri analizinde, veri nesneleri Öklid uzayındaki noktalarken, ağaç yapılı veri analizinde ağaçlardır. Öklid uzayındaki noktaların ağaçlarla değiştirilmesi, veri analizinde ek karmaşıklık getirir ve boyut indirgeme tekniklerinin kullanılmasını gerektirir. Bu çalışmada, her ağacın köklü ve etiketli olduğu ağaç yapılı veriler için boyut indirgeme teknikleri geliştirmeyi hedefliyoruz. İki klasik boyut küçültme tekniğini ele alıyoruz; temel bileşen analizi (PCA) ve çok boyutlu ölçekleme (MDS), ve bunları ağaç yapılı verilere uyarlıyoruz. Ağaç yapılı veriler için PCA üzerine yapılan önceki bir çalışmanın aksine, bu tezde önerilen PCA teknikleri bir varyans ölçüsünü maksimize ediyor. Rastgele oluşturulmuş veriler ve gerçek hayat verileri üzerinde yapılan hesaplama deneyleri, önerilen PCA tekniklerinin mevcut olana göre üstünlüğünü göstermektedir. Literatürde ağaç yapılı veriler üzerinde MDS gerçekleştirip ağaç uzayına yansıtan bir çalışma bulunmamaktadır. Bu doğrultuda, ağaçların kenarlarının boyut olarak kabul edildiği ağaç yapılı veriler için ilk MDS yöntemini öneriyoruz. Önerilen MDS yönteminde amaç, ağaç çiftleri arasındaki Hamming uzaklıklarını orantısal olarak benzer tutmaktır. Bu amaçla, tutulacak kenarları optimal bir şekilde bulan bir karma tamsayılı doğrusal programlama modeli ve kenarların açgözlülükle tek tek seçildiği sezgisel yöntemler önermekteyiz. Hesaplamalı deneyler, önerilen MDS yöntemlerinin, kenarların yalnızca bir kısmı ile yüksek kümeleme doğruluğu elde edildiğinden yararlı bilgileri tutmada başarılı olduğunu göstermektedir. Hesaplamalı deneyleri sistematik bir şekilde yapabilmek için bir rastgele ağaç üreteci algoritması geliştirilmiştir. Bu algoritma, farklı eğiklik ve yoğunluk parametrelerine sahip ağaç kümeleri oluşturabilmektedir. Bu parametreleri sistematik olarak değiştirerek önerilen yöntemlerin güçlü ve zayıf yönlerini anlayabiliriz.

Özet (Çeviri)

Statistical analysis of tree-structured data is one of the exciting research areas with expanding application areas. In classical data analysis, the data objects are points in the Euclidean space, whereas they are trees in the analysis of tree-structured data. The replacement of points in the Euclidean space with trees brings in additional complexity in data analysis and necessitates the use of dimension reduction techniques. In this study, we aim to develop dimension reduction techniques for tree-structured data where each tree is rooted and labeled. We consider two classical dimension reduction techniques; namely, the principal component analysis (PCA) and multidimensional scaling (MDS), and adapt them to tree-structured data. Unlike a previous study on the PCA for tree-structured data, the PCA techniques proposed in this thesis maximize a measure of variance. Computational experiments on randomly generated data and real life data show the superiority of the proposed PCA techniques over the existing one. In the literature, there is no study that performs MDS on tree-structured data to project them in the tree space. In this direction, we propose the first MDS method for tree-structured data, where the edges of the trees are considered as the dimensions. In the proposed MDS method, the aim is to keep the Hamming distances between pairs of trees proportionally similar. For this purpose, we propose a mixed-integer linear programming model which finds the edges to be kept in an optimal way and heuristic methods where the edges are greedily selected one by one. Computational experiments show that the proposed MDS methods are successful in keeping useful information as high clustering accuracy is achieved with only a fraction of the edges. To be able to perform the computational experiments in a systematic way, a random tree generator algorithm is developed. This algorithm is able to generate clusters of trees with different skewness and density parameters. By changing these parameters systematically, we are able to understand the strength and weaknesses of the proposed methods.

Benzer Tezler

  1. Text document querying via hierarchical clustering of documents in vector spaces

    Vektör uzayında dökümanların sıradüzensel olarak gruplandırılmasıyla metin veri tabanlarında sorgulama

    SERKAN KAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF. DR. FİKRET GÜRGEN

    YRD. DOÇ. DR. ULUĞ BAYAZIT

  2. Metin sınıflama için yeni bir özellik çıkarım yöntemi

    A new method on feature extraction for text classification

    GÖKSEL BİRİCİK

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. A. COŞKUN SÖNMEZ

  3. Fonksiyonel veri analizinin karar ağaçlarında kullanımı

    Utilization of functional data analysis in decision trees

    BURCU KOCARIK GACAR

    Doktora

    Türkçe

    Türkçe

    2023

    EkonometriDokuz Eylül Üniversitesi

    Ekonometri Ana Bilim Dalı

    DOÇ. DR. İSTEM KESER

  4. Content-based image retrieval using deep learning and multidimensional indexing

    Derin öğrenme ve çok boyutlu indeksleme kullanılarak içerik tabanlı görüntü alma

    ÖMER UZEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERDAR ARSLAN

  5. New approach to unsupervısed based classıfıcatıon on mıcroarray data

    Mi̇krodi̇zi̇li̇m veri̇lerden danışmansız öğrenmeye dayalı sınıflamada yeni̇ yaklaşım

    ERDAL COŞGUN

    Doktora

    İngilizce

    İngilizce

    2013

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERGUN KARAAĞAOĞLU