Geri Dön

Gerçek zamanlı akan veri probleminde ağaç veri yapısı ve mikro kümeler ile düzensiz kümeler oluşturmak

Defining irregular clusters by using tree data structure and microclusters in real time streaming data problem

  1. Tez No: 832124
  2. Yazar: BERFİN ERDİNÇ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MAHMUT KAYA, DR. ÖĞR. ÜYESİ ALİ ŞENOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Siirt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Akan veri kümeleme, akan verileri işlemek ve gerçek zamanlı olarak anlamlı bilgiler çıkarmak için popüler bir alandır. Akan veri kümeleme, benzerlik kriterlerine dayalı olarak kümelerin tanımlanması ve güncellenmesi için verimli yaklaşımlar sağlar. Bu alandaki en önemli problemlerden birisi dairesel olmayan kümeleri tanımlamaktır. Bununla beraber, akan veri kümeleme alanlarındaki aykırı değerler ve gürültülü veriler, kümeleme performansını önemli ölçüde düşürebilir. Buna karşın, dairesel olmayan kümeler tanımlayabilen yöntemler, algoritmaların kümeleme kalitesini iyileştirebilir. Bu problemlere çözüm olarak, bu çalışmada MCMSTStream adlı yeni bir akan veri kümeleme yaklaşımı önerilmiştir. Önerilen algoritma, yüksek kümeleme başarısı elde etmek için k-boyutlu ağaç tarafından tanımlanan mikro küme yapısını ve Minimum Kapsayan Ağacı (MKA) tabanlı yöntemleri birleştirmektedir. Önerilen algoritmamız 5 aşamadan oluşmaktadır. Bunlar: k-boyutlu ağaç tabanlı mikro küme oluşturma, tanımlanmış mikro kümelere MKA uygulayarak makro kümeler oluşturma, yeni veri gelmesi sonucu mikro kümelerin tanımlanması veya veri sayısının eşik değeri N'nin altına düşmesi sonucu verinin ömrünü tamamlaması nedeniyle mikro kümelerin silinmesidir. Sonrasında makro kümelere yeni mikro kümelerin atanması veya sahip oldukları mikro küme sayısı n_micro'nun altına düştüğünde makro kümelerin silinmesidir. Son olarak tüm sistemin bilgilerinin güncellenmesi de önerilen algorimanın son aşamasını oluşturmaktadır. Bu çalışmada önerilen MCMSTStream algoritması, aykırı değerlere ve gürültülü verilere karşı dayanıklıdır ve keyfi şekilli kümeleri tanımlayabilme kabiliyetine sahiptir. Ayrıca, önerilen algoritma hızlı ve yüksek boyutlu verileri işleme yeteneğine de sahiptir. MCMSTStream algoritmasının başarısı hem Adjusted Rand Index (ARI) hem de Saflık (Purity) indeksleri kullanılarak ölçülmüştür. Algoritmamızın verimliliğini ortaya koymak için, bu alandaki başarılı algoritmalardan DenStream, DBSTREAM ve KDAR Stream algoritmaları ile karşılaştırılmıştır. Bulgular tablo ve grafiklerle ayrıntılı olarak sunulmuştur. Sonuçlar, önerilen algoritmanın karşılaştırılan akan veri kümeleme algoritmalarından daha iyi performans gösterdiğini ortaya koymaktadır. Ayrıca, çalışmanın zamanı karmaşıklığı da oldukça tatmin edicidir.

Özet (Çeviri)

Streaming data clustering is a popular field for processing and extracting meaningful information from data streams in real-time. Streaming data clustering offers efficient approaches for defining and updating clusters based on similarity criteria. One of the significant challenges in streaming data clustering is identifying non- spherical clusters. However, outliers and noisy data in the streaming data clustering area can significantly degrade clustering performance. In contrast, methods capable of defining non-spherical clusters can enhance the clustering quality. As a solution to these problems, this study proposes a new streaming data clustering approach called MCMSTStream. The proposed algorithm combines the KD-Treebased micro-cluster and Minimum Spanning Tree (MST) based methods to achieve high clustering performance. Our proposed algorithm consists of five stages, which include defining KD-Tree-based microclusters, and then forming macro-clusters by applying MST to defined micro-clusters, defining new microclusters when new data arrives or deleting micro-clusters when the number of data falls below the threshold value of N, assigning new micro-clusters to macro-clusters or deleting macro-clusters when the number of micro-clusters falls below n_micro. As the last step, all system information is updated. The MCMSTStream algorithm that is proposed in this study is robust against outliers and noisy data and can detect arbitraryshaped clusters. Additionally, the proposed algorithm is fast and capable of handling high-dimensional data. In this study, the proposed algorithm's clustering success is measured using the Adjusted Rand Index (ARI) and Purity indices. To demonstrate the efficiency of our algorithm, we conducted experimental studies on state-of-the-art algorithms such as DenStream, DBSTREAM, and KD-AR Stream algorithms. The findings are presented in tables and graphs in detail. The results indicated that the proposed algorithm outperformed the compared algorithms. Furthermore, the time complexity of the algorithm is quite satisfactory.

Benzer Tezler

  1. Lifelong learning for auditory scene analysis

    İşitsel sahne analizi için hayat boyu öğrenme

    BARIŞ BAYRAM

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN İNCE

  2. Robust trajectory optimization of constrained re-entry flight via stochastic collocation based ensemble pseudospectral optimal control

    Stokastik kolokasyona dayalı ensemble pseudospectral optimal kontrol ile kısıtlı yeniden giriş uçuşunun gürbüz yörünge eniyilemesi

    AKAN SELİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Astronomi ve Uzay Bilimleriİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM OZKOL

  3. Human action recognition in ambient assisted living usingcontinuous inertial data

    Ortam destekli yaşam için kesintisiz atalet verisi kullanarak insan aktivitelerinin tanınması

    GAMZE USLU

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYeditepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEBNEM BAYDERE

  4. Araçlardan kaynaklı emisyonların izlenmesine yönelik coğrafi analizler için açık kaynak kodlu ve web tabanlı bir gösterge paneli önerilmesi

    Deploying an open source web-based dashboard for geo-spatial analyses to monitor the emissions from vehicles

    ABDULLAH UĞUR TOPAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. HANDE DEMİREL

  5. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL