Geri Dön

Online embedding and clustering of evolving data streams

Değişken veri akışlarının çevrimiçi boyutsal küçültülmesi ve kümelenmesi

  1. Tez No: 781835
  2. Yazar: ALAETTİN ZUBAROĞLU
  3. Danışmanlar: PROF. DR. MEHMET VOLKAN ATALAY
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 145

Özet

Bağlantılı cihazların sayısı giderek artmakta ve bu eğilimin yakın gelecekte de devam etmesi beklenmektedir. Bağlantılı cihazlar sürekli olarak akan veri üretir ve akan veri genellikle yüksek boyutlu olabilir ve kavram kayması içerebilir. Veri akışlarının gerçek zamanlı olarak işlenmesi, birçok zorluğa rağmen ilgi uyandıran bir araştırma konusudur. Veriler ve etiketleri hakkında sınırlı bilgi mevcut olduğunda, denetimsiz öğrenme ve özellikle kümeleme, önemli bir analiz yöntemi haline gelir. Bununla birlikte, çoğu kümeleme algoritması, küme sayısının önceden bilinmesini ve algoritmaya bir girdi olarak verilmesini gerektirir. Ayrıca, akan veri kümelemesi birçok açıdan geleneksel kümelemeden farklıdır ve çeşitli zorlayıcı durumları bulunmaktadır. Akan verinin zaman içinde değişmesi nedeniyle küme sayısı değişebilir. Bu nedenle, yalnızca başlangıçtaki küme sayısının değil, akış boyunca küme sayısındaki değişimin de tahmin edilmesi gerekir. Veri gömme, yüksek boyutlu verinin görselleştirilmesini mümkün kılar ve kümeleme sürecini kolaylaştırabilir. Literatürde çeşitli akan veri kümeleme algoritmaları vardır, ancak akan veri gömme yöntemi yoktur. Uniform Manifold Approximation and Projection (UMAP), durağan, kavram kayması içermeyen akan veriye uygulamaya uygun bir veri gömme algoritmasıdır, ancak kavram kaymasına adapte olamamaktadır. Bu çalışmada iki yeni yöntem sunduk. NoCStream, küme sayısını sürekli tahmin eder. EmCStream, UMAP algoritmasını kavram kayması içeren akan veriye uygulayarak kavram kaymasını algılar, adapte olur ve mesafe ya da bölümleme tabanlı bir kümeleme yöntemi kullanarak akan veriyi kümeler. EmCStream yöntemini, kavram kayması içeren sentetik ve gerçek akan veri kullanarak, en çok bilinen akan veri kümeleme algoritmalarına karşı değerlendirdik. EmCStream, değişken sentetik ve gerçek akan veri üzerinde, kümeleme kalitesi bakımından DenStream ve CluStream'den daha iyi sonuç verdi. Ayrıca NoCStream yömtemini de değerlendirmek için, küme sayısı tahmini, kümeleme kalitesi ve genelliği bakımından diğer yöntemlerle karşılaştırdık. NoCStream, değişken sentetik ve gerçek akan veri üzerinde, diğer yöntemlerden daha iyi sonuç verdi.

Özet (Çeviri)

Number of connected devices is steadily increasing and this trend is expected to continue in the near future. Connected devices continuously generate data streams and the data streams may often be high dimensional and contain concept drift. Real-time processing of data streams is arousing interest despite many challenges. When limited information is available about the data and its labels, unsupervised learning and particularly clustering becomes an important method of analysis. However, most clustering algorithms require the number of clusters to be known a priori and to be given as an input to the algorithm. Moreover, data stream clustering differs from traditional clustering in many aspects and it has several challenging issues. The number of clusters even changes due to the fact that data streams evolve over time. Therefore, not only the initial number of clusters but the change in the number of clusters should also be predicted throughout the stream. Also, data embedding makes the visualization of high dimensional data possible and may simplify clustering process. There exist several data stream clustering algorithms in the literature, however no data stream embedding method exists. Uniform Manifold Approximation and Projection (UMAP) is a data embedding algorithm that is suitable to be applied on stationary (stable) data streams, though it cannot adapt concept drift. In this study, we describe two novel methods, NoCStream that predicts the number of clusters continuously; and EmCStream, to apply UMAP on evolving (non-stationary) data streams, to detect and adapt concept drift and to cluster embedded data instances using a distance or partitioning based clustering algorithm. NoCStream determines the optimal number of clusters and EmCStream embeds and clusters high dimensional evolving data streams continuously in real-time. We have evaluated EmCStream against the state-of-the-art stream clustering algorithms using both synthetic and real data streams containing concept drift. EmCStream outperforms DenStream and CluStream, in terms of clustering quality, on both synthetic and real evolving data streams. We have also evaluated NoCStream and compared its performance with other methods in terms of the prediction of number of clusters, clustering quality and its genericity. NoCStream outperforms other methods on both synthetic and real evolving data streams.

Benzer Tezler

  1. Çapraz e-ticaret pazarlarında hibrit öneri sistemi

    Hybrid recommendation system at cross e-commerce markets

    EMRE KÖSE

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  2. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  3. Anahtar kelime çıkarımı için kelime vektörleri: Karşılaştırmalı bir değerlendirme

    Word embdeddings for automatic keyword extraction: A comparative assessment

    IRMA DIBRA

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALEV MUTLU

  4. Detecting offensive language from social media using word embedding and language models

    Kelime temsil ve dil modelleri kullanarak sosyal medyadan saldırgan dil algılama

    RAGHAD BİRECİKLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SELMA AYŞE ÖZEL

  5. Study of word embedding rules and machine learning based text classification

    Kelime gömme kuralları ve metin sınıflandırması tabanlı makine öğrenme üzerine bir çalışma

    ASMAA AL-GARTANEE

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı

    PROF. DR. ALOK MISHRA

    YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR