Density-based and parameterless clustering of embedded data streams
Boyutu azaltılmış akan verinin yoğunluğa dayalı ve parametresiz kümelenmesi
- Tez No: 694559
- Danışmanlar: PROF. DR. MEHMET VOLKAN ATALAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 95
Özet
Dünyanın hızlı bir şekilde dijitalleşmesiyle üretilen veri miktarı ve verinin üretilme hızı gittikçe artmakta ve bu şekilde akan verinin kaydedilerek topluca işlenmesi zorlaşmaktadır. Bu da akan veriyi kaydetmeden geldiği anda işleme ihtiyacı doğurmaktadır. Çoğu zaman veriyi islemeden once verinin karakterstigi ile ilgili elimizde fazla bilgi bulunmamaktadır. Buna ek olarak, akan verinin özellikleri giderek değişebilmektedir (kavram kayması). Kümeleme metodları verilerin gerçek kümelerine ihtiyaç duymadığından, akan veri için uygundur. Akan veri kümeleme algoritmaları veriyi sadece bir kez okumalı, gerçek zamanda çalışmalı ve verideki kavram kaymasina uyum sağlayabilmelidir. Bu çalışmada geliştirilen Boyutu Azaltılmış Akan Verinin Yoğunluğa Dayalı ve Parametresiz Kümelenmemesi (DBPCES) algoritması ile akan veri 2 boyutlu hale getirilerek, parametre gerektirmeyen yoğunluk tabanlı bir algoritma ile kümelenebilecektir. Akan veriyi iki boyutlu hale getirebilmek için UMAP algoritması akan veriye ve verideki kaymaya duyarlı hale getirilmiştir. Kümeleme için DBSCAN algoritması iki boyutlu hale getirilen veri üzerinde kullanılmıştır. DBSCAN parametreleri geliştirilen bulgusal bir yöntemle tahmin edilerek kullanıcıdan veriye bağlı hiçbir parametre almadan akan veri kümelenmiştir. DBPCES algoritması, gerçek küme sayısı, boyut sayısı ve kavram kayma hızı bakımından farklılık gösteren yapay ve gerçek veri akışları üzerinde çalıştırılmıştır. DBPCES algoritmasının performansı DenStream ve Zubaroğlu ve Atalay' ın algoritması ile karşılaştırılmıştır. Performans değerlendirme ölçütü olarak saflık, siluet skoru ve düzeltilmiş rand endeksi kullanılmıştır. Ayrıca uygulama süreleri de karşılaştırılmıştır. DBPCES, DenStream kadar hızlı olmasa da, kümeleme için kullanıcıdan veriye bağlı herhangi bir parametre almadan diğer algoritmalarla benzer sonuçlar elde etmiştir.
Özet (Çeviri)
With the accelerating digitalization of the world, the amount of high-speed data produced increases rapidly, and it is difficult to record and collectively process such a data-stream. This creates the need for processing as soon as it arrives without recording the data stream. Mostly, there is no prior information about data. Additionally, characteristics of data streams may change over time; this phenomenon is called concept drift. Since clustering works without actual labels, it is suitable to be used on data streams. Clustering algorithms for data streams should read the data only once, work in real-time, and adapt to the concept drift. With Density-Based and Parameterless Clustering of Embedded Data Streams (DBPCES) algorithm developed in this study, data streams are embedded into two dimensions and clustered with a parameterless density-based clustering algorithm. To embed the data stream into 2-dimensions, UMAP algorithm was adapted to handle data streams and concept drift. For clustering, DBSCAN algorithm was used on embedded data points. DBSCAN parameters were estimated with a heuristic so that data stream can be clustered without requiring any data-dependent parameters from the user. DBPCES algorithm was run on synthetic and real data streams that differ in actual cluster count, dimension count, and concept drift rate. The performance of DBPCES was compared with DenStream and implementation of Zubaroğlu and Atalay. As evaluation metrics, adjusted rand index, purity, and silhouette coefficient were used. Additionally, execution times were compared as well. Although DBPCES was not as fast as DenStream, it achieved similar results with other algorithms.
Benzer Tezler
- Türkiye'de kıyısal ve karasal tuzlu göllerde yayılım gösteren Artemia populasyonlarının ekolojik, sitogenetik, moleküler, morfomometrik yöntemler kullanılarak araştırılması ve biyotopların hidrobiyolojik yönden incelenmesi
Hydrobiology of biotopes and ecological, cytogenetical, molecular and morphometrical analaysis of Artemia populations in coastal and inland saline ecosystems in Turkey
ARMİN ESKANDARİ
- Demir bazlı farklı alaşım nanoyapılarının sentezi ve martensitik faz geçişlerinin, termal özelliklerinin yoğunluk fonksiyonel teorisi ile hesaplanması
Synthesis of martencitic phase transitions and thermal properties of density functional theory of iron based different alloy nano structures
ÖZLEM SAVAŞ PEKDUR
Doktora
Türkçe
2020
Fizik ve Fizik MühendisliğiErciyes ÜniversitesiFizik Ana Bilim Dalı
PROF. DR. SEMA ÖZTÜRK YILDIRIM
- Metalotermik redüksiyon ile molibden disilisit bileşimlerinin üretilmesi
Production of molybdenum disilicide compounds via metallothermic reduction method
LEVENT DEMİRCİ
Yüksek Lisans
Türkçe
2018
Metalurji Mühendisliğiİstanbul Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
PROF. DR. ONURALP YÜCEL
- Bazı demir tabanlı yarıiletkenlerin termal taşınım özelliklerinin temel ilkelerden incelenmesi
Thermal transport properties of some iron based semiconductors from first principles
SELEN CEYLAN
Yüksek Lisans
Türkçe
2018
Fizik ve Fizik MühendisliğiTekirdağ Namık Kemal ÜniversitesiFizik Ana Bilim Dalı
PROF. DR. SERBÜLENT YILDIRIM
DOÇ. DR. TANJU GÜREL
- Hafif elektrikli araç uygulamaları için gömülü mıknatıslı senkron motorun tasarım ve optimizasyonu
Design and optimization of permanent magnet synchronous motor for light electric vehicle applications
KEVSER ÖZER
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT YILMAZ