Context aware real-time clustering with cortical coding method
Kortikal kodlama yöntemi ile bağlama duyarlı gerçek zamanlı kümeleme
- Tez No: 894539
- Danışmanlar: PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 69
Özet
Zamanla değişen dinamik sistemlerden elde edilen verilerin gerçek zamanlı kümelenmesi, anomali tespiti, otomasyon ve karar verme sistemleri gibi uygulamalarda önemli bir rol oynamaktadır. Buna rağmen, geleneksel kümeleme yöntemleri düşük ölçeklenebilirlik sergiler ve optimal performans elde edebilmek için örneğin küme sayısı gibi önceden verilmesi gereken parametrelere ihtiyaç duyarlar. Ancak dinamik sistemlerden elde edilen veri setlerinde çalışırken optimal küme sayısı ve kümelerin karakteristikleri zaman içinde değişebilir. Bu nedenle, dinamik veriler için ideal bir kümeleme yöntemi mevcut kümeleri sürekli olarak adapte edebilmeli ve gerektiğinde kümeler oluşturabilmeli veya ortadan kaldırabilmelidir. Çevrimiçi (gerçek zamanlı) kümeleme yöntemleri hızlı, dinamik karakteristiklere adapte edilebilmeli ve anomalilere karşı dirençli olmalıdır. Bu gereksinimler nedeniyle algoritmalarda yüksek zaman ve bellek ihtiyacı oluşur. Bu algoritmaların verileri gerçek zamanlı olarak işlediği göz önüne alındığında tüm veya son veriyi depolamak ve her işlemde veriye erişmek bellek kullanımı ve işlem süresi açısından maliyeti artırır. Maliyeti düşürürken algoritmanın değişen karakteristiklere adapte olması engellenmemelidir. Bu sebeplerle, iyi tasarlanmış bir çevrimiçi kümeleme algoritması çeşitli koşulları sağlamalıdır. Öncelikle, algoritmanın hızlı ve aşamalı bir şekilde veri işleme yeteneği olmalıdır. Bu yöntem değişen koşulları takip ederek kümeleri adapte etme, oluşturma ve silme yetisine sahip olmalıdır. Ayrıca, algoritma anormal değerleri hızla tespit etmeli ve onlardan kalıcı olarak etkilenmemelidir. Bu tezde, kortikal kodlama yöntemine dayanan yeni bir gerçek zamanlı kümeleme algoritması tanıtılmaktadır. Önerilen yöntem, gerçek zamanlı ve hiyerarşik bir kümeleme algoritmasıdır. Kortikal kodlama yöntemi ağaç şeklinde olan hiyerarşik bir küme yapısını verileri aşamalı olarak işleyerek oluşturur. Tezde kortikal kodlama yönteminin temel işleyişi ve yöntemin gerçek zamanlı ve çok değişkenli kümeleme performansını artırmak için yapılan geliştirmeler anlatılmaktadır. Kortikal kodlama yönteminin temel ilham kaynağı, beynin sinir ağlarında bulunan enerji-entropi ilişkisidir. Bu yöntem, veri altkümelerini temsil etmek için bir ağaç yapısı oluşturur. Bu ağaç yapısındaki her düğüm, bir altkümeyi temsil eder. Yöntemin amacı, veriyi eşit olasılıklı kümeler şeklinde bölmek ve maksimum entropiye ulaşmaktır. Ağaç yapısındaki düğüm oluşumu, enerji birikimi temelli bir evrim sistemi tarafından kontrol edilir. Düğümler, yeni veri geldiğinde kendilerini adapte eder ve bu veriyi sonraki seviyedeki uygun düğüme aktarır. Düğümler ilk oluştuğunda geniş bir kümeyi temsil eder, ancak yeni veri geldikçe sadece gelen veriyi temsil eden ideal alanı bulmak için daralırlar. Bu çalışmada, kortikal kodlama yöntemine yapılan temel geliştirmelerden biri, kümelerin çok değişkenli normal dağılımlar şeklinde temsil edilmesidir. Kümelerin tek bir merkez noktası yerine çok değişkenli normal dağılımlar şeklinde temsil edilmesi, yöntemin küresel olmayan kümeler içeren veri setlerinde de kümeleme performansını artırmayı amaçlar. Kümelerin çok değişkenli dağılımlar olarak kodlanması, yöntemin tek bir düğümünde birden fazla parametreyi kümeleyebilme yeteneğini sağlar. Ayrıca, kümeleri sadece bir merkez noktası ile temsil eden düğümler özel bir küçülme sınırlandırmasına ihtiyaç duyar. Kümelerin dağılım şeklinde ifade edilmesi doğal bir yakınsama noktası oluşturur ve özel bir sınırlandırma yapılmadan küme alanının küçülmesi yavaşlar. Yöntemin kümeleme performansını ve anomaliye karşı direncini artırmak amacıyla yapılan bir diğer geliştirme, enerji tabanlı evrim sistemidir. Kortikal kodlama yönteminde gelen veri, kök düğümden başlar ve sonraki seviyelerde bulunan uygun altkümeleri temsil eden düğümlere aktarılarak devam eder. Eğer verinin ulaştığı düğümde uygun kümeli bir çocuk düğüm yoksa yeni bir düğüm oluşturulur. Ağaç yapısında oluşturulan bu yeni düğümlerin hepsi bir aday küme olarak kabul edilir. Bu aday küme düğümlerinin bir kümeyi temsil edebilmesi için evrilmesi gerekir. Bu evrim sistemi, enerji birikimi tarafından kontrol edilir. Gelen veri, kök düğümden dallara doğru hareket ederken uygun kümeleri temsil eden düğümleri ziyaret eder ve bu düğümlere enerji taşır. Taşınan enerji düğümlerde birikir. Yeterli miktarda enerji biriken bir düğüm, evrilerek bir küme temsil etmeye başlar. Evrilmiş kümeler, çocuk düğümler oluşturabilirler. Aynı zamanda, düğümler sürekli olarak enerji kaybederler. Uzun süre enerji almayan ve enerji kaybı nedeniyle enerjisi belirli bir seviyenin altına düşen düğümler silinir. Bu silinme özelliği sayesinde yöntem unutma yeteneğine sahip olur. Uzun süre kullanılmayan ve artık gereksiz hale gelen kümeler unutulur ve düğüm ağaçtan silinir. İlk defa görülen bir veri ise aday bir küme oluşturur ve benzer veriler gelmeye devam ederse bu küme kalıcı hale gelebilir. Geliştirilen kortikal kodlama yönteminin kümeleme performansı üç deney ile test edilmiştir. Bu deneylerin ilk ikisinde, kümeleme performansını test etmek için toplanmış altı veri seti kullanılmıştır. Bu altı veri setinden dördü özellikle yöntemlerin kümeleme problemlerindeki davranışlarını gözlemleyebilmek üzere tasarlanmış sentetik veri setleridir. Diğer iki veri seti ise gerçek verilerden oluşan ve yaygın olarak kullanılan sınıflandırma veri setleridir. Sentetik veri setleri sırasıyla basit küresel kümeler, farklı boyutlarda küresel kümeler, küresel olmayan anizotropik kümeler ve son olarak da iki bölge ile temsil edilemeyen iç içe geçmiş kümeler içermektedir. Sentetik veri setlerinin küme karakteristiklerindeki farklılıklar, karşılaştırılan yöntemlerin hangi küme tiplerinde daha iyi sonuç verdiğinin gözlemlenmesine olanak sağlamaktadır. Kapsamlı bir performans karşılaştırılması yapmak için üç farklı deney hazırlanmıştır. Deneylerde kümeleme performansını değerlendirmek için farklı küme sayılarında da karşılaştırılabilir değerler üreten NMI (Normalized Mutual Information) kullanılmıştır. İlk deneyde yöntemlerin kümeleme performansları karşılaştırılmıştır. Bu deney hem çevrimiçi hem de çevrimdışı kümeleme algoritmalarını içerir. Çevrimdışı yöntemlerin sonuçları, çevrimiçi yöntemler için bir referans noktası olarak kullanılır. İkinci deneyde yöntemlerin önceden verilmiş bir bilgi olmadan gürültülü ve gürültüsüz veri setlerinde doğru küme sayısını bulabilme yetenekleri test edilir. Son deneyde ise yöntem, merkezi sürekli değişen bir kümeye sahip olan veri setinde test edilmiştir. Bu deneyin amacı, yöntemin adaptasyon yeteneğini ve geçersiz hale gelen eski verilerin kalıcı etkilerini gözlemlemektir. İlk deneyin sonuçlarına bakıldığında, önerilen kortikal kodlama temelli gerçek zamanlı kümeleme yönteminin, karşılaştırılan diğer çevrimiçi yöntemlere göre daha iyi performans gösterdiği görülmüştür. Özellikle NMI açısından, sıralı k-means yöntemine kıyasla \%14 ve BIRCH yöntemine kıyasla \%25 daha iyi performans sağladığı gözlemlenmiştir. Aynı zamanda veriyi gerçek zamanlı olarak işleyen çevrimiçi yöntemlerin tüm veriye erişememe gibi kısıtlamalarına rağmen, kortikal kodlama yönteminin karşılaştırılan çevrimdışı yöntemlere benzer ve bazı durumlarda daha iyi performans gösterdiği gözlenmiştir. İkinci deneyde yöntemlerin doğru küme sayısını ne kadar iyi tespit ettiği değerlendirilmiştir. Kortikal kodlama yöntemi, tüm veri setleri üzerinde en iyi sonuçları vermiştir. Ayrıca, bu deney dahilinde karşılaştırılan yöntemlerin gürültülü verilere karşı direnci de test edilmiştir. Özellikle kortikal kodlama yönteminin gürültülü ve gürültüsüz verilerde benzer sonuçlar elde ettiği ve bu nedenle doğru küme sayısını tespit etme konusunda veri gürültüsünden en az etkilenen yöntem olduğu gösterilmiştir. Son deneyde ise geliştirilmiş kortikal kodlama yönteminin dinamik sistemlerdeki davranışı incelenmiştir. Önceden belirtildiği gibi değişen veri karakteristiklerine adapte olabilme, gerçek zamanlı olarak işlenebilen dinamik sistemler için kritik bir gereksinimdir. Son deney, kortikal kodlama yönteminin enerji birikimi temelli sistemin sonucu olan unutma ve adaptasyon yeteneklerini sergilemektedir. BIRCH algoritmasına kıyasla, kortikal kodlama yönteminin geçersiz kümeleri silerek performansı artırdığı ve ayrıca bu kümeleri gereksiz yere bellekte tutmadığı gözlemlenmiştir. Kümeleme deneylerine ek olarak yöntemin anomali tespiti için kullanılabilirliği test edilmiştir. Temelinde kortikal kodlama yöntemini kullanan bir anomali tespit sistemi tarımsal izleme istasyonları tarafından toplanan veri üzerinde denenmiştir. Deneyler sonucunda yöntemö zaman serilerinde tahmin ve anomali tespiti için kullanılan SARIMAX algoritmasından daha fazla anomali noktasını tespit etmeyi başarmıştır. Deney sonuçları, kortikal kodlama yönteminin gerçek zamanlı kümeleme için kritik olan alanlarda başarılı olduğunu göstermektedir. Yöntem, veriyi gerçek zamanlı olarak işleyerek değişen küme karakteristiklerine sürekli adapte olmayı başarmış, gerektiğinde yeni kümeler oluşturmuş ve geçersiz hale gelen kümeleri silmiştir. Yöntemin anomaliye karşı dirençli olduğu da gözlemlenmiştir, bu nedenle anomali tespiti problemleri için umut verici sonuçlar sunmaktadır. Ayrıca, her düğüm bağımsız karar mekanizmasına sahip olduğu için yöntem yüksek ölçüde paralelleştirilebilir. Sonuçlar, kortikal kodlama yönteminin gerçek zamanlı çok değişkenli kümeleme problemleri için kullanılabileceğini kanıtlamaktadır.
Özet (Çeviri)
This thesis introduces a novel online clustering algorithm based on the cortical coding method to address the challenges of data stream clustering. Traditional clustering methods often struggle to deliver optimal performance in such scenarios. The proposed algorithm processes incoming data sequentially, creating new clusters or adapting existing ones while aiming to maximize the entropy. It incorporates an energy-based technique to regulate the creation, evolution, and removal of clusters. Additionally, the energy-based evolution mechanism for clusters removes the harmful effects of anomalous points. The motivation behind this research stems from the increasing demand for real-time systems that deal with large amounts of data. Traditional clustering methods lack scalability and require prior information, such as the number of clusters or a similarity threshold, for optimal performance. However, the optimal number of clusters and their characteristics can change over time in dynamic systems. Therefore, an ideal clustering method for dynamic data should be online, adaptive, and resilient to outliers. This thesis aims to present an extended version of the cortical coding method as a novel online clustering algorithm. The research evaluates the cortical coding method's clustering performance and time complexity on various problems, demonstrating its superiority over popular online clustering methods and comparable or superior performance to conventional offline methods. The proposed method shows promising results for the potential applications of this method in real-time anomaly detection, feature extraction, and state detection. Additionally, the method is evaluated on a real world anomaly detection problem to demonstrate its applications. In conclusion, the research presents an extended version of the cortical coding method as an effective solution for online clustering problems. The method demonstrates superior performance to compared methods and outperforms existing online clustering algorithms. It exhibits robustness against anomalous data and provides dynamic adaptation to changing systems. The article suggests potential future work, including further parameter analysis, exploration of parallelization techniques, and the method's application in anomaly detection and feature extraction.
Benzer Tezler
- Context-aware remote sensing data processing for improvement of agricultural predictions
Bağlam farkındalıklı uzaktan algılama veri entegrasyonu ile tarımsal tahminlerin iyileştirilmesi
AYDA FITRIYE AKTAŞ
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Context aware audio-visual environment awareness using convolutional neural network
Konvolüsyonel sinir ağı kullarak ses ve görüntü aracılığıyla ortam farkındalığı
GİRAY YILLIKÇI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. İBRAHİM AKDUMAN
- Careact: An adaptive and context aware framework for anomaly detection in ambient assisted living
Careact: Çevre destekli yaşam alanlarında normaldışı durum yakalama için uyarlanabilir ve bağlam duyarlı bir çatkı
MUSTAFA OZAN ÖZEN
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEM ERSOY
- Müşteri ilişkileri yönetiminin yaygın bilişim ve ortam duyarlı mobil pazarlama perspektifinden incelenmesi ve bir uygulama
Reassessment of customer relationship management from ubiquitous computing and context-aware mobile marketing perspective and an application
ADNAN VEYSEL ERTEMEL
- Application of a voting-based ensemble method for recognizing seven basic emotions in real-time webcam video images
Gerçek zamanlı web kamerası video görüntülerinde yedi temel duygunun tanınmasına yönelik oylamaya dayalı topluluk yönteminin uygulanması
AHMET TUNAHAN ŞANLI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT SARAN