Memory efficient online hierarchical clustering based on undersampling
Örneklemeye dayalı hafıza verimli çevirimiçi hiyerarşik kümeleme
- Tez No: 729749
- Danışmanlar: DOÇ. DR. CEMAL OKAN ŞAKAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Teknolojinin hızla gelişmesi ve yaygınlaşması ile birlikte klasik algoritmaların güncel ihtiyaçlara cevap vermesi zorlaştı. Bazı algoritmaların bilinen zaafları daha fazla engel oluşturur hale geldi. Kümeleme algoritmalarının bir kısmı benzerlik matrisine bağımlı çalıştığı bilinen bir durumdur. Ancak bu durum hafıza kaynaklarının sınırları dahilinde çalışmaya olanak sağlamaktadır. Veri boyutu arttığında algoritmalar çalışmamaktadır. Klasik hiyerarşik kümeleme algoritması da en bilinen ve başarılı algoritmalardan biri olmasına rağmen bu kısıtlara sahip bir algoritmadır. Önerilen metot, algoritmanın bu zaafının üstesinden gelmeye yönelik olacaktır. Bununla birlikte yığın çalışan bu algoritmanın yeni veri seti geldiğinde çevrimiçi olarak güncellemesine imkân sağlayacak olup, aynı şekilde, yeni gözlemlerin de gerçek zamanlı küme atamasının yapılmasına imkân vermektedir. Önerilen metot kısaca, klasik algoritmadan farklı olarak, veriyi yığınlar halinde işleyerek hafızaya ani yüklenme durumunu ortadan kaldırmaktadır. Her bir yığın, basit yöntem ile analiz edildikten sonra SMOTE algoritması yardımı ile düzenlenir ve küçültülür. Yığınlar daha küçük hacimde bilgilerini koruyarak ana veri setine dahil edilir. Böylelikle ana setin küme bilgisi korunarak küçültülmüş olur. En son aşamada tespit edilen kümelere göre atamalar gerçekleştirilir. Bu yöntem çok sayıda ve farklı özelliklerde veri seti ile test edilmiş ve klasik hiyerarşik kümeleme algoritmasının başarımı ile karşılaştırmalı olarak değerlendirilmiştir. Genel performans incelendiğinde; tespit başarımı ve hesaplama süresi üzerinden bir miktar kayıp olmasına karşın, kullanılan hafıza kaynak miktarı yönetilebilir hale gelmiştir.
Özet (Çeviri)
With the rapid development and spread of technology, it has become difficult for classical algorithms to respond to current needs. Known weaknesses of some algorithms have become greater obstacles. It is a known situation that some of the clustering algorithms work dependent on the similarity matrix. However, this allows working within the limits of memory resources. Algorithms cannot work when the data size increases. Although the classical hierarchical clustering algorithm is one of the most successful algorithms, it has the memory-related limitations. In this thesis, an undersampling-based method is proposed to overcome this weakness of the algorithm. This approach, which works in batches, will allow the algorithm to be updated online when a new data set arrives, as it allows real-time cluster assignment of new observations. In short, the proposed method processes the data in batches and eliminates the sudden load on the memory, unlike the classical algorithm. Each data batch is analyzed with classical algorithm, it is organized and reduced in size with the help of the SMOTE algorithm. Stacks are included in the master dataset, which preserves a smaller volume of information. Thus, the cluster information of the main set is preserved and minimized. Finally, assignments are made according to the clusters determined in the last stage. This method has been tested with a large number of data sets with different characteristics and results has been compared with the performance of the classical hierarchical clustering algorithm. When the overall performance is examined; although there is some loss in detection performance and computation time, the amount of memory resources used has become more manageable.
Benzer Tezler
- Online nonlinear modeling for big data applications
Büyük veri uygulamaları için onlıne non lineer olmayan modelleme
FARHAN KHAN
Doktora
İngilizce
2017
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. SÜLEYMAN SERDAR KOZAT
- Elektrik güç sistemlerinde durum kestirimi
Electrical power system state estimation
YEŞİM NEMLİOĞLU
Yüksek Lisans
Türkçe
1993
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. NESRİN TARKAN
- Exploring opinions of corporate instructional designers on their professional development and training needs
Kurumsal öğretim tasarımcılarının mesleki gelişim ve eğitim ihtiyaçları konusundaki görüşlerinin araştırılması
NAZLI GÖKALP
Yüksek Lisans
İngilizce
2025
Eğitim ve ÖğretimOrta Doğu Teknik ÜniversitesiEğitim Programları ve Öğretimi Ana Bilim Dalı
DR. ELİF ÖZTÜRK
- Low complexity efficient online learning algorithms using LSTM networks
UKSB ağları ile düşük karmaşıklığa sahip verimli çevrimiçi öğrenme algoritmaları
ALI HASSAN MIRZA
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN SERDAR KOZAT
- Efficient online training algorithms for recurrent neural networks
Yineliyici sinir ağları için verimli çevrimiçi eğitim algoritmaları
NURİ MERT VURAL
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SERDAR KOZAT