A novel approach to optimization of iterative machine learning algorithms: Over heap structure
Yinelemeli makine öğrenimi algoritmalarının optimizasyonuna yeni bir yaklaşım: Yığın yapısı üzerinden
- Tez No: 820343
- Danışmanlar: PROF. DR. MEHMET M DALKİLİC
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Indiana University Bloomington
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 112
Özet
Bu tez, yinelemeli veri madenciliği ve makine öğrenimi algoritmalarının (IT-DMA) eğitim sürecindeki çalışma zamanı karmaşıklığını azaltmayı amaçlayan bir optimizasyon yöntemini ele almaktadır. Büyük verinin boyutları artmasına rağmen, kullanılan veri madenciliği ve makine öğrenimi algoritmaları temelde aynı kalmıştır. K-ortalamalar kümeleme (KM) ve beklenti maksimizasyonu (EM-T) gibi IT-DMA yöntemleri, yaşlarına rağmen hâlâ en popüler algoritmalar arasında yer almakta ve birçok alanda kullanılmaktadır. Ancak bu algoritmalar, sürekli ve ayrım gözetmeksizin tüm veri noktalarını tekrar işlediği için büyük veri setleri karşısında zorluk yaşamaktadır. Büyük veri, geniş bellek ve güçlü işlemcilerin hakim olduğu bu yeni dönemde, IT-DMA'nın büyük veri ile başa çıkma kapasitesi sınırlıdır. Bunun nedeni, her iterasyonda verinin eşit bir şekilde ele alınmasıdır; yani maliyet üzerindeki etkisi ne olursa olsun verinin kullanım şekli aynı kalmaktadır. Ancak, bazı veri noktalarının maliyet üzerinde daha belirgin bir etkisi (yüksek ifade - HE) olduğu, diğerlerine (düşük ifade - LE) göre daha belirgindir. Eğer bu farklılık ve aralarındaki ilişki değerlendirilebilirse, yüksek ifadeye sahip verilere odaklanarak bu durumdan faydalanılabilir. Burada onemli bir soru ortaya çıkmaktadır: Yakınsama, sadece maliyetin bir limiti olarak değil, HE ve LE'nin maliyet üzerindeki değişken etkisi olarak yeniden tanımlanabilir mi? Bu yeni çalışmada, bu sorulara bir yanıt getiriyoruz: IT-DMA'ya yapı ekleyerek, kuvvetli ve zayıf olarak adlandırdığımız yığınlar aracılığıyla LE ile HE'yi ayırıyoruz. Kuvvetli yığın, eklemelerle sürekli büyüyen bir özellik taşır. Yakınsamanın, LE ve HE arasındaki oransal karışımın izlenmesiyle belirlendiğini bulduk. Eğer süreçte daha fazla ilerleme kaydedemiyorsak ve yığın yapraklarındaki veri değişmiyorsa durmaktayız. Bu yaklaşımı, popüler olan EM-T ve KM algoritmaları üzerinde uyguladık. Sonuçlarımız, çeşitli testlerle EM-T ve KM üzerinde önemli iyileştirmeleri ortaya koymaktadır. Ayrıca, KM ve EM gibi yinelemeli algoritmaların, genel anlamda yapılarla optimize edilip edilemeyeceği de heyecan verici bir sorudur. Başka bir ilginç bulgu, yakınsama sırasında yapraklarda kalan verinin, maliyete anlamlı katkıda bulunmayan kullanışlı veri ve gürültü karışımı olduğudur.
Özet (Çeviri)
This thesis describes an optimization approach designed to reduce training run-time complexity of iterative data mining and machine learning algorithms (IT-DMA). As big data becomes truly big, the standard repertoire of data mining and machine learning algorithms over the last several decades have remained virtually unchanged. Despite their age, IT-DMA, such as k-means clustering (KM), expectation maximization for clustering algorithms (EM-T), are still among the most popular learning algorithms and widely used over a variety of domains. However, they become overwhelmed with big data since all data points are being continually and indiscriminately revisited. In this new era of big data, plentiful memory, and powerful CPUs, IT-DMA eventually are over- come with scale. One is struck by the fact that, as an optimization problem, the data is treated equivocally at each iteration, i.e., no matter the effect on cost: how the data is used remains un- changed and uniform. As data re-visited, however, it is clear that some data has more of a change on cost (high expression) than other (low expression). If there were both a means of assessing this difference as well as their relationship, e.g., does high expression (HE) tend to become low expression (LE), then it could be exploited by guiding the iterate to HE. One especially interesting questions arises: is it possible, or even feasible, to rethink convergence, not as a limit of cost only, but as proportion of HE and LE changing cost? If, for example, the data are all LE, then there is unlikely any substantial change (improvement) to cost. In this novel work, we have found a means of answering these questions: we add structure to IT-DMA, separating LE from HE through use of heaps that we call strong and weak. Strong heap possess an additional invariant to the heap property that grows monotonically with insertions. Convergence is found by examining the relative mixes of LE and HE–when no more progress can be made–the leaves remain the same kind, we stop. We show implementation of this framework over two popular IT-DMA algorithms, EM-T and KM. Our results are dramatic improvements over EM-T and KM through different kinds of testing: scale, dimension, and separability. What is as exciting is the question of whether iterative algorithms, like KM, EM, can, in general, be optimized using structures. An interesting side result is that we believe what remains in leaves at convergence is a mix of useful data and noise–data that does not contribute meaningfully to cost.
Benzer Tezler
- Machine Learning-enabled optimization of microneedle design for interstitial fluid collection
Interstisyel sıvı toplama için makine öğrenimi etkileştirilmiş mikroiğne tasarım optimizasyonu
CEREN TARAR
Yüksek Lisans
İngilizce
2023
BiyoteknolojiKoç ÜniversitesiBiyomedikal Bilimler ve Mühendislik Ana Bilim Dalı
DOÇ. DR. SAVAŞ TAŞOĞLU
- Improved extreme learning machines and applications
Geliştirilmiş aşırı öğrenme makineleri ve uygulamaları
MOHANAD ABD SHEHAB AL KARAWI
Doktora
İngilizce
2018
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NİHAN KAHRAMAN
- Nesnelerin internetinde kenar hesaplama ve makine öğrenmesi kullanılarak yeni bir görev tamamlama algoritması
A novel task offloading algorithm using edge computing and machine learning in the internet of things
MUHAMMET TAY
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARAFAT ŞENTÜRK
- Brute force launch vehicle ascent trajectory assessment with a novel vectorized simulator
Vektörize benzetici ile fırlatma araçlarının yükseliş yörüngesini kaba kuvvet değerlendirme
AHMET ENES YÜCEYURT
Yüksek Lisans
İngilizce
2024
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. ALİM RÜSTEM ASLAN
- Optimization based polyhedral region approach for multi-class data classification problem
Çok gruplu veri sınıflandırması problemi için eniyileme tabanlı çokyüzlü bölge yaklaşımı
FATİH RAHİM
Doktora
İngilizce
2019
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği ve İşletme Yönetimi Bilim Dalı
PROF. DR. METİN TÜRKAY