Geri Dön

Time series classification via topological data analysis

Topolojik veri analizi ile zaman serilerinin sınıflandırılması

  1. Tez No: 745646
  2. Yazar: ALPEREN KARAN
  3. Danışmanlar: PROF. DR. ATABEY KAYGUN
  4. Tez Türü: Doktora
  5. Konular: Matematik, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Bu çalışma, zaman serilerinin sınıflandırılması için Topolojik Veri Analizi ve altpencereleme metodu ile özellik üretme yöntemlerinin gücünü göstermeyi amaçlar. Uygulama olarak, iki adet halka açık (WESAD ve DriveDB) veri kümesini kullandık. Bu veri kümeleri, stresli ve stressiz koşullar altında toplanmış fizyolojik sinyallerden oluşmaktaydı. Ayrıca, yöntemlerimizin güvenilirliğini anlamak için, özellik üretme yöntemlerimizi, stres belirleme çalışmalarını taklit eden ve sentetik fizyolojik sinyallerden oluşan bir veri seti üzerinde test ettik. Sonuçlar, otomatik olarak oluşturulmuş topolojik özelliklerin, sinyale özgü (ECG sinyalinden kalp atış hızı özelliği üretilmesi gibi) el yapımı özelliklerden daha yüksek doğrulukla sınıflandırma yapabileceğini gösterdi. Bu çalışmanın birinci bölümü olan giriş bölümünde topolojik veri analizi ve kalıcı homoloji kısaca özetlenmiştir. Ayrıca, kalıcı homoloji ile zaman serileri sınıflandırmasının nasıl yapılabileceği tartışılmıştır ve konuyla ilgili yapılmış önceki çalışmalara değinilerek literatür taraması tamamlanmıştır. İkinci bölümde, zaman serileri yöntemlerinden bahsedilerek, bunların sınıflandırmasının nasıl yapılabileceği tartışılmıştır. Kayan pencereler yöntemini tanıtarak, bunun makine öğrenmesi modellerinde niçin avantajlı olabileceğini dile getirdik. Ardından, zaman gecikme dönüşümünden bahsederek, bir zaman serisinin çok boyutlu bir veri kümesine nasıl dönüştürülebileceğini gösterip, oluşan veri kümesinin gecikme boyutunun farklı değerlerine göre topolojik olarak nasıl etkilendiğinden bahsedip bunu örneklendirdik. Bu bölümün sonunda ise, çalışmanın esas problemini çözen altpencereleme metodunu anlattık. Bu yöntemin, gürültünün giderilmesini, hesap süresinin önemli ölçüde azaltılmasını, ve büyük uzunluktaki kayan pencereleri hesap süresini artırmadan kullanılmasını sağladığını gösterdik. Çalışmanın üçüncü bölümü topolojik veri analizi ve kalıcı homolojinin teorik altyapısını veriyor. Bölüm, elimizdeki veri kümesini niçin farklı ölçeklerde gözlemlememiz gerektiğini tartışarak başlıyor. Ardından simpleks ve basit kompleks ile ilgili temel tanımları veriyoruz. Nerve teoreminden bahsederek, bir topolojik uzay ile bir basit kompleksin bazı şartlar altında homotopi denk olduğunu gösteriyoruz. Bu teorem bize Cech (ve dolayısıyla Rips) komplekslerin, bir veri kümesinin örneklendiği objeye topolojik olarak benzediğini söylüyor. Daha sonra, basit homolojiden bahsederek, basit kompleksler üzerinde homoloji hesabının nasıl yapılabileceğini gösteriyoruz. Ne var ki, bir veri seti üzerine basit kompleks inşa etmek için sabit bir uzaklık parametresine (epsilon) ihtiyaç duyuyoruz. Kalıcı homoloji teorisi ise, farklı epsilon değerleri için oluşan farklı basit komplekslerdeki homoloji gruplarının hangi epsilon aralıklarında yaşadığını hesaplamamızı sağlıyor. Bu bölümde kalıcı homoloji hesabının nasıl yapıldığını gösterdikten sonra, kalıcılık diyagramlarını ve bu diyagramlar arasında tanımlanabilecek metrikleri tanıtıyoruz. Ayrıca, kalıcılık diyagramlarının veri kümesindeki küçük sarsıntılara karşı kararlı olduğunu gösteriyoruz. Bu bölümde son olarak, kalıcılık diyagramlarından özellik üretme yöntemlerinden bazılarını gösterdik. Dördüncü bölümde, yöntemlerimizi test ettiğimiz veri kümeleri ve kullandığımız yöntemler sunuluyor. Öncelikle, kullandığımız üç veri kümesini (sentetik, WESAD, ve DriveDB) tanıtıyoruz. Sentetik veri kümesinde stresli ve stressiz olmak üzere iki zaman serisi sınıfı kullanıldı. WESAD için zaman serisi sınıfları referans (rahat olma hali), eğlenme, ve stres şeklinde iken, DriveDB için bunlar rahatlama, otoyolda araba sürüş (düşük stres) ve şehirde araba sürüş (yüksek stres) şeklindeydi. Daha sonra her bir veri kümesinin içerdiği fizyolojik sinyalleri ve bunların örnekleme frekanslarını, hangi sınıflardan oluştuğunu, ve -varsa- ön işleme adımlarını anlatıyoruz. Deneylerimiz birtakım parametreler içeriyordu. Bunlara örnek olarak, pencere uzunluğu, altpencere uzunluğu, zaman gecikme dönüşümü boyutunu verebiliriz. Bu bölümde, bu parametrelerin nasıl seçildiğinden bahsedip, özellik üretmeyi bu deneyler özelinde nasıl yaptığımızı anlatıyoruz. Bundan sonra, deneylerde kullanılacak makine öğrenmesi modellerini, ve bunların hiperparametrelerini söylüyoruz. Dördüncü bölümde son olarak, kullandığımız iki farklı çapraz geçerlilik yöntemini anlatıyoruz. Bir katılımcıyı dışarıda bırak çapraz geçerlilik yöntemi, makine öğrenmesi modeline biri hariç tüm katılımcıları eğitim setine koyup, modeli dışta kalan katılımcıda test ediyor. Her katılımcı bir defa test edildiğinde sonuçların ortalaması alınıyor. Bu yöntem bize, daha önce hiç görülmemiş bir katılımcı için modelin ne kadar kesin çalıştığını göstermektedir. Katılımcı içi çapraz geçerlilik yönteminde ise, her bir katılımcının verilerini ikiye bölüyor, sonrasında ise her iki yarımda ayrı ayrı eğitip, diğer yarımda test ederek ortalamasını alıyoruz. Her katılımcı için elde edilen skorların ortalaması alındığında, modelin genel performansını elde ediyoruz. Bu yöntem bize, modeli aynı katılımcının verisiyle eğitip test ettiğimizde model performansında bir artış olup olmadığını gösteriyor. Çalışmamızın beşinci bölümü deney sonuçlarını içeriyor. Bu bölümde sırasıyla sentetik, WESAD, ve DriveDB veri kümelerinden elde edilen sonuçları inceledik. Sentetik veri kümesi sonuçlarına göre, taklit etmeye çalıştığımız stres durumunun etkisi artığında, stres belirleme kesinliği de arttı. Örneğin, stresin önemli bir indikatörü olan kalp hızı değişkenliği yüksek oranda arttığında, oluşturduğumuz topolojik özellikler bunu tam doğrulukla bulabildi. Bu durum, gerçek hayatta toplanmış veri kümelerindeki olası düşük kesinliğin kullandığımız özellik üretme yönteminden değil, veri kümesinin gürültülü doğasından kaynaklanabileceğini gösteriyor. Bu gürültü, bazı katılımcıların stres koşulu altında çok az fizyolojik stres tepkisi vermesi veya benzeri bir sebeple oluşabilir. WESAD ve DriveDB veri kümelerinden elde edilen sonuçlar incelendiğinde, genellikle, tüm kalıcılık diyagramlarından elde edilen özelliklerin tamamı kullanıldığında en yüksek kesinlikle duygu sınıflandırması yapılabiliyor. Yine de, kesinlikten çok az miktarda ödün vererek, sadece bir kalıcılık diyagramı ile benzer sonuçları elde etmek mümkün olabildi. Bu bize gösteriyor ki, otomatik olarak oluşturulmuş ve sinyale özgü özelliklerden daha az sayıda olan topolojik özellikleri kullanarak yüksek bir kesinlik elde etmek mümkün olabiliyor. Üçlü sınıflandırma sonuçları için karışıklık matrisine baktığımızda stres sınıflarının diğer sınıflardan daha iyi ayırt edildiğini görüyoruz. Bu durum, topolojik özelliklerin kaotik ve kaotik olmayan zaman serilerini birbirinden ayırt etmede işe yaradığı hipotezini destekliyor. Stres ve diğerleri şeklinde ikili sınıflandırma yapıldığında da sonuçlar yine çoğu fizyolojik sinyal için orijinal çalışmadaki bulgulardan daha iyi çıkıyor. Altpencereleme metodunun önemli bir avantajının pencere boyutunu kolayca değiştirebilmek olduğunu söylemiştik. Bunu test etmek için uzun pencereler kullanıldığında modelin kesinliğinin arttığı gözlemlendi. Bunun yanı sıra, model performansının katılımcı içi çapraz geçerlilik yöntemi kullanıldığında, bir katılımcıyı dışarıda bırak çapraz geçerlilik yöntemine göre istatistiksel olarak anlamlı derecede yüksek olduğu gözlemlendi. Bu beklediğimiz bir sonuçtu, çünkü eğitim ve test kitlelerinde aynı katılımcı olduğu sürece model daha iyi performans gösterecektir. Son bölüm olan altıncı bölümde kullandığımız yöntemler özetlenerek bunların kısıtlamaları anlatıldı. Gelecek çalışmalarda, bir veri kümesinde eğitilmiş modelin başka bir veri kümesinde test edilebileceği, gözetimli yerine yarı-gözetimli öğrenmenin daha yüksek kesinlikte sonuçlar üretebileceği, ve kalıcılık diyagramlarının farklı vektör temsilleri kullanılarak elde edilecek özellik üretme yöntemlerinin denenebileceğinden bahsedildi.

Özet (Çeviri)

This dissertation aims to demonstrate the power of Topological Data Analysis (TDA) and the subwindowing method for feature engineering in time series classification tasks. As an application, we used two publicly available datasets, WESAD and DriveDB. These datasets consisted of physiological signals collected under stressful and non stressful events. Furthermore, in order to assess the reliability of our methodology, we tested our feature engineering methods on a synthetic dataset that consists of artificial physiological signals mimicking a stress detection study. The results indicated that automatically created topological features can yield higher classification accuracies than signal-specific and hand-crafted features (such as heart rate derived from an ECG signal). In the first chapter of this work, we briefly summarize TDA and persistent homology. Also, the methods for time series classification via persistent homology is discussed, and we make a literature review on the subject. The second chapter is devoted to time series methods, and how we can classify them. We first define the method of sliding windows, and discuss why it can be useful in machine learning tasks. Then, we talk about time delay embeddings which transforms a univariate time series into a high dimensional dataset. We illustrate how the topology of the resulting dataset is affected by the delay parameter (also known as the embedding dimension). At the end of this chapter, we introduced the subwindowing methodology which solved the main problem of this work. We showed that this method allows us to reduce noise, improve computation time by a large amount, and use longer windows without incurring extra computational cost. In the third chapter, the theoretical background for TDA and persistent homology is given. The chapter starts with discussing why we should see the data at different scales. Then we give preliminary definitions related with simplices and simplicial complexes. We state the Nerve theorem and talk about how a topological space and a simplicial complex can be homotopy equivalent under some assumptions. This theorem tells us that the Cech (and therefore Rips) complexes are topologically similar to the underlying object that the dataset was sampled from. Later in this chapter, we define simplicial homology and show how we can compute the homology of a simplicial complex. Note that we need a fixed distance (epsilon) parameter to build a simplicial complex on top of a dataset. On the other hand, persistent homology allows us to investigate the persistence of homology groups when epsilon varies. After presenting how persistent homology works, we define persistence diagrams and two widely used metrics between them. Also, we show that persistence diagrams are stable under small perturbations of the data. Lastly, we show some means of performing feature engineering of persistence diagrams. The fourth chapter consists of the description of the datasets used in this dissertation and our methodologies. First, we introduce the three datasets (synthetic, WESAD and DriveDB) used in this study. For the synthetic dataset, there were two classes of physiological signals: stress and non stress. The classes for WESAD were baseline, amusement and stress. For DriveDB, the classes were relax, driving in the highway (low stress) and driving in the city (high stress). We then talk about the physiological signals included in the datasets, their sampling frequencies, and some preprocessing we did beforehand. Our experiments had some parameters such as window size, subwindow size, the embedding dimension in time delay embeddings. Later in this chapter, we discuss how these parameters were chosen, and how we did feature engineering for our experiments. Then, we present the machine learning algorithms and their hyperparameters used in our experiments. Lastly in chapter four, we introduce the two cross-validation methodologies used in our experiments. For Leave-one-subject-out cross validation (LOSOCV), the model is trained on all subjects but one, and tested on the other. When each participant appears in the test set once and only once, the results are averaged. This cross validation technique tells us about the model's performance on a previously unseen subject. For intra-subject cross validation, we split each subjects data into two. We train on either half, and test on the other, then average the results. We get a final accuracy by averaging all accuracies obtained from each participant. This method shows whether the model can benefit from having the same subject's data on both the train and the test sets. The results of the experiments are covered in the fifth chapter. We presented the results for the synthetic, WESAD and DriveDB datasets, respectively. The results for the synthetic dataset indicated that as the magnitude of the physiological change that mimics stress increases, stress detection accuracy also improves. For example, when the heart rate variability -an important stress indicator- is raised, the topological features could detect it almost perfectly. The results imply that stress detection errors in real-world datasets can be attributed to the noisy nature of the dataset itself, rather than the topological features. For example, such lack of effect can appear when some participants do not react to the stress condition. When the results from the real datasets were investigated, we usually observed the highest affect recognition accuracies when features coming from all persistence diagrams (level sets and delay embeddings) are used. Nevertheless, using only one persistence diagram (resulting in much fewer features) we were able to achieve similar recognition performance. This tells us that high accuracies are attainable using a small number of automatically engineered topological features rather than hand-crafted signal-specific features. For the three-class tasks, we observed that stress conditions are well separated from other conditions. This result supports the hypothesis that topological features works pretty well in distinguishing chaotic time series from non chaotic ones. When we made a binary classification task (stress vs non stress), topological features again performed better than those used in the original studies for most of the physiological signals. We have already stated that an important advantage of the subwindowing method is to be able to change the window size effectively. When we tested different window sizes, we observed that higher windows implied better stress detection performance. Furthermore, model performance with intra-subjects cross validation was significantly higher than LOSOCV. This was an expected finding since the model can perform better on the test set when the data from the same subject appears in the training set. Finally, in the sixth chapter, we outline our methodologies and their limitations. We also discussed what future works can aim for. For example, future studies can assess the performance of a model trained on one dataset and tested on another. Also, later research can use semi-supervised (rather than supervised) tasks for even improved accuracies. Lastly, one can use other vector representations of persistence diagrams for feature engineering.

Benzer Tezler

  1. Geleneksel Gaziantep evlerindeki avluların rolünün yerel veriler bağlamında değerlendirilmesi

    The evaluation of the role of the courtyards in traditional Gaziantep houses in context of local data

    MUSTAFA ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. YÜKSEL DEMİR

  2. Derin öğrenme yöntemleri ile zaman serisi tahmini

    Time series classification with deep learning methods

    HAKAN GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  3. Probabilistic time series classification

    Olasılıksal zaman serisi sınıflandırma

    YUSUF CEM SÜBAKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. BÜLENT SANKUR

    DOÇ. DR. ALİ TAYLAN CEMGİL

  4. Improved helicopter classification via deep learning and overlapped range-doppler maps

    Derin öğrenme ve örtüşen menzil-doppler görüntüleri ile geliştirilmiş helikopter sınıflandırması

    DENİZ CAN ACER

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  5. Linear prediction coding and wavelet based multi heart diseases classification via SVM

    Lineer tahmini kodlama ve dalgacık tabanlı SVM üzerinden çoklu kalp hastalıklarının sınıflandırılması

    ALAA MAJEED AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Elektrik ve Elektronik MühendisliğiTürk Hava Kurumu Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HASSAN SHARABATY