Geri Dön

A data adaptive categorical time series representation for supervised learning

Gözetimli öğrenme algoritmaları için yeni bir kategorik zaman serileri veri uyarlamalı temsili gösterimi

  1. Tez No: 459456
  2. Yazar: HANDE ÇAKIN
  3. Danışmanlar: YRD. DOÇ. DR. MUSTAFA GÖKÇE BAYDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 117

Özet

Makine öğrenimi alanında yapılan çalışmaların çoğu zamana bağlı olarak sıralı gerçekleşen süreçlere odaklanmaktadır. Bu çalışmaların amaçları sınıflandırma, kestirim, kümeleme ya da segmentasyon olabilir. Zaman serileri yüksek boyutluluğa sahip veri setlerine sahip olabileceğinden belirtilen çalışma amaçları için, zaman serilerin daha az boyutlu bir temsili gösterimine ihtiyaç vardır. Literatürde öne çıkan temsili gösterim tipleri olasılık bazlı ve veri uyarlamalı olarak ikiye ayrılmıştır. Bu tezin amacı ise gözetimli öğrenme algoritmalarını uygulayabilmek için tasarlanmış yeni bir veri uyarlamalı temsili gösterim biçimidir. Önerilen metot, SW-RF (Kayan Pencereler ve ¨ Rastgele Orman Algoritması) kategorik zaman serilerinde anlamlı bir temsili gÖsterime ulaşabilmek adına iki temel adımın uygulanmasını gerektirir. İlk temsili gösterim, mevcut zaman serisi dizisine önceden belirlenmiş bir pencere boyutu ile kayan pencereler algoritması uygulanması ile elde edilir. Kayan pencereler algoritması ile elde edilen bu basit temsili gösterime ait alt diziler bir karar ağacı sınıflandırma algoritması ile eğitildikten sonra, her bir zaman serisi dizisine ait alt dizilerin karar ağacının uç düğümlerinde görülme sıklığına bağlı olarak bir numerik vektör elde edilir ve elde edilen bu vektör nihai temsili gösterimdir. SW-RF algoritması değişken uzunlukta ya da eksik veri bulunduran kategorik dizileri ele alabilir ve dizideki sembol sayısı arttığında dahi efektif bir performans gösterir. SW-RF algoritmasının doğruluk oranı literatürde çok yaygın olarak kullanılan temsili gösterim metotlarından olan Saklı Markov modeli ve k-mers metotlarıyla kıyaslanmıştır. Yapılan deney sonuçlarına göre SW-RF algoritmasının yaratılan sentetik veri setinde ve DNA promotör dizilimlerinde doğru sınıflandırma oranlarında ciddi iyileştirmeler sağladığı görülmüştür.

Özet (Çeviri)

A vast majority of the studies in machine learning focus on time-directed or in other words sequential processes. Objectives of these studies vary from classification to prediction and clustering to segmentation. Since the dimension of these datasets could be very high as a corollary of sequential process, it is required to map the sequences to a lower dimensional representation for learning tasks. Probabilistic and data adaptive representation approaches are prominent in the literature. This thesis provides a new data adaptive representation method for categorical time series to apply any supervised learning algorithm. The proposed method, namely SW-RF (Sliding Window-Random Forest), requires two main steps to learn a representation for categorical time series. The initial representation is constituted with a sliding window algorithm by using a predetermined window size. Then, this simple representation is trained with a decision tree classifier and a numerical vector representation is gathered by using the frequency of subsequences on the leaf nodes of decision trees for each sequence. Categorical sequences of varying length and missing values are handled efficiently by the tree learners in SW-RF. It is able to perform efficiently even the number of symbols in the sequence is high. Classification accuracy of the SW-RF is compared with k-mers and Hidden Markov Model representations, since these two are common representation methods in the literature. Experiments show that proposed approach provides significantly better results in terms of accuracy on both synthetic data and DNA promoter sequence data.

Benzer Tezler

  1. Resiprokal hareket yapan dört farklı nikel titanyum eğe sisteminin sterilizasyona bağlı döngüsel yorgunluğunun karşılaştırmalı olarak değerlendirilmesi

    A comparative evaluation of the sterilization-based cyclic fatigue of four different nickel titanium file system with reciprocal movements

    BAYRAM ÇELİKEL

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2020

    Diş HekimliğiFırat Üniversitesi

    Endodonti Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FARUK ÖZTEKİN

  2. Meteorolojik ölçüm verilerinin regresyon yaklaşımı ile modellenmesinde veri madenciliği aşamaları ve kullanımı

    Data mining stages and usage in modeling meteorological measurement data with regression approach

    SELÇUK KURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    MeteorolojiMuğla Sıtkı Koçman Üniversitesi

    Çevre Bilimleri Ana Bilim Dalı

    DOÇ. DR. OĞUZ AKPOLAT

  3. Oy birliği ve özelleşmiş sınıflandırıcılar ile zararlı yazılım tespiti

    Malware detection using consensus learning and specialized classifiers

    SERCAN GÜLBURUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgi Güvenliği Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT DENER

  4. Modeling socio-spatial change: Impact of socio-technological factors on future urban space configuration

    Sosyo-mekansal değişimin modellenmesi: Sosyo-teknolojik faktörlerin geleceğin kentsel mekan kurgusuna etkisi

    ASLI ULUBAŞ HAMURCU

    Doktora

    İngilizce

    İngilizce

    2021

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. FATİH TERZİ

  5. Determination of spatial distributions of greenhouses using satellite images and object-based image analysis approach

    Nesne tabanlı sınıflandırma yaklaşımı ve uydu görüntüleri kullanılarak seraların mekansal dağılımının belirlenmesi

    GİZEM ŞENEL

    Doktora

    İngilizce

    İngilizce

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ÇİĞDEM GÖKSEL

    PROF. DR. MANUEL ANGEL AGUILAR TORRES