A data adaptive categorical time series representation for supervised learning
Gözetimli öğrenme algoritmaları için yeni bir kategorik zaman serileri veri uyarlamalı temsili gösterimi
- Tez No: 459456
- Danışmanlar: YRD. DOÇ. DR. MUSTAFA GÖKÇE BAYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 117
Özet
Makine öğrenimi alanında yapılan çalışmaların çoğu zamana bağlı olarak sıralı gerçekleşen süreçlere odaklanmaktadır. Bu çalışmaların amaçları sınıflandırma, kestirim, kümeleme ya da segmentasyon olabilir. Zaman serileri yüksek boyutluluğa sahip veri setlerine sahip olabileceğinden belirtilen çalışma amaçları için, zaman serilerin daha az boyutlu bir temsili gösterimine ihtiyaç vardır. Literatürde öne çıkan temsili gösterim tipleri olasılık bazlı ve veri uyarlamalı olarak ikiye ayrılmıştır. Bu tezin amacı ise gözetimli öğrenme algoritmalarını uygulayabilmek için tasarlanmış yeni bir veri uyarlamalı temsili gösterim biçimidir. Önerilen metot, SW-RF (Kayan Pencereler ve ¨ Rastgele Orman Algoritması) kategorik zaman serilerinde anlamlı bir temsili gÖsterime ulaşabilmek adına iki temel adımın uygulanmasını gerektirir. İlk temsili gösterim, mevcut zaman serisi dizisine önceden belirlenmiş bir pencere boyutu ile kayan pencereler algoritması uygulanması ile elde edilir. Kayan pencereler algoritması ile elde edilen bu basit temsili gösterime ait alt diziler bir karar ağacı sınıflandırma algoritması ile eğitildikten sonra, her bir zaman serisi dizisine ait alt dizilerin karar ağacının uç düğümlerinde görülme sıklığına bağlı olarak bir numerik vektör elde edilir ve elde edilen bu vektör nihai temsili gösterimdir. SW-RF algoritması değişken uzunlukta ya da eksik veri bulunduran kategorik dizileri ele alabilir ve dizideki sembol sayısı arttığında dahi efektif bir performans gösterir. SW-RF algoritmasının doğruluk oranı literatürde çok yaygın olarak kullanılan temsili gösterim metotlarından olan Saklı Markov modeli ve k-mers metotlarıyla kıyaslanmıştır. Yapılan deney sonuçlarına göre SW-RF algoritmasının yaratılan sentetik veri setinde ve DNA promotör dizilimlerinde doğru sınıflandırma oranlarında ciddi iyileştirmeler sağladığı görülmüştür.
Özet (Çeviri)
A vast majority of the studies in machine learning focus on time-directed or in other words sequential processes. Objectives of these studies vary from classification to prediction and clustering to segmentation. Since the dimension of these datasets could be very high as a corollary of sequential process, it is required to map the sequences to a lower dimensional representation for learning tasks. Probabilistic and data adaptive representation approaches are prominent in the literature. This thesis provides a new data adaptive representation method for categorical time series to apply any supervised learning algorithm. The proposed method, namely SW-RF (Sliding Window-Random Forest), requires two main steps to learn a representation for categorical time series. The initial representation is constituted with a sliding window algorithm by using a predetermined window size. Then, this simple representation is trained with a decision tree classifier and a numerical vector representation is gathered by using the frequency of subsequences on the leaf nodes of decision trees for each sequence. Categorical sequences of varying length and missing values are handled efficiently by the tree learners in SW-RF. It is able to perform efficiently even the number of symbols in the sequence is high. Classification accuracy of the SW-RF is compared with k-mers and Hidden Markov Model representations, since these two are common representation methods in the literature. Experiments show that proposed approach provides significantly better results in terms of accuracy on both synthetic data and DNA promoter sequence data.
Benzer Tezler
- Resiprokal hareket yapan dört farklı nikel titanyum eğe sisteminin sterilizasyona bağlı döngüsel yorgunluğunun karşılaştırmalı olarak değerlendirilmesi
A comparative evaluation of the sterilization-based cyclic fatigue of four different nickel titanium file system with reciprocal movements
BAYRAM ÇELİKEL
Diş Hekimliği Uzmanlık
Türkçe
2020
Diş HekimliğiFırat ÜniversitesiEndodonti Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FARUK ÖZTEKİN
- Meteorolojik ölçüm verilerinin regresyon yaklaşımı ile modellenmesinde veri madenciliği aşamaları ve kullanımı
Data mining stages and usage in modeling meteorological measurement data with regression approach
SELÇUK KURT
Yüksek Lisans
Türkçe
2024
MeteorolojiMuğla Sıtkı Koçman ÜniversitesiÇevre Bilimleri Ana Bilim Dalı
DOÇ. DR. OĞUZ AKPOLAT
- Oy birliği ve özelleşmiş sınıflandırıcılar ile zararlı yazılım tespiti
Malware detection using consensus learning and specialized classifiers
SERCAN GÜLBURUN
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgi Güvenliği Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT DENER
- Modeling socio-spatial change: Impact of socio-technological factors on future urban space configuration
Sosyo-mekansal değişimin modellenmesi: Sosyo-teknolojik faktörlerin geleceğin kentsel mekan kurgusuna etkisi
ASLI ULUBAŞ HAMURCU
Doktora
İngilizce
2021
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. FATİH TERZİ
- Determination of spatial distributions of greenhouses using satellite images and object-based image analysis approach
Nesne tabanlı sınıflandırma yaklaşımı ve uydu görüntüleri kullanılarak seraların mekansal dağılımının belirlenmesi
GİZEM ŞENEL
Doktora
İngilizce
2023
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ÇİĞDEM GÖKSEL
PROF. DR. MANUEL ANGEL AGUILAR TORRES