A data adaptive categorical time series representation for supervised learning
Gözetimli öğrenme algoritmaları için yeni bir kategorik zaman serileri veri uyarlamalı temsili gösterimi
- Tez No: 459456
- Danışmanlar: YRD. DOÇ. DR. MUSTAFA GÖKÇE BAYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Endüstri Mühendisliği Bilim Dalı
- Sayfa Sayısı: 117
Özet
Makine öğrenimi alanında yapılan çalışmaların çoğu zamana bağlı olarak sıralı gerçekleşen süreçlere odaklanmaktadır. Bu çalışmaların amaçları sınıflandırma, kestirim, kümeleme ya da segmentasyon olabilir. Zaman serileri yüksek boyutluluğa sahip veri setlerine sahip olabileceğinden belirtilen çalışma amaçları için, zaman serilerin daha az boyutlu bir temsili gösterimine ihtiyaç vardır. Literatürde öne çıkan temsili gösterim tipleri olasılık bazlı ve veri uyarlamalı olarak ikiye ayrılmıştır. Bu tezin amacı ise gözetimli öğrenme algoritmalarını uygulayabilmek için tasarlanmış yeni bir veri uyarlamalı temsili gösterim biçimidir. Önerilen metot, SW-RF (Kayan Pencereler ve ¨ Rastgele Orman Algoritması) kategorik zaman serilerinde anlamlı bir temsili gÖsterime ulaşabilmek adına iki temel adımın uygulanmasını gerektirir. İlk temsili gösterim, mevcut zaman serisi dizisine önceden belirlenmiş bir pencere boyutu ile kayan pencereler algoritması uygulanması ile elde edilir. Kayan pencereler algoritması ile elde edilen bu basit temsili gösterime ait alt diziler bir karar ağacı sınıflandırma algoritması ile eğitildikten sonra, her bir zaman serisi dizisine ait alt dizilerin karar ağacının uç düğümlerinde görülme sıklığına bağlı olarak bir numerik vektör elde edilir ve elde edilen bu vektör nihai temsili gösterimdir. SW-RF algoritması değişken uzunlukta ya da eksik veri bulunduran kategorik dizileri ele alabilir ve dizideki sembol sayısı arttığında dahi efektif bir performans gösterir. SW-RF algoritmasının doğruluk oranı literatürde çok yaygın olarak kullanılan temsili gösterim metotlarından olan Saklı Markov modeli ve k-mers metotlarıyla kıyaslanmıştır. Yapılan deney sonuçlarına göre SW-RF algoritmasının yaratılan sentetik veri setinde ve DNA promotör dizilimlerinde doğru sınıflandırma oranlarında ciddi iyileştirmeler sağladığı görülmüştür.
Özet (Çeviri)
A vast majority of the studies in machine learning focus on time-directed or in other words sequential processes. Objectives of these studies vary from classification to prediction and clustering to segmentation. Since the dimension of these datasets could be very high as a corollary of sequential process, it is required to map the sequences to a lower dimensional representation for learning tasks. Probabilistic and data adaptive representation approaches are prominent in the literature. This thesis provides a new data adaptive representation method for categorical time series to apply any supervised learning algorithm. The proposed method, namely SW-RF (Sliding Window-Random Forest), requires two main steps to learn a representation for categorical time series. The initial representation is constituted with a sliding window algorithm by using a predetermined window size. Then, this simple representation is trained with a decision tree classifier and a numerical vector representation is gathered by using the frequency of subsequences on the leaf nodes of decision trees for each sequence. Categorical sequences of varying length and missing values are handled efficiently by the tree learners in SW-RF. It is able to perform efficiently even the number of symbols in the sequence is high. Classification accuracy of the SW-RF is compared with k-mers and Hidden Markov Model representations, since these two are common representation methods in the literature. Experiments show that proposed approach provides significantly better results in terms of accuracy on both synthetic data and DNA promoter sequence data.
Benzer Tezler
- Resiprokal hareket yapan dört farklı nikel titanyum eğe sisteminin sterilizasyona bağlı döngüsel yorgunluğunun karşılaştırmalı olarak değerlendirilmesi
A comparative evaluation of the sterilization-based cyclic fatigue of four different nickel titanium file system with reciprocal movements
BAYRAM ÇELİKEL
Diş Hekimliği Uzmanlık
Türkçe
2020
Diş HekimliğiFırat ÜniversitesiEndodonti Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FARUK ÖZTEKİN
- Meteorolojik ölçüm verilerinin regresyon yaklaşımı ile modellenmesinde veri madenciliği aşamaları ve kullanımı
Data mining stages and usage in modeling meteorological measurement data with regression approach
SELÇUK KURT
Yüksek Lisans
Türkçe
2024
MeteorolojiMuğla Sıtkı Koçman ÜniversitesiÇevre Bilimleri Ana Bilim Dalı
DOÇ. DR. OĞUZ AKPOLAT
- Makine öğrenmesi yöntemleri ile yangın verilerinin analizi ve sınıflandırılması
Analysis and classification of fire data using machine learning methods
ZEYNEP NAZLI ASLAN
Yüksek Lisans
Türkçe
2025
İlk ve Acil YardımSakarya ÜniversitesiAfet Yönetimi Ana Bilim Dalı
DOÇ. DR. BEYTULLAH EREN
- Acil servise başvuran hiponatremik hastaların retrospektif değerlendirmesi
Retrospective evaluation of hyponatremic patients presenting to the emergency department
AHMET KARAKAYA
- Yapay öğrenme algoritmaları ile farklı beton sınıflarının basınç dayanımlarının tahmini
Prediction of compressive strengths of different concrete classes by artificial learning algorithms
FATMA KARS
Yüksek Lisans
Türkçe
2025
İnşaat MühendisliğiDüzce Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. YILMAZ KOÇAK
DOÇ. DR. GIYASETTİN ÖZCAN