Geri Dön

Unsupervised concept drift detection using sliding windows: Two contributions

Kayan pencereler ile güdümsüz kavram sürüklemesinin saptanması: İki yöntem

  1. Tez No: 649386
  2. Yazar: ÖMER GÖZÜAÇIK
  3. Danışmanlar: PROF. DR. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Veri akışı madenciliği, bugün mevcut veri miktarının artması nedeniyle son yıllarda önemli bir araştırma alanı haline gelmiştir. Veri akışları genellikle verilerin karakteristik özellikleri zaman içinde değiştiği için durağan değildir. Bu olguya kavram sürüklenmesi denir. Sınıflandırıcıları geçersiz hale getirdiği ve tahmin başarısını düşürdüğü için literatürde büyük öneme sahip bir konudur. Kavram sürüklenmesinin olduğu durumlarda, daha sağlam ve etkili sınıflandırıcılara sahip olmak için verilerdeki değişimin uyarlanması gerekir. Kavram sürüklenmesini saptayan yöntemler, sınıflandırma modelleriyle birlikte çalışacak ve veri dağılımında önemli bir değişiklik gözlemlendiğinde bunları güncelleyecek şekilde tasarlanmıştır. Bu çalışmada, D3 ve OCDD adlarında iki güdümsüz kavram sürüklenmesi tespit yöntemi sunulmaktadır. D3'te, veri dağıtımındaki değişikliği izlemek için kayan bir pencere üzerinde ayrıştırıcı sınıflandırıcı kullanılmaktadır. Eski ve yeni veriler kullanılan sınıflandırıcı ile başarılı olarak ayrıştırılabilirse kavram sürüklenmesi tespit edilmektedir. OCDD'de, kayan bir pencere üzerinde tek-sınıflı sınıflandırıcı kullanılmaktadır. Kayan pencerede belirlenen aykırı değerlerin sayısını izlenmektedir. Aykırı değerlerin sayısındaki değişimin yeni bir kavramın işaretleri olduğunu iddia edilmekte ve kavram sürüklenmesi tespitini anomali tespitinin sürekli formu olarak tanımlanmaktadır. Aykırı değerlerin yüzdesi önceden belirlenmiş bir eşiğin üzerindeyse kavram sürüklenmesi tespit edilmektedir. Çalışmada literatürde yaygın olarak kullanılan 13 veri setini kullanarak kavram sürüklenmesi tespiti yöntemleri üzerinde kapsamlı bir değerlendirme yapılmıştır. Sonuçlar, OCDD'nin hem gerçek hem de sentetik veri kümelerinde önemli ölçüde daha iyi tahmin performansına sahip modeller üreterek diğer yöntemlerden daha iyi tahmin sağladığını göstermektedir. D3 ise diğer yöntemlerle benzer sonuçlar vermektedir.

Özet (Çeviri)

Data stream mining has become an important research area over the past decade due to the increasing amount of data available today. Sources from various domains generate limitless volume of data in temporal order. Such data are referred to as data streams, and generally, they are nonstationary as the characteristics of the data evolve over time. This phenomenon is called concept drift, and it is an issue of great importance in the literature since it makes models outdated and decreases their predictive performance. In the presence of concept drift, adapting the change in data is necessary to have more robust and effective classifiers. Drift detectors are designed to run jointly with the classification models, updating them when a significant change in the data distribution is observed. In this study, we propose two unsupervised concept drift detection methods: D3 and OCDD. In D3, we use a discriminative classifier over a sliding window to monitor the change in the distribution of data. When the old and the new data are separable with the discriminative classifier, a drift is signaled. In OCDD, we use a one-class classifier over a sliding window. We monitor the number of outliers identified in the sliding window. We claim that the number of outliers are the signs of a new concept, and define concept drift detection as the continuous form of anomaly detection. A drift is signaled if the percentage of the outliers are over a pre-determined threshold. We perform a comprehensive evaluation on the latest and the most prevalent concept drift detectors using 13 datasets. The results show that OCDD outperforms the other methods by producing models with significantly better predictive performances on both real-world and synthetic datasets. D3 is on par with the other methods.

Benzer Tezler

  1. Implicit concept drift detection for multi-label data streams

    Çok etiketli veri akışları için denetimsiz kavram kayma tespiti

    EGE BERKAY GÜLCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  2. Online embedding and clustering of evolving data streams

    Değişken veri akışlarının çevrimiçi boyutsal küçültülmesi ve kümelenmesi

    ALAETTİN ZUBAROĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET VOLKAN ATALAY

  3. Türkçe için gözetimsiz sözdizimsel belirsizlik giderme

    Unsupervised syntactic disambiguation for turkish

    ÖZKAN ASLAN

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnadolu Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERKAN GÜNAL

    DOÇ. DR. BEKİR TANER DİNÇER

  4. Supervised and unsupervised learning techniques in data mining

    Veri madenciliğinde yönlendirilmiş ve yönlendirilmemiş öğrenme teknikleri

    MEHMET SEVAL KAYGULU

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ.DR. ALP KUT