Geri Dön

Developing novel methods on data stream classification and clustering for accuracy improvement

Veri akışı sınıflandırma ve kümeleme üzerine doğruluğu artırmaya yönelik yeni yöntemler geliştirilmesi

  1. Tez No: 897479
  2. Yazar: ENGİN MADEN
  3. Danışmanlar: PROF. PINAR KARAGÖZ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 112

Özet

Sosyal medya, telekomünikasyon ağı veya kredi kartı işlemleri gibi farklı kaynaklardan gelen veri akışı birikmekte ve hızla büyümektedir. Dolayısıyla bu kadar büyük veri ortamlarından değerli bilgilerin üretilmesi daha da önemli hale gelmiştir. Veri akışlarının sürekli veri gelmesi, yüksek hacim, verinin hızla ulaşması ve veri dağılımının değişebilmesi gibi bazı kendine özgü özellikleri bulunmaktadır. Bu özelliklerden dolayı veri akışlarının işlenmesinde sınırlı kaynak ve süre gibi bazı kısıtlar bulunmaktadır ve veriler yalnızca bir kez taranabilmektedir. Bu noktada veri akışı madenciliği, kümeleme ve sınıflandırma gibi geleneksel veri madenciliği işlemlerinin akış versiyonuyla ortaya çıkmaktadır. Bu çalışmada, veri akışı kümelemesinin özel bir alanı olarak veri akışı sınıflandırması ve kısa metin akışı kümelemesi üzerinde çalışılmıştır. Bazı iyileştirmeler ile yeni yöntemler önerilmiş ve bunların performansı en gelişmiş yöntemlerle karşılaştırılmıştır. Veri akışı sınıflandırması için önerdiğimiz yöntemler, m-kNN (Mean Extended kNN) ve m-kNN ile MC-NN (Micro Cluster Nearest Neighbour) yöntemlerinin birleşimi olan CSWB (Combined Sliding Window Based) sınıflandırıcı olarak adlandırılmıştır. Ayrıca CSWB'nin iki yeni sürümü de sunulmaktadır: CSWB-e ve CSWB-e2. Bu yöntemlerde de m-kNN sınıflandırıcımız önce K* (K-Star) ve C4.5 ile sonra da K* (K-Star) ve Naive Bayes ile birleştirilmektedir. Kısa metin akışı kümelemesi için önerdiğimiz yönteme T-GSC (A Two Level Graph Based Short Text Stream Clusterer) adını verdik. Ayrıca kısa metin akışı kümelemesinde güncel yöntemler hakkında bir araştırma çalışması hazırlanmış ve bu yöntemleri kümeleme yaklaşımlarına göre sınıflandırılmıştır.

Özet (Çeviri)

The streaming data from different sources as social media, telecommunication network or credit card processing are accumulated and growing enormously. Thus, it has become more important to produce valuable information from such big data environments. There are specific characteristics of data streams such as continuous flow, high volume, rapid arrival and change of distribution. Due to these characteristics, there are limitations for processing data streams such as limited resource and time and the data can be scanned only once. At this point data stream mining emerges with the streaming version of traditional data mining operations such as clustering and classification. In this study, data stream classification and short text stream clustering as a specific area of data stream clustering are worked on. Enhancements and novel methods are proposed and their performances are compared with the state of the art methods. For data stream classification, our proposed methods are named as m-kNN (Mean Extended kNN) and CSWB (Combined Sliding Window Based) classifier which is a combination of m-kNN and MC-NN (Micro Cluster Nearest Neighbour). Two new versions of CSWB are also presented, CSWB-e and CSWB-e2, such that our m-kNN classifier is combined with K* (K-Star) and C4.5, and with K* (K-Star) and Naive Bayes, respectively. For the short text stream clustering, a method named T-GSC (A Two Level Graph Based Short Text Stream Clusterer) is proposed. A survey is also prepared about the current methods in short text stream clustering and classified them with respect to their clustering approaches.

Benzer Tezler

  1. Digital oil refinery: Utilizing real-time analytics and cloud computing over industrial sensor data

    Başlık çevirisi yok

    ATHAR KHODABAKHSH

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İSMAİL ARI

  2. Mekansal analiz teknikleri ile çok kriterli karar verme yaklaşımı kullanılarak raylı sistem güzergah analizi

    Rail system route analysis using multi criteria decision making with spatial analysis techniques

    BERNA ÇALIŞKAN

    Doktora

    Türkçe

    Türkçe

    2023

    Ulaşımİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ OSMAN ATAHAN

  3. Online learning under adverse settings

    Karşıt koşullar altında çevrimiçi öğrenme

    HÜSEYİN ÖZKAN

    Doktora

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN SERDAR KOZAT

  4. Scaling-up eutectic freeze crystallization

    Ötektik donma kristalizasyonunda boyut büyütme

    FATMA ELİF GENCELİ