Developing novel methods on data stream classification and clustering for accuracy improvement
Veri akışı sınıflandırma ve kümeleme üzerine doğruluğu artırmaya yönelik yeni yöntemler geliştirilmesi
- Tez No: 897479
- Danışmanlar: PROF. PINAR KARAGÖZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 112
Özet
Sosyal medya, telekomünikasyon ağı veya kredi kartı işlemleri gibi farklı kaynaklardan gelen veri akışı birikmekte ve hızla büyümektedir. Dolayısıyla bu kadar büyük veri ortamlarından değerli bilgilerin üretilmesi daha da önemli hale gelmiştir. Veri akışlarının sürekli veri gelmesi, yüksek hacim, verinin hızla ulaşması ve veri dağılımının değişebilmesi gibi bazı kendine özgü özellikleri bulunmaktadır. Bu özelliklerden dolayı veri akışlarının işlenmesinde sınırlı kaynak ve süre gibi bazı kısıtlar bulunmaktadır ve veriler yalnızca bir kez taranabilmektedir. Bu noktada veri akışı madenciliği, kümeleme ve sınıflandırma gibi geleneksel veri madenciliği işlemlerinin akış versiyonuyla ortaya çıkmaktadır. Bu çalışmada, veri akışı kümelemesinin özel bir alanı olarak veri akışı sınıflandırması ve kısa metin akışı kümelemesi üzerinde çalışılmıştır. Bazı iyileştirmeler ile yeni yöntemler önerilmiş ve bunların performansı en gelişmiş yöntemlerle karşılaştırılmıştır. Veri akışı sınıflandırması için önerdiğimiz yöntemler, m-kNN (Mean Extended kNN) ve m-kNN ile MC-NN (Micro Cluster Nearest Neighbour) yöntemlerinin birleşimi olan CSWB (Combined Sliding Window Based) sınıflandırıcı olarak adlandırılmıştır. Ayrıca CSWB'nin iki yeni sürümü de sunulmaktadır: CSWB-e ve CSWB-e2. Bu yöntemlerde de m-kNN sınıflandırıcımız önce K* (K-Star) ve C4.5 ile sonra da K* (K-Star) ve Naive Bayes ile birleştirilmektedir. Kısa metin akışı kümelemesi için önerdiğimiz yönteme T-GSC (A Two Level Graph Based Short Text Stream Clusterer) adını verdik. Ayrıca kısa metin akışı kümelemesinde güncel yöntemler hakkında bir araştırma çalışması hazırlanmış ve bu yöntemleri kümeleme yaklaşımlarına göre sınıflandırılmıştır.
Özet (Çeviri)
The streaming data from different sources as social media, telecommunication network or credit card processing are accumulated and growing enormously. Thus, it has become more important to produce valuable information from such big data environments. There are specific characteristics of data streams such as continuous flow, high volume, rapid arrival and change of distribution. Due to these characteristics, there are limitations for processing data streams such as limited resource and time and the data can be scanned only once. At this point data stream mining emerges with the streaming version of traditional data mining operations such as clustering and classification. In this study, data stream classification and short text stream clustering as a specific area of data stream clustering are worked on. Enhancements and novel methods are proposed and their performances are compared with the state of the art methods. For data stream classification, our proposed methods are named as m-kNN (Mean Extended kNN) and CSWB (Combined Sliding Window Based) classifier which is a combination of m-kNN and MC-NN (Micro Cluster Nearest Neighbour). Two new versions of CSWB are also presented, CSWB-e and CSWB-e2, such that our m-kNN classifier is combined with K* (K-Star) and C4.5, and with K* (K-Star) and Naive Bayes, respectively. For the short text stream clustering, a method named T-GSC (A Two Level Graph Based Short Text Stream Clusterer) is proposed. A survey is also prepared about the current methods in short text stream clustering and classified them with respect to their clustering approaches.
Benzer Tezler
- Digital oil refinery: Utilizing real-time analytics and cloud computing over industrial sensor data
Başlık çevirisi yok
ATHAR KHODABAKHSH
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İSMAİL ARI
- Mekansal analiz teknikleri ile çok kriterli karar verme yaklaşımı kullanılarak raylı sistem güzergah analizi
Rail system route analysis using multi criteria decision making with spatial analysis techniques
BERNA ÇALIŞKAN
Doktora
Türkçe
2023
Ulaşımİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ OSMAN ATAHAN
- Online learning under adverse settings
Karşıt koşullar altında çevrimiçi öğrenme
HÜSEYİN ÖZKAN
Doktora
İngilizce
2015
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SÜLEYMAN SERDAR KOZAT
- Towards improved modeling for hydrologic predictions in poorly gauged basins
Başlık çevirisi yok
KORAY KAMİL YILMAZ
- Scaling-up eutectic freeze crystallization
Ötektik donma kristalizasyonunda boyut büyütme
FATMA ELİF GENCELİ
Doktora
İngilizce
2008
Kimya MühendisliğiTechnische Universiteit Delft (Delft University of Technology)PROF. DR. GEERT JAN WITKAMP