Utility based and user defined scoring based mining of sequential patterns
Faydaya bağlı ve kullanıcı tanımlı skorlamaya bağlı sıralı desen madenciliği
- Tez No: 416392
- Danışmanlar: DOÇ. DR. PINAR KARAGÖZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 121
Özet
Sıralı desen çıkarımı, geniş uygulamaları olan bir veri madenciliği problemidir. Klasik, sıklığa dayalı çözümler, çoğunlukla son kullanıcı için bilgi verici olmayan çok fazla sayıda desen bulunmasına yol açmaktadır. Bu problemi çözmek için, ikili olmayan, fayda denilen değerleri nesnelere atayan, faydaya dayalı çıkarım teknikleri ortaya çıkmıştır. Bu tez çalışmasında, faydaya dayalı sıralı desen çıkarımı için önerilen çözümlerin varolan eksikliklerine ve zorluklarına cevaben iki yeni çatı geliştirilmiştir. İlk çözüm, yüksek faydaya dayalı sıralı desen çıkarımı için, verimli veri yapıları, ve büyük arama alanını budamak için, CRoM (Birikmiş Kalan Uyum)'a bağlı üst limiti kullanarak yeni bir budama tekniği sunan bir çatıdır. CRoM, aday desenlerin faydaları üzerinde daha sıkı bir üst limit tanımlayarak, varolan tekniklere kıyasla daha ölçülü bir budama sağlamaktadır. Buna ek olarak, HuspExt (Yüksek Faydaya Dayalı Sıralı Desen Çıkarımı) adlı çocuk desenlerin faydasını ana desenden hesaplayan verimli bir algoritma geliştirilmiştir. Farklı alanlara ait, hem sentetik hem de gerçek veri kümeleri üzerinde yapılan deneyler göstermektedir ki, önerilen yaklaşım yüksek faydaya dayalı sıralı desenleri, farklı özelliklerdeki büyük veri kümelerinden, düşük fayda limitlerinde dahi etkili bir şekilde çıkarmaktadır. İkinci çözüm, fayda tanımının, desenlerin değerlerini tanımlamada yeterli olmadığı durumlar için yeni bir yaklaşım sunmaktadır. Bu çözüm, kullanıcı tanımlı skorlama mekanizmasına bağlıdır ve şu anki versiyonu web kullanımı alanında değerlendirilmiştir. Gerçek veriler üzerinde yapılan deneyler göstermektedir ki, ikinci çözüm, kullanıcı tanımlı skorlama mekanizması altında desenleri etkin bir şekilde çıkarmaktadır.
Özet (Çeviri)
Sequential pattern mining is an important data mining problem with broad applications. The classical frequency-based solutions often lead to many patterns being identified, most of which are not informative for the end-users. To handle this problem, utility based mining technique emerged, which assign non-binary values, called utilities, to items and calculate pattern utilities accordingly. In the thesis work, two new frameworks are proposed in response to the challenges and limitations of the existing solutions in utility based sequence mining. The first solution is a new framework for high utility sequential pattern mining, which presents efficient data structures and a new pruning technique that is based on Cumulated Rest of Match (CRoM) based upper bound so as to efficiently prune the huge combinatorial search space. CRoM, by defining a tighter upper bound on the utility of the candidates, allows more conservative pruning before candidate pattern generation in comparison to the existing techniques. In addition, an efficient algorithm, HuspExt (High Utility Sequential Pattern Extraction), have been developed, which calculates the utilities of the child patterns based on that of the parents'. Substantial experiments on both synthetic and real datasets from different domains show that, the proposed solution efficiently discovers high utility sequential patterns from large scale datasets with different data characteristics, under low utility thresholds. The second solution presents a new approach for sequential pattern extraction for the cases where utility definition is not adequate to define the value of the patterns. This solution is based on user-defined scoring mechanism, and the proposed solution is evaluated under the web usage domain. Evaluation of this solution on real datasets from web domain prove that, the solution effectively discovers patterns under user defined scoring mechanism.
Benzer Tezler
- Çok işlemcili sistemler için bir yük akış dili
A Work flow lanquage for multiprocessor systems
A.OLCAY AKGÜN
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF.DR. EMRE HARMANCI
- Yatay yüklü kazık, palplanş perde ve ahşap ıska hesabı
Design of laterally loaded piles, sheet pile wals,flanking strutting and supporting trenches
HULUSİ CERRAHOĞLU
- Kentsel ulaştırmada erişilebilirlik ve ödenebilirlik için model:İstanbul örneği
A model for accessibility and affordability in urban transportation: Istanbul case
SABAHAT TOPUZ KİREMİTÇİ
Doktora
Türkçe
2017
Ulaşımİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. HALUK GERÇEK
- Kent bilgi sistemlerinin tasarımı ve gerçekleştirilmesi: Ankara kent bilgi sistemi oluşturma çalışması
Başlık çevirisi yok
ATİLLA KOPAR
- QoS-aware service selection for web service composition
Web servis birleşimi için servis kalitesi farkındalıklı servis seçimi
RAHAT ABDYLDAEVA
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Bölümü
DOÇ. DR. ALTAN KOÇYİĞİT
YRD. DOÇ. DR. AYSU BETİN CAN