Efficient parallel frequency mining based on a novel top-down partitioning scheme for transactional data
Yeni bir işlem verisi parçalama şeması tabanlı etkin paralel frekans tarama
- Tez No: 129214
- Danışmanlar: PROF. DR. CEVDET AYKANAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Paralel Veri Tarama, Frekans Tarama, Parallel Data Mining, Frequency Mining
- Yıl: 2002
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 123
Özet
ÖZET YENİ BİR İŞLEM VERİSİ PARÇALAMA ŞEMASI TABANLI ETKİN PARALEL FREKANS TARAMA Eray Özkural Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Prof. Cevdet Ay kanat Ocak, 2002 Son yıllarda, gelişen veri toplama yetenekleriyle birlikte büyük miktarlarda veri toplanmıştır. Bilimsel ve iş alanlarından elde edilen çok geniş veriler için yararlı bilgilerin otomatik olarak bulunmasi gerekmektedir. Veri tarama bu tarz bilgi keşfi için etkin algoritmik çözümlerin değişik büyük veriler üzerinde uygu lanmasıdır. Frekans tarama bir işlem ya da ilişkisel veri tabanındaki bütün sık desenleri keşfeder ve ilişki kuralı tarama ve dizi kurali tarama gibi bir çok veri tarama algoritmalarının özünü oluşturur. Sık desen keşfi paralel programlama için dev veriler üzerinde karmaşık bir işlem olması itibariyle önemli bir problem haline gelmiştir. Bu tezde, yeni bir sınıf paralel frekans tarama algoritması öneriyoruz. Frekans tarama işini tepeden aşağı bölmek için kullanılabilecek bir işlem verisi parçalama şeması takdim ediyoruz. Yöntemimiz iki uzunluğundaki sık desenlerin çizgesi [Gp2) üzerinde çalışmakta olup, bu çizgenin köşe ayracıyla parçalanması (GPVS) işlem kümesi üzerinde iki-yollu bir parçalamaya eşlenmektedir. Elde edilen iki parça bağımsız olarak taranabilir ve bu sayede eş zamanlılık için kullanilabilir. Bu özelliğin tutması için Gf2 'deki ayraç tarafından belirlenen ve GPVS tarafından minimize edilen bir yineleme bulunmaktadır. Genel bir paralel frekans taramasi algoritmasında kullanılan bir k-yollu parçalama iki-yollu parçalama şemasından türetilmektedir. İlk olarak Gf2'yi paralel olarak hesaplarız ve ertesinde veri tabanının k-yollu bir parçalaması k işlemci için paralel kendini çağıran bir yöntemle belirlenir. Veri tabanı her işlemciye bir parça düşecek şekilde yeniden dağıtılır, izleyen tarama her işlemcide verilen seri bir tarama algoritmasıyla eş vıvıı zamanlı biçimde devam eder. FP~Growth'u seri algoritma olarak kullandiğımız tam bir program gerçekleştirilmiştir. Bir Beowulf sistemi üzerinde yapılan per formans çalışması sentetik veritabanları için iyi hızlanma kaydettiğimizi göster mektedir. Problemin zor örneklerinde gelişmiş bir algoritmanın yaklaşık iki katı hızlanma kazanmış bulunmaktayız. Ayrıca FP-Growth için bir düzeltme ve hızlandırma sunuyoruz.
Özet (Çeviri)
ABSTRACT EFFICIENT PARALLEL FREQUENCY MINING BASED ON A NOVEL TOP-DOWN PARTITIONING SCHEME FOR TRANSACTIONAL DATA Eray Ozkural M.S. in Computer Engineering Supervisor: Prof. Cevdet Aykanat January, 2002 In recent years, large quantities of data have been amassed with advances in data acquisition capabilities. Automated detection of useful information is required for vast data obtained from scientific and business domains. Data Mining is the application of efficient algorithmic solutions on a variety of immense data for such knowledge discovery. Frequency mining discovers all frequent patterns in a transaction or relational database and it comprises the core of several data mining algorithms such as association rule mining and sequence mining. Frequent pattern discovery has become a challenge for parallel programming since it is a highly complex operation on huge datasets demanding efficient and scalable algorithms. In this thesis, we propose a new family of parallel frequency mining algo rithms. We introduce a novel transaction set partitioning scheme that can be used to divide the frequency mining task in a top-down fashion. The method op erates on the graph of frequent patterns with length two (Gp2) from which a graph partitioning by vertex separator (GPVS) is mapped to a two-way partitioning on the transaction set. The two parts obtained can be mined independently and therefore can be utilized for concurrency. In order for this property to hold, there is an amount of replication dictated by the separator in Gp2 which is minimized by the GPVS algorithm. A k-way partitioning is derived from recursive applica tion of 2- way partitioning scheme which is used in the design of a generic parallel frequency mining algorithm. First we compute Gp2 in parallel, succeeding that we designate a k-way partitioning of the database for k processors with a parallel IVrecursive procedure. The database is redistributed such, that each processor is as signed one part. Subsequent mining proceeds simultaneously and independently at each processor with a given serial mining algorithm. A complete implemen tation in which we employ FP- Growth as the sequential algorithm has been achieved. The performance study of the algorithm on a Beowulf system demon strates favorable performance for synthetic databases. For hard instances of the problem, we have gained approximately twice the speedup of a state-of-the-art algorithm. We also present a correction and optimization to FP- Growth algorithm.
Benzer Tezler
- Bor ve mineral katkılı selülozik yalıtım malzemesi üretimi ve karakterizasyonu
Production of boron and mineral reinforced cellulosic insulation material and its characterization
İBRAHİM ETHEM KARAAĞAÇLIOĞLU
Doktora
Türkçe
2012
Maden Mühendisliği ve Madencilikİstanbul Teknik ÜniversitesiMaden Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET SABRİ ÇELİK
- Bir benzinli motorun türbülanslı akış alanlarının incelenmesi
The Investigation of the turblent flow fields in the motored S.1. engine
AHMET ERDİL
Doktora
Türkçe
1997
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ BORAT
- Computational analyses of die-embedded microchannels for high electron mobility transistors considering thermal, hydrodynamic and structural behavior
Yüksek elektron mobiliteli transistorlara uygulanmış gömülü mikrokanal yapılarının ısıl, hidrodinamik ve yapısal davranışlarının hesaplamalı analizleri
ORÇUN YILDIZ
Yüksek Lisans
İngilizce
2023
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALAEDDİN BURAK İREZ
PROF. DR. LÜTFULLAH KUDDUSİ
- Data distribution and performance optimization models for parallel data mining
Koşut veri madenciliği için veri dağıtımı ve başarım optimizasyon modelleri
ERAY ÖZKURAL
Doktora
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEVDET AYKANAT
- Garp linyit işletmelerinde kullanılan çekme kepçeli yerkazarların güvenirlik analizleri
Reliability analysis of dragline systems used in G.L.İ
CAN DURU
Yüksek Lisans
Türkçe
2019
Maden Mühendisliği ve Madencilikİstanbul Teknik ÜniversitesiMaden Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN TUNÇDEMİR