Impacts of frequent itemset hiding algorithms on privacy preserving data mining
Sık kümeleri gizleme algoritmalarının gizliliği koruyan veri madenciliği üzerine etkileri
- Tez No: 266606
- Danışmanlar: YRD. DOÇ. DR. BELGİN ERGENÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: İngilizce
- Üniversite: İzmir Yüksek Teknoloji Enstitüsü
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 79
Özet
Son yıllarda bilgisayar yeteneklerinin önlenemez büyümesi ve büyük miktarda verinin toplanması, veri madenciliğini gözde bir analiz aracı yapmıştır. Birliktelik kuralları (sık kümeler), sınıflandırma ve kümeleme veri madenciliğinin temel yöntemleridir. Bu tezin ilk çalışması aday küme üretmeyen iki algoritma Matrix Apriori ve FP-Growth sık küme bulma algoritmalarının uygulanması ve değerlendirilmesidir. Bu iki algoritmanın karşılaştırılması hızlı matris veri yapısıyla Matrix Apriori'nin daha yüksek başarıma sahip olduğunu açığa çıkarmıştır.Veri madenciliğinin artan gücünün ortaya çıkardığı sorunlardan bir tanesi kişilerin ve şirketlerin gizliliğini ihlal etmeden saklı örüntülerin bulunmasıdır. Bu tezin ikinci bölümünde gözde veri madenciliği tekniklerinden biri olan sık kümelerin bulunması için gizliği koruyan bir yaklaşım önerilmiştir. İkinci olarak, Matrix Apriori algoritması üzerinde değişlik yapılmış ve sık küme gizleme çerçevesi geliştirilmiştir. Dört sık küme gizleme algoritması önerilmiştir, öyle ki: i) bütün sürümler ön madencilik olmadan çalışmakta ve sık kümelerin önceden bulunmasının neden olduğu gizlilik açığı önlenmektedir, ii) ön madencilik gerekmediğinden verimlilik artmıştır, iii) destek değerleri gizleme sürecinde bulunmaktadır ve sonunda temizlenmiş veri kümesi ve bu veri kümesinin sık kümeleri çıktı olarak verilmektedir yani sonradan madenciliğe gerek yoktur, iv) sezgiseller işlem uzunluğundansa örüntü uzunluğunu kullanarak daha değerli veri üzerinde bozma yapma olasılığını elemektedir.
Özet (Çeviri)
The invincible growing of computer capabilities and collection of large amounts of data in recent years, make data mining a popular analysis tool. Association rules (frequent itemsets), classification and clustering are main methods used in data mining research. The first part of this thesis is implementation and comparison of two frequent itemset mining algorithms that work without candidate itemset generation: Matrix Apriori and FP-Growth. Comparison of these algorithms revealed that Matrix Apriori has higher performance with its faster data structureOne of the great challenges of data mining is finding hidden patterns without violating data owners? privacy. Privacy preserving data mining came into prominence as a solution. In the second study of the thesis, Matrix Apriori algorithm is modified and a frequent itemset hiding framework is developed. Four frequent itemset hiding algorithms are proposed such that: i) all versions work without pre-mining so privacy breech caused by the knowledge obtained by finding frequent itemsets is prevented in advance, ii) efficiency is increased since no pre-mining is required, iii) supports are found during hiding process and at the end sanitized dataset and frequent itemsets of this dataset are given as outputs so no post-mining is required, iv) the heuristics use pattern lengths rather than transaction lengths eliminating the possibility of distorting more valuable data.
Benzer Tezler
- Discovering users' usage patterns of web log through association rules mining methodology
Kullanıcıların web log kullanım şekillerinin ilişkili kurallar madencilik metodolojisiyle keşfi
AHMAD HISHAM ARNAOUT
Yüksek Lisans
İngilizce
2021
Bilim ve TeknolojiBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TAMER UÇAR
- Mobility in wireless networks: Handover decision using HMM for mobility prediction
Başlık çevirisi yok
DORUK ŞAHİNEL
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTechnische Universität Hamburg-HarburgDR. YUNGI LUO
- Yeni iletişim araçlarının kullanım sıklığı ile dönüşen kişiler arası iletişim biçimi
Transformation of interpersonal communication methods through frequent use of the new communication tools
EMEL ERBAŞLI
Yüksek Lisans
Türkçe
2020
Halkla İlişkilerİstanbul ÜniversitesiHalkla İlişkiler ve Tanıtım Ana Bilim Dalı
PROF. DR. SEVİMECE KARADOĞAN DORUK
- Sabiha Gökçen Havalimanı için lojistik regresyon yöntemi ile sis analizi
Fog analysis with logistic regression for Sabiha Gökcenairport
GUPSE YILMAZ
Yüksek Lisans
Türkçe
2019
Meteorolojiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. MİKDAT KADIOĞLU
- Utilizing biodiesel from cottonseed oil for the transportation of cotton textile products: A life cycle approach
Pamuklu tekstil ürünlerinin taşınmasında pamuk tohumu yağından elde edilen biyodizelin kullanımı: Yaşam döngüsü yaklaşımı
IRAZ ÇİNAR
Yüksek Lisans
İngilizce
2023
Biyomühendislikİzmir Ekonomi ÜniversitesiBiyomühendislik Ana Bilim Dalı
DOÇ. DR. FEHMİ GÖRKEM ÜÇTUĞ