Gizlilik korumalı veri yayınlama için algoritma tasarımı ve gerçeklemesi
Algorithm design and implementation for privacy-preserving data publishing
- Tez No: 845950
- Danışmanlar: DOÇ. DR. CAN EYÜPOĞLU
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Milli Savunma Üniversitesi
- Enstitü: Atatürk Stratejik Araştırmalar ve Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 142
Özet
Son yıllarda internet ortamında gerçekleştirilen işlemlerde bireylere ait birçok önemli ve hassas veri paylaşılmaktadır. Bu tarz verilerin gerekli gizlilik önlemleri alınmadan yayınlanması birçok kişi veya kurum için potansiyel fırsatlar yaratırken, veri sahibi açısından ise önemli sorunlar teşkil etmektedir. Verilerin kullanılabilirliğini göz ardı etmeden bireylerin kimlik bilgilerinin ifşa olmasını engelleyen gizlilik korumalı veri yayınlama (Privacy-Preserving Data Publishing Algorithm-PPDP) algoritması geliştirmek hala ulaşılmayı bekleyen önemli bir hedeftir. Çünkü veri faydası ile veri mahremiyeti arasındaki optimum dengeyi bulmak NP-zor bir problemdir ve aynı zamanda güncel bir araştırma alanıdır. Bu tez çalışması kapsamında, literatürde veri anonimleştirme süreçlerinde sıklıkla tercih edilen k-anonimleştirme yöntemine dayalı algoritmaların temel eksikliklerine odaklanılarak literatüre önemli katkılar sağlayacak yeni algoritmalar geliştirilmiştir. Tez kapsamında önerilen algoritma olan bağlantıya dayalı aykırı veri faktörü (Connectivity-Based Outlier Factor-COF) ve Mondrian tekniklerini temel alan PPDP algoritması, Mondrian algoritmasına bir aykırı veri tespit mekanizması dahil edilerek veri kullanımını artırmak için tasarlanmıştır. Önerilen algoritma, Mondrian algoritmasından daha fazla eşlenik sınıf üretmekte ve k-anonimleştirmeye dayalı önceki algoritmalardan daha fazla veri faydası sağlamaktadır. Tez kapsamında önerilen diğer bir k-anonimleştirme tabanlı çok boyutlu PPDP algoritması ise veri uzayını parçalamak için KD-ağacı (k-Dimensional Tree-KD-Tree) gibi böl ve yönet stratejisine dayalı çalışan yeni bir etkin bölme stratejisine sahip, trade-off dengesini gözeterek sınır problemini çözen ve aykırı verilerden kaynaklı sorunlara yeni bir mekanizma ekleyerek çözüm getiren, sayısal ve kategorik verilere uygulanabilen, hem veri faydası konusunda hem de veri gizliliği konusunda seleflerinden daha başarılı performans gösteren bir algoritmadır. Ayrıca bu tez çalışmasında hasta ve doktorların buluştuğu e-Sağlık platformlarından toplanan verilerle yeni bir veri seti oluşturulmuştur. Oluşturulan bu sağlık veri seti üzerinde literatürde sıklıkla kullanılan bazı k-anonimleştirme tabanlı algoritmalar uygulanmıştır. Bu tez çalışması kapsamında önerilen algoritmaların başarısı ayırt edilebilirlik metriği (Discernibility Metric-DM), normalleştirilmiş ortalama eşlenik sınıf büyüklüğü (Normalized Average Equivalence Class Size-Cavg), eşlenik sınıflarının sayısı (Number of Equivalence Classes-NEC), hiyerarşik kesinlik ceza (Hierarchical Certainty Penalty-HCP), normalleştirilmiş kesinlik cezası (Normalized Certainty Penalty-NCP), global kesinlik cezası (Global Certainty Penalty-GCP), sınıflandırma doğruluğu (Classification Accuracy-CA), F-ölçütü (F-Measure), anonimlik skoru, trade-off dengesi ve çalışma süresini ölçen metrikler açısında değerlendirilmiştir. Tez kapsamında önerilen ve mevcut algoritmaların gerçeklenebilmesi için veri seti olarak ise Yetişkin (Adult) ve e-Sağlık veri setleri kullanılmış ve deneylerden elde edilen sonuçlar detaylı olarak sunulmuştur. Tez kapsamında önerilen algoritmalar ile literatürde var olan algoritmalar karşılaştırıldığında elde edilen deneysel sonuçlar, önerilen algoritmaların literatürde yaygın olarak tercih edilen k-anonimleştirme tabanlı algoritmaların temel eksikliklerini gidererek hem veri kullanımı hem de veri gizliliği açısından üstün bir performans ortaya koyduğunu göstermektedir.
Özet (Çeviri)
In recent years, many important and sensitive data of individuals have been shared in transactions carried out on the internet. The publication of such data without the necessary privacy precautions creates potential opportunities for many individuals or institutions, however, from the perspective of the data owner, it poses significant problems. Developing a privacy-preserving data publishing algorithm (PPDP) that prevents the disclosure of individuals' identity information without ignoring the data utility is still an important goal awaiting achievement. This is because finding the optimum balance between data utility and data privacy is a challenging NP-hard problem and is also a current research area. As part of this thesis, new algorithms that will make significant contributions to the literature have been developed by focusing on the fundamental shortcomings of algorithms based on the frequently preferred k-anonymization method in data anonymization processes. The proposed algorithm within the scope of the thesis is the PPDP algorithm based on connectivity-based outlier factor (COF) and Mondrian techniques. This algorithm is designed to increase data utility by incorporating an outlier detection mechanism into the Mondrian algorithm and generates more equivalence classes than the Mondrian algorithm and provides more data utility compared to previous algorithms based on k-anonymization. Another proposed PPDP algorithm, based on k-anonymization within the scope of the thesis, features a novel partitioning strategy that operates based on a divide-and-conquer strategy such as k-Dimensional Tree (KD-Tree) to partition the data space. It addresses the boundary problem while preserving the trade-off, and it introduces a new mechanism to address issues arising from outliers. This algorithm is applicable to both numerical and categorical data, demonstrating more successful performance in terms of both data utility and data privacy compared to its predecessors. Additionally, in this thesis, a new dataset was created using data collected from e-Health platforms where patients and doctors converge. Some k-anonymization based algorithms commonly used in the literature were applied to this generated health dataset. The success of the algorithms proposed within the scope of this thesis has been evaluated in terms of discernibility metric (DM), normalized average equivalence class size (Cavg), number of equivalence classes (NEC), hierarchical certainty penalty (HCP), normalized certainty penalty (NCP), global certainty penalty (GCP), classification accuracy (CA), F-measure, anonymity score, trade-off, and execution time metrics. The datasets used for implementing the proposed algorithms and comparing them with existing algorithms within the thesis are the Adult and e-Health datasets. The results obtained from experiments are presented in detail. Experimental results obtained by comparing the proposed algorithms with existing algorithms in the literature demonstrate that the proposed algorithms outperform widely preferred k-anonymization based algorithms in the literature, addressing fundamental shortcomings in terms of both data utility and data privacy.
Benzer Tezler
- Büyük veride etkin gizlilik koruması için yazılım tasarımı
Software design for efficient privacy preserving in big data
CAN EYÜPOĞLU
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
DR. ÖĞR. ÜYESİ MUHAMMED ALİ AYDIN
- Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi
Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method
İLKER İLTER
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAFİYE SENCER
- IEEE 802.15.4 LR-WPAN standardı ile oluşturulan uygulamalar, güvenlik durumları ve olası güvenlik açıkları için bazı çözüm önerileri
The IEEE 802.15.4 LR-WPAN standard applications, security issues and solution proposals for possible security vulnerabilities
EMRE YAMAÇ
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBeykent ÜniversitesiMatematik Bilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. RİFAT ÇÖLKESEN
- Nonlinearity preserving post-transformations
Nonlineeriteyi koruyan ard dönüşümler
İSA SERTKAYA
Yüksek Lisans
İngilizce
2004
MatematikOrta Doğu Teknik ÜniversitesiKriptografi Ana Bilim Dalı
DOÇ. DR. ALİ DOĞANAKSOY
- Blokzinciri (blockchaın) teknolojisinin inşaat sektöründe kullanımı
Blockchain technology in construction
ALİCAN KANDİYE
Yüksek Lisans
Türkçe
2020
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DENİZ ARTAN