A privacy-preserving solution for the bipartite ranking problem on Spark framework
İki taraflı sıralama problemine Spark çerçevesinde gizliliği koruyan bir çözüm
- Tez No: 470028
- Danışmanlar: PROF. DR. HALİL ALTAY GÜVENİR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Iki uçlu sıralama problemi, bir veri kümesindeki pozitif örnekleri negatif olanlardan daha yüksek konumlara yerlestiren bir fonksiyon bulma problemi olarak tanımlanır. Finansal ve tıbbi alanlar, sıralama algoritmalarının ortak uygulama alanlarından bazılarıdır. Bununla birlikte, bu tür alanlar için ortak bir endise, veri kümesindeki kisilerin mahremiyetidir. Yani, böyle bir alandan elde edilen bir veri kümesindeki bilgiyi kesfetmek isteyen bir arastırmacı bir sıralama algoritması çalıstırmak için veri kümesindeki bireylerin tüm bilgilerine erismek zorundadır. Gizlilik endisesi, bu tür analizler için hassas kisisel verilerin kullanımına iliskin sınırlamalar getirmektedir. Arastırmacının, verilerden bir sıralama modeli ögrenmek için örneklerin ham verilerine ihtiyaç duymadıgı, gizliligi koruyan iki uçlu sıralama problemi için verimli bir çözüm önermekteyiz. RIMARC (ROC Egrisi Altındaki Alanı Maksimize Ederek Örnekleri Sıralama) algoritması, örnekleri sıralamak için bir model ögrenerek iki uçlu sıralama problemini çözer. Modelin bir parçası olarak, alıcının çalısma karakteristigi (ROC) egrisi altındaki alanı analiz ederek her bir özellik için bir agırlık ögrenir. RIMARC algoritmasının benzer sıralama algoritmalarından daha basarılı ve hızlı oldugu gösterilmistir. Dolayısıyla, RIMARC algoritmasını bir yapı tası olarak alıp, homomorfik sifreleme ve güvenli çok partili hesaplama kullanarak bu algoritmanın gizliligi koruyan bir versiyonunu gelistirdik. RIMARC algoritmasının büyük veri kümelerinde zaman verimliligini artırmak için, Resilient Distributed Datasets adlı programlama paradigması ile popüler, bir paralellestirme çerçevesi olan Apache Spark'da gizliligi koruyan versiyonunu gelistirdik. Önerilen algoritmamız, bir veri sahibinin, sifreli veri kümesinin depolanmasını ve islenmesini, yarı güvenilir bir bulut ortamında dıs kaynak olarak saglar. Bir arastırmacı, bir sıralama fonksiyonu ögrenmek için bulut ile etkilesim kurarak veri kümesindeki sorgularının sonuçlarını alabilir. Bu süreçte ne arastırmacı ne de bulut, islenmemis veri kümesiyle ilgili herhangi bir bilgiye erisemez. Önerilen algoritmanın güvenligi kanıtlanmakta ve gerçek veriler üzerindeki deneyler ile verimliligi gösterilmektedir.
Özet (Çeviri)
The bipartite ranking problem is defined as finding a function that ranks positive instances in a dataset higher than the negative ones. Financial and medical domains are some of the common application areas of the ranking algorithms. However, a common concern for such domains is the privacy of individuals or companies in the dataset. That is, a researcher who wants to discover knowledge from a dataset extracted from such a domain, needs to access the records of all individuals in the dataset in order to run a ranking algorithm. This privacy concern puts limitations on the use of sensitive personal data for such analysis. We propose an efficient solution for the privacy-preserving bipartite ranking problem, where the researcher does not need the raw data of the instances in order to learn a ranking model from the data. The RIMARC (Ranking Instances by Maximizing Area under the ROC Curve) algorithm solves the bipartite ranking problem by learning a model to rank instances. As part of the model, it learns a weight for each feature by analyzing the area under receiver operating characteristic (ROC) curve. RIMARC algorithm is shown to be more accurate and efficient than its counterparts. Thus, we use this algorithm as a building-block and provide a privacy-preserving version of the RIMARC algorithm using homomorphic encryption and secure multi-party computation. In order to increase the time efficiency for big datasets, we have implemented privacy-preserving RIMARC algorithm on Apache Spark, which is a popular parallelization framework with its revolutionary programming paradigm called Resilient Distributed Datasets. Our proposed algorithm lets a data owner outsource the storage and processing of its encrypted dataset to a semi-trusted cloud. Then, a researcher can get the results of his/her queries (to learn the ranking function) on the dataset by interacting with the cloud. During this process, neither the researcher nor the cloud can access any information about the raw dataset. We prove the security of the proposed algorithm and show its efficiency via experiments on real data.
Benzer Tezler
- A privacy-preserving solution for storage and processing of personal health records against brute-force attacks
Kişisel sağlık verilerinin kaba güç saldırılarına karşı güvenli saklanması ve işlenmesi
SAHARNAZ ESMAEILZADEH DILMAGHANI
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERMAN AYDAY
- Learning efficient visual embedding models under data constraints
Veri kısıtlamaları altında verimli görüntü gömme modelleri öğrenme
MERT BÜLENT SARIYILDIZ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM AKSOY
YRD. DOÇ. DR. RAMAZAN GÖKBERK CİNBİŞ
- Privacy preserving multi-user charging and billing scheme for dynamic charging electric vehicles
Başlık çevirisi yok
SİMGE KOÇTAŞ
- A framework of privacy preserving services for distributed online social networks
Başlık çevirisi yok
SANAZ TAHERI BOSHROOYEH
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPTEKİN KÜPÇÜ
PROF. DR. ÖZNUR ÖZKASAP
- A comparative study of privacy-preserving techniques forthe cloud storage
Bulut depolama için gizlilik koruma tekniklerinin karşılaştırmalı bir çalışması
THR SATAR JABAR JABAR
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
PROF. DR. ALOK MISHRA