Re-identification of individuals in genomic data-sharing Beacons Via Allele Inference
Genom verisi paylaşan Beacon Sistemlerine karşı Alel Çıkarımı yapan kimlik tespiti atakları
- Tez No: 480028
- Danışmanlar: YRD. DOÇ. DR. ABDULLAH ERCÜMENT ÇİÇEK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 47
Özet
Genom veri setleri genellikle hassas fenotipler ile ilişkilidirler. Bu nedenle bir kişinin veri setinde olduğunun anlaşılması büyük bir mahremiyet riskidir. Beacon sistemleri veri paylaşımı için güvenli, kolay kurulabilir ve standardize bir arayüz sunmayı amaçlar. Bu sistemler sadece kendilerine sorulan, belli alellerin veri setinde olup olmadığına dair evet/hayır sorularını cevaplarlar. Bu kısıtlayıcı prosedür nedeniyle kimlik tespiti ataklarına karşı güvenilir oldukları düşünülen beacon sistemlerinin, risk taşıdığı gösterilmiştir. Yakın zamandaki çalışmalar, bir kişinin veri setinde olup olmadığını anlamanın, beacon sistemlerini bu kişinin nokta mutasyonları ile defalarca sorgulayarak mümkün olabilecegini göstermiştir. Bu tezde özgün bir kimlik tespiti saldırısı tanımlanmakta ve riskin önceden düşünüldüğünden daha büyük olduğu gösterilmektedir. Bu saldırı ile, saldırıya uğrayan kişinin tanımlayıcı mutasyonları sistematik olarak gizlenmiş olsa bile, bu aleller çıkarım yolu ile bulunabilir ve aynı zamanda beacon sisteminin verdiği cevaplar yüksek güven ile tahmin edilebilir. Algoritma, farklı pozisyonlardaki alellerin bağımsız olmamasını temel alarak çalışır ve linkaj dengesizliği ile yüksek seviye Markov zinciri kullanmaktadır. 65 Avrupalı (CEU) bireyi içeren beacon sistemi simülasyonunda, sadece 5 sorgu ile bir kişinin veri setinde olup olmadığını %95 güvenilirlik ile belirleyebilieceğimiz gösterilmiştir (minör alel frekansı 0.05'ten küçük olan olan mutasyonlar sistematik olarak gizlendiğinde bile). Bu rakam, diğer metotların gerek duyduğu sorgu sayısının %0.5'ına denk gelmektedir. Son olarak, literatürde önerilmiş olan, genom verisinin bazı bölgelerinin saklanması ya da kişi başına bir sorgu bütçesi atanması gibi savunma metotlarının da bizim modelimizde katılımcıların mahremiyetini korumakta yetersiz kaldığı gösterilmiştir.
Özet (Çeviri)
Genomic datasets are often associated with sensitive phenotypes. Therefore, the leak of membership information is a major privacy risk. Genomic beacons aim to provide a secure, easy to implement, and standardized interface for data sharing by only allowing yes/no queries on the presence of speci c alleles in the dataset. Previously deemed secure against re-identi cation attacks, beacons were shown to be vulnerable despite their stringent policy. Recent studies have demonstrated that it is possible to determine whether the victim is in the dataset, by repeatedly querying the beacon for his/her single nucleotide polymorphisms (SNPs). In this thesis, we propose a novel re-identi cation attack and show that the privacy risk is more serious than previously thought. Using the proposed attack, even if the victim systematically hides informative SNPs (i.e., SNPs with very low minor allele frequency -MAF-), it is possible to infer the alleles at positions of interest as well as the beacon query results with very high con dence. Our method is based on the fact that alleles at di erent loci are not necessarily independent. We use the linkage disequilibrium and a high-order Markov chain-based algorithm for the inference. We show that in a simulated beacon with 65 individuals from the CEU population, we can infer membership of individuals with 95% con dence with only 5 queries, even when SNPs with MAF less than 0.05 are hidden. This means, we need less than 0.5% of the number of queries that existing works require, to determine beacon membership under the same conditions. We further show that countermeasures such as hiding certain parts of the genome or setting a query budget for the user would fail to protect the privacy of the participants under our adversary model.
Benzer Tezler
- Analyzing the effect of kinship for re-identification attacks ingenomic data sharing beacons
Akrabalık ilişkilerinin istatistiksel veritabanlarına yapılan kimlik tespiti ataklarına karşı etkilerinin incelenmesi
MİRAY AYŞEN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERMAN AYDAY
- Disease gene identification using linkage and exome analyses
Bağlantı ve ekzom analizleri kullanarak hastalık geni keşfi
İLKER KARACAN
Doktora
İngilizce
2019
Genetikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. EDA TAHİR TURANLI
- Investigation of cobalt resistance in Rhodobacter sphaeroides at molecular level
Rhodobacter sphaeroides'de kobalt direncinin moleküler düzeyde incelenmesi
GÜNEŞ ATAY
Doktora
İngilizce
2024
Biyoteknolojiİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. ZEYNEP PETEK ÇAKAR
- Towards differentially private data publishing for effective privacy research
Akıllı sayaç verilerinde etkıi mahremiyet araştırmaları için diferansiyel gizli gürültü ekleme
MOHAMED MEDHAT MOHAMED ALI ZEINA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ALBERT LEVİ
- Farklı beden kitle indeksine sahip bireylerde yüz doku kalınlıklarının adli antropolojik açıdan incelenmesi
Forensic anthropological examination of facial tissue thickness in individuals with different body mass index
KARA NAZMİ KARACAOĞLU
Yüksek Lisans
Türkçe
2022
Adli Tıpİstanbul Üniversitesi-CerrahpaşaSosyal Bilimler Ana Bilim Dalı
PROF. DR. DERYA ATAMTÜRK DUYAR