Geri Dön

On the tradeoff between privacy and utility in genomic studies: Differential privacy under dependent tuples

Genomik çalışmalarda gizlilik ve verinin işe yararlılığı üzerine analiz: Bağımlı elemanlar altında diferansiyel gizlilik

  1. Tez No: 645971
  2. Yazar: NOUR M.N. ALSERR
  3. Danışmanlar: PROF. DR. ÖZGÜR ULUSOY, PROF. DR. ERMAN AYDAY
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Genomic datasets, differential privacy, inference attacks
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 138

Özet

Genom dizilemesindeki hızlı ilerleme ve dizilim maliyetlerindeki azalma, genomik verilerin y¨uksek kullanılabilirli˘gine yol a¸cmı¸stır. Bu verilerin incelenmesi, hastalık ¸ca˘grı¸sımları ve evrimimiz hakkındaki kilit soruların cevaplanmasına b¨uy¨uk ¨ol¸c¨ude yardımcı olabilir. Bununla birlikte, katılımcıların hassas bilgileri hakkındaki artan gizlilik endi¸seleri nedeniyle, ¨onemli sonu¸clara ve genomik ¸calı¸smaların verilerine (genom ¸capında ili¸ski ¸calı¸smaları - GWAS gibi) eri¸smek yalnızca g¨uvenilir ki¸silerle sınırlıdır. Ote yandan, biyomedikal atılımlara ve ke¸siflere ¨ giden yolu a¸cmak, genomik veri k¨umelerine a¸cık eri¸sim verilmesini gerektirir. Gizlilik koruma mekanizmaları, ki¸silerin genetik verilerinin gizlili˘gini korurken bu t¨ur verilere daha geni¸s eri¸sim sa˘glamak i¸cin bir ¸c¨oz¨um olabilir. Ozellikle, genomik veriler hakkındaki ¨ozet istatistikleri payla¸sırken, diferansiyel gizlilik (DP) kavramının uygulanmasına y¨onelik ilgi artmaktadır. DP, veri seti hakkında istatistiksel bilgiler payla¸sırken veri bankasına ¨uyelik ¸cıkarım riskini ¨onlemek i¸cin matematiksel bir yakla¸sım sa˘glar. Ote yandan, DP, genomik veri k¨umeleri ¨ i¸cin ortak bir durum olan veri seti elemanları arasındaki korelasyonu (aile ¨uyelerinin genomları arasındaki do˘gal korelasyonlar) dikkate almadı˘gı i¸cin bilinen bir dezavantaja sahiptir. Bu DP'nin sundu˘gu gizlilik garantilerini bozabilir. Statik ve dinamik genomik veri k¨umelerine odaklanan bu tezde DP'nin bu dezavantajını g¨osteriyor ve onu hafifletmek i¸cin teknikler ¨oneriyoruz. ˙Ilk olarak, ger¸cek hayattaki bir genomik veri k¨umesi kullanarak, veri k¨umesindeki girdiler arasındaki korelasyonları kullanarak, farklı ¨ozel sorgu sonu¸clarına bir ¨ozellik ¸cıkarsama saldırısının fizibilitesini g¨osteriyoruz. Sayıda gizlilik kaybını, k¨u¸c¨uk alel frekansını (MAF) ve ki-kare sorgularını g¨osteriyoruz. Sonu¸clar, veri k¨umesinde birbirine ba˘gımlı elemanlar oldu˘gunda g¨uvenlik a¸cı˘gı ¨ol¸ce˘gini g¨osteriyor. Elde etti˘gimiz sonu¸clar, saldırganın, kullanıcı ¨uyelerinin genomları arasındaki korelasyonları kullanarak bir toplam sorgusunun farklı sonu¸clarından bir kullanıcı hakkındaki hassas genomik verileri ¸cıkarabildi˘gini g¨ostermektedir. Sonu¸clarımız ayrıca statik ve dinamik genomik veri k¨umelerinde farklı MAF sorgularının sonu¸clarını kullanarak ve elemanlar arasındaki ba˘gımlılı˘gı kullanarak, bir saldırganın bir hedefin genomu hakkında (orijinal gizlilik garantilerine kıyasla) %50'ye kadar daha hassas bilgi ortaya ¸cıkarabildi˘gini g¨ostermektedir. Ayrıca, saldırganın, bir hedefin ba¸ska bir genomik veri k¨umesine (¨orn., hassas bir ¨ozellik ile ili¸skili) ¨uyeli˘gini ¸cıkarmak i¸cin nitelik ¸cıkarım saldırısından elde edilen ¸cıkarımsal genomik verileri kullanabilece˘gini g¨osteriyoruz. Bir log olabilirlik oranı (LLR) testi kullanarak, sonu¸clarımız, saldırganın ¸cıkarım g¨uc¨un¨un, b¨oyle bir saldırıda, ¸cıkarımsal (ve dolayısıyla kısmen yanlı¸s) genomlar kullanarak bile ¨onemli ¨ol¸c¨ude y¨uksek olabilece˘gini g¨ostermektedir. Son olarak, elemanlar arasındaki ba˘gımlılı˘gı g¨oz ¨on¨unde bulundurarak gizlilik garantilerini elde etmek i¸cin genomik veri k¨umelerinden istatistiklerin gizlili˘gin korunması i¸cin bir mekanizma ¨oneriyoruz. Mekanizmamızı farklı genomik veri k¨umeleri ¨uzerinde de˘gerlendirerek, ¨onerilen mekanizmamızın geleneksel DP tabanlı ¸c¨oz¨umlerden %50'ye kadar daha iyi gizlilik sa˘glayabildi˘gini ampirik olarak g¨osteriyoruz. Anahtar s¨ozc¨ukler : Genomik veri k¨umesi, diferansiyel gizlilik, ¸cıkarsama saldırısı

Özet (Çeviri)

The rapid progress in genome sequencing and the decrease in the sequencing costs have led to the high availability of genomic data. Studying these data can greatly help answer the key questions about disease associations and our evolution. However, due to growing privacy concerns about the sensitive information of participants, accessing key results and data of genomic studies (such as genomewide association studies - GWAS) is restricted to only trusted individuals. On the other hand, paving the way to biomedical breakthroughs and discoveries requires granting open access to genomic datasets. Privacy-preserving mechanisms can be a solution for granting wider access to such data while protecting their owners. In particular, there has been growing interest in applying the concept of differential privacy (DP) while sharing summary statistics about genomic data. DP provides a mathematically rigorous approach to prevent the risk of membership inference while sharing statistical information about a dataset. However, DP has a known drawback as it does not take into account the correlation between dataset tuples, which is a common situation for genomic datasets due to the inherent correlations between the genomes of family members. This may degrade the privacy guarantees offered by the DP. In this Thesis, focusing on static and dynamic genomic datasets, we show this drawback of the DP and we propose techniques to mitigate it. First, using a real-world genomic dataset, we demonstrate the feasibility of an attribute inference attack on differentially private query results by utilizing the correlations between the entries in the dataset. We show the privacy loss in count, minor allele frequency (MAF), and chi-square queries. The results explain the scale of vulnerability when we have dependent tuples in the dataset. Our results demonstrate that the adversary can infer sensitive genomic data about a user from the differentially private results of a sum query by exploiting the orrelations between the genomes of family members. Our results also show that using the results of differentially-private MAF queries on static and dynamic genomic datasets and utilizing the dependency between tuples, an adversary can reveal up to 50% more sensitive information about the genome of a target (compared to original privacy guarantees of standard DP-based mechanisms), while differentially-privacy chi-square queries can reveal up to 40% more sensitive information. Furthermore, we show that the adversary can use the inferred genomic data obtained from the attribute inference attack to infer the membership of a target in another genomic dataset (e.g., associated with a sensitive trait). Using a log-likelihood-ratio (LLR) test, our results also show that the inference power of the adversary can be significantly high in such an attack even by using inferred (and hence partially incorrect) genomes. Finally, we propose a mechanism for privacy-preserving sharing of statistics from genomic datasets to attain privacy guarantees while taking into consideration the dependence between tuples. By evaluating our mechanism on different genomic datasets, we empirically demonstrate that our proposed mechanism can achieve up to 50% better privacy than traditional DP-based solutions.

Benzer Tezler

  1. Aykırı veri yönelimli fayda temelli büyük veri anonimleştirme modeli

    Outlier oriented utility based big data anonymization model

    YAVUZ CANBAY

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEREF SAĞIROĞLU

    DR. YILMAZ VURAL

  2. Hybrid techniques and preservation of utility in single dimensional k-anonymization

    Hibrid teknikler ve tek boyutlu k-anonimleştirmede kalitenin korunumu

    MUHAMMED ZAHİT GÖK

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolZirve Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET ERCAN NERGİZ

  3. Gizlilik korumalı veri yayınlama için algoritma tasarımı ve gerçeklemesi

    Algorithm design and implementation for privacy-preserving data publishing

    BURAK CEM KARA

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMilli Savunma Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CAN EYÜPOĞLU

  4. Biyometrik güvenlik sistemlerinde mahremiyet, güvenlik ve güven ilişkisinin modellenmesi

    Modeling privacy, security and trust relation in bioemtric security systems

    ALPER KANAK

    Doktora

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. İBRAHİM SOĞUKPINAR

  5. Biometric cryptosystems: authentication, encryption and signaturefor biometric identities

    Biyometrik şifreleme sistemleri: Biyometrik kimlik denetimi, şifrelemesi ve imzası

    NEYYİRE DENİZ SARIER

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolRheinische Friedrich-Wilhelms-Universität Bonn

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. JOACHIM VON ZUR GATHEN

    PROF. DR. PREDA MIHAILESCU