Geri Dön

A utility maximizing and privacy preserving approach for protecting kinship in genomic databases

Genomik veritabanlarında akrabalık ilişkilerinin gizliliklerini azami fayda sağlayarak koruyan bir yaklaşım

  1. Tez No: 457170
  2. Yazar: GÜLCE KALE
  3. Danışmanlar: YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

Genomik verilerin hızlı ve düşük maliyetli dizilimi, katılımcılara ait genomik bilgilerin saklandığı veri tabanlarını kullanan genetik araştırmalar ve kişisel servis uygulamalarını yaygınlaştırmaktadır. Bu veri tabanlarında kişilerin kimlikleri anonimleştirilse de, genomik veriler gizlilik korunmadan paylaşıldığında, kişiler hakkında hassas bilgiler edinilebilir. Akrabalık ilişkilerinin uygun şekilde saklanması güvenlik ihlallerinin engellenebilmesi icin önemli noktalardan biridir. Bu çalışmada, yalnızca tek nükleotid polimorfizm (SNP) verilerinin kamuya açık kayıtlarını kullanıldığı bir durumda bile akrabalık ilişkilerinin tespit edilebilir olduğunu gösteriyoruz. Kişilerin genomik benzerlikleri ve aile üyelerinin arasındaki aykırı alel çift sayılarının varlığının, akrabalık ilişkilerini risk altına koyduğunu gözlemliyoruz. Çalışma kapsamında, riskleri en aza indirgemek için, akrabalık gizliliğinden ödün vermeden verilerin, maksimum fayda ile paylaşımını mümkün kılan hesaplama modelleri sunuyoruz. Bu modellerde, aile üyelerinin veri tabanına sırayla geldiklerini varsayıyoruz. Modeller, yeni aile üyeleri veri tabanına eklendikçe, sistematik olarak genomik veride saklanacak asgari bölümleri tespit ediyor. Hangi pozisyonların ne ölçüde saklanması gerektiğini, saklanan pozisyonlarının sayısını en aza indirildiği ve akrabalık bilgilerinin sızdırılmamasını engelleyen mahremiyet kısıtlamalarına tabi tutulduğu bir optimizasyon problemi ile buluyoruz. Beş bireyden oluşan iki farklı ailenin, aile bireylerinin veri tabanına geldiği farklı sıralarda, modelleri uyguladık. Aldığımız sonuçlara göre, bir ebeveyn ve bir çocuğun genomik verilerinin eşzamanlı paylaşımı, akrabalık ilişkisini yüksek risklerle açığa çıkartırken, daha uzak akrabalarda, güvenli veri paylaşımının mümkün olduğunu görüyoruz. Öte yandan, aynı aile üyeleri veri tabanına farklı sıralarla geldiklerinde, farklı derecede gizlilik riskleri ve veri paylaşım fayda değerleri ile sonuçlanabildiğini gösteriyoruz. Önerilen yöntemin benimsenmesinin, gelecek araştırmalarda ve kamu genom hizmetleri alanlarında, akrabalık gizliliği koruyarak güvenli genom veri paylaşımına izin vereceğini umuyoruz.

Özet (Çeviri)

Rapid and low cost sequencing of genomic data enables widespread use of genomic information in research studies and personalized customer applications, where people share their genomic data in public databases. Although the identities of the participants are anonymized in these databases, sensitive information about individuals can still be inferred if the stored data is not shared in a privacy-preserving manner. Proper handling of kinship information is one such caveat that needs to be addressed to avoid exposure of privacy-sensitive information. In this work, we show that by using only the publicly available single nucleotide polymorphism (SNP) data of anonymized individuals, kinship relationships can be inferred. We present two scenarios that result in privacy leakage; one based on genomic similarity of the individuals; the other, through the outlier allele pair counts of the family members. In the proposed models, we assume that the family members join to the database sequentially and we systematically identify minimal portions of data to withhold as the new participants are added to the database. Choosing the proper positions to hide is cast as an optimization problem. Therein, the number of positions to mask is minimized subject to several privacy constraints that ensure the kinship information among any pair of the family members is not leaked. We evaluate the proposed technique on real genomic data of two different families of size five by considering different sequential arrival orders for the family members. Results indicate that concurrent sharing of data pertaining to a parent and an offspring results in high risks of privacy leakages, whereas the sharing data from further relatives together is often safer. We also show that different arrival orders of the members can lead to different levels of privacy risks and the utility of shared data can vary. Adoption of the proposed method shall allow safe sharing of genomic data in terms of kinship privacy in future research studies and public genomic services.

Benzer Tezler

  1. Büyük veri ve akan verinin mahremiyet korumalı anonimleştirilmesi

    Privacy preserving anonymization of big data and data streams

    UĞUR SOPAOĞLU

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OSMAN ABUL

  2. Mathematical modeling for energy policy analysis

    Enerji politikaları analizi için matematiksel modelleme

    BORA KAT

    Doktora

    İngilizce

    İngilizce

    2011

    EnerjiOrta Doğu Teknik Üniversitesi

    Endüstri Mühendisliği Bölümü

    DOÇ. DR. EBRU VOYVODA

    PROF. DR. ÇAĞLAR GÜVEN

  3. Aile işletmelerinin 2000'li yıllarda ekonomide krizlere yönelik tepkileri: Batı Ege endüstriyel iklimlendirme ve soğutma sektörü üzerine bir araştırma

    A research on the reaction of family businesses to economic crises in 2000's years: A case study of industrial air conditioning and refrigeration sector in Western Aegean

    NİLAY TUTAN

    Doktora

    Türkçe

    Türkçe

    2023

    EkonomiEge Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. ALP YÜCEL KAYA

  4. Algorithm-embedded information technology applications in knowledge cities and the case of Istanbul

    Bilgi “şehirlerinde algoritma gömülü bilgi teknolojileri uygulamaları ve İstanbul'un durumu

    MUHAMMED ALİ ÖNDER

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Endüstri ve Endüstri Mühendisliğiİstanbul Şehir Üniversitesi

    Endüstri ve Sistemler Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VURAL AKSAKALLI

    DOÇ. DR. MELİH BULU

  5. Formal GARCH performance in a computable dynamic general equilibrium framework

    Hesaplanabilir dinamik genel denge çerçevesinde resmi GARCH performansı

    ALİ BORA YİĞİTBAŞIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    İşletmeİhsan Doğramacı Bilkent Üniversitesi

    İşletme Yönetimi Ana Bilim Dalı

    DOÇ. DR. ASLIHAN SALİH