A utility maximizing and privacy preserving approach for protecting kinship in genomic databases

Genomik veritabanlarında akrabalık ilişkilerinin gizliliklerini azami fayda sağlayarak koruyan bir yaklaşım

PDF İndir

Tez No: 457170
Yazar: GÜLCE KALE
Danışmanlar: YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 87

Özet

Genomik verilerin hızlı ve düşük maliyetli dizilimi, katılımcılara ait genomik bilgilerin saklandığı veri tabanlarını kullanan genetik araştırmalar ve kişisel servis uygulamalarını yaygınlaştırmaktadır. Bu veri tabanlarında kişilerin kimlikleri anonimleştirilse de, genomik veriler gizlilik korunmadan paylaşıldığında, kişiler hakkında hassas bilgiler edinilebilir. Akrabalık ilişkilerinin uygun şekilde saklanması güvenlik ihlallerinin engellenebilmesi icin önemli noktalardan biridir. Bu çalışmada, yalnızca tek nükleotid polimorfizm (SNP) verilerinin kamuya açık kayıtlarını kullanıldığı bir durumda bile akrabalık ilişkilerinin tespit edilebilir olduğunu gösteriyoruz. Kişilerin genomik benzerlikleri ve aile üyelerinin arasındaki aykırı alel çift sayılarının varlığının, akrabalık ilişkilerini risk altına koyduğunu gözlemliyoruz. Çalışma kapsamında, riskleri en aza indirgemek için, akrabalık gizliliğinden ödün vermeden verilerin, maksimum fayda ile paylaşımını mümkün kılan hesaplama modelleri sunuyoruz. Bu modellerde, aile üyelerinin veri tabanına sırayla geldiklerini varsayıyoruz. Modeller, yeni aile üyeleri veri tabanına eklendikçe, sistematik olarak genomik veride saklanacak asgari bölümleri tespit ediyor. Hangi pozisyonların ne ölçüde saklanması gerektiğini, saklanan pozisyonlarının sayısını en aza indirildiği ve akrabalık bilgilerinin sızdırılmamasını engelleyen mahremiyet kısıtlamalarına tabi tutulduğu bir optimizasyon problemi ile buluyoruz. Beş bireyden oluşan iki farklı ailenin, aile bireylerinin veri tabanına geldiği farklı sıralarda, modelleri uyguladık. Aldığımız sonuçlara göre, bir ebeveyn ve bir çocuğun genomik verilerinin eşzamanlı paylaşımı, akrabalık ilişkisini yüksek risklerle açığa çıkartırken, daha uzak akrabalarda, güvenli veri paylaşımının mümkün olduğunu görüyoruz. Öte yandan, aynı aile üyeleri veri tabanına farklı sıralarla geldiklerinde, farklı derecede gizlilik riskleri ve veri paylaşım fayda değerleri ile sonuçlanabildiğini gösteriyoruz. Önerilen yöntemin benimsenmesinin, gelecek araştırmalarda ve kamu genom hizmetleri alanlarında, akrabalık gizliliği koruyarak güvenli genom veri paylaşımına izin vereceğini umuyoruz.

Özet (Çeviri)

Rapid and low cost sequencing of genomic data enables widespread use of genomic information in research studies and personalized customer applications, where people share their genomic data in public databases. Although the identities of the participants are anonymized in these databases, sensitive information about individuals can still be inferred if the stored data is not shared in a privacy-preserving manner. Proper handling of kinship information is one such caveat that needs to be addressed to avoid exposure of privacy-sensitive information. In this work, we show that by using only the publicly available single nucleotide polymorphism (SNP) data of anonymized individuals, kinship relationships can be inferred. We present two scenarios that result in privacy leakage; one based on genomic similarity of the individuals; the other, through the outlier allele pair counts of the family members. In the proposed models, we assume that the family members join to the database sequentially and we systematically identify minimal portions of data to withhold as the new participants are added to the database. Choosing the proper positions to hide is cast as an optimization problem. Therein, the number of positions to mask is minimized subject to several privacy constraints that ensure the kinship information among any pair of the family members is not leaked. We evaluate the proposed technique on real genomic data of two different families of size five by considering different sequential arrival orders for the family members. Results indicate that concurrent sharing of data pertaining to a parent and an offspring results in high risks of privacy leakages, whereas the sharing data from further relatives together is often safer. We also show that different arrival orders of the members can lead to different levels of privacy risks and the utility of shared data can vary. Adoption of the proposed method shall allow safe sharing of genomic data in terms of kinship privacy in future research studies and public genomic services.

Benzer Tezler

Tez No
629156
Büyük veri ve akan verinin mahremiyet korumalı anonimleştirilmesi
Privacy preserving anonymization of big data and data streams
UĞUR SOPAOĞLU
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TOBB Ekonomi ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN ABUL
Tez No
305647
Mathematical modeling for energy policy analysis
Enerji politikaları analizi için matematiksel modelleme
BORA KAT
Doktora
İngilizce
2011
Enerji Orta Doğu Teknik Üniversitesi
Endüstri Mühendisliği Bölümü
DOÇ. DR. EBRU VOYVODA
PROF. DR. ÇAĞLAR GÜVEN
Tez No
782914
Aile işletmelerinin 2000'li yıllarda ekonomide krizlere yönelik tepkileri: Batı Ege endüstriyel iklimlendirme ve soğutma sektörü üzerine bir araştırma
A research on the reaction of family businesses to economic crises in 2000's years: A case study of industrial air conditioning and refrigeration sector in Western Aegean
NİLAY TUTAN
Doktora
Türkçe
2023
Ekonomi Ege Üniversitesi
İktisat Ana Bilim Dalı
PROF. DR. ALP YÜCEL KAYA
Tez No
413238
Algorithm-embedded information technology applications in knowledge cities and the case of Istanbul
Bilgi şehirlerinde algoritma gömülü bilgi teknolojileri uygulamaları ve İstanbul'un durumu
MUHAMMED ALİ ÖNDER
Yüksek Lisans
İngilizce
2015
Endüstri ve Endüstri Mühendisliği İstanbul Şehir Üniversitesi
Endüstri ve Sistemler Mühendisliği Ana Bilim Dalı
DOÇ. DR. VURAL AKSAKALLI
DOÇ. DR. MELİH BULU
Tez No
87193
Formal GARCH performance in a computable dynamic general equilibrium framework
Hesaplanabilir dinamik genel denge çerçevesinde resmi GARCH performansı
ALİ BORA YİĞİTBAŞIOĞLU
Yüksek Lisans
İngilizce
1998
İşletme İhsan Doğramacı Bilkent Üniversitesi
İşletme Yönetimi Ana Bilim Dalı
DOÇ. DR. ASLIHAN SALİH

Geri Dön