Geri Dön

Aykırı veri yönelimli fayda temelli büyük veri anonimleştirme modeli

Outlier oriented utility based big data anonymization model

  1. Tez No: 598810
  2. Yazar: YAVUZ CANBAY
  3. Danışmanlar: PROF. DR. ŞEREF SAĞIROĞLU, DR. YILMAZ VURAL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 203

Özet

Veri mahremiyeti, mahremiyet seviyesi ile veri faydası arasındaki en iyi dengeyi bulmaya çalışan, zor ve güncel bir problemdir. Her ne kadar ilk bakışta veri sahiplerinin mahremiyetini korumak olarak anlaşılsa da, sadece bununla sınırlı olmayıp verinin fayda boyutunu da veri mahremiyeti koruma sürecine dâhil eder. Veri faydası, veri mahremiyeti sürecindeki en önemli unsurlardan biri olup, mahremiyeti korunmuş veri üzerinde yapılacak analizlerin ve geliştirilen modellerin doğruluğunu doğrudan etkiler. Veri mahremiyeti kapsamında, toplam veri faydasını düşüren veri grubu olarak tanımlanan aykırı verilerin mahremiyet koruma sürecinde yönetilmesi gerekir. Literatürde veri mahremiyeti kapsamında aykırı verileri dikkate alan ve bunları yöneten çeşitli çalışmalar mevcuttur. Ancak bu çalışmalar, aykırı verileri kısmen veya tamamen veri kümesinden çıkardığı veya aykırı verilerin değerini değiştirdiği için hem veri faydası hem de veri güvenilirliği açısından yeterli çözüm sunamamaktadır. Bu tezde, aykırı verileri yöneterek toplam veri faydasını arttıran geleneksel mimari tabanlı iki yeni anonimleştirme modeli (u-Mondrian ve u-Canon), Mondrian modelinden daha üstün yeni bir anonimleştirme modeli (Canon) ve büyük veri mimarisinde SMondrian modeline aykırı veri konsepti uygulayarak daha yüksek veri faydası sunan yeni bir anonimleştirme modeli (Su-Mondrian) ilk defa önerilmiş, geliştirilmiş, uygulanmış ve test edilmiştir. Elde edilen test sonuçlarına göre; DM, GCP ve AECS metrikleri için u-Mondrian modelinin Mondrian modeline göre sırasıyla %15,30-%49,75, %16,02-%44,50 ve %13,76-%48,98 aralıklarında daha yüksek veri faydası sunduğu; u-Canon modelinin Canon modeline göre ise sırasıyla %15,30-%49,08, %5,18-%32,43 ve %13,76-%48,99 aralıklarında daha yüksek veri faydası sunduğu, Canon modelinin Mondrian modeline göre GCP metriği için %43,01-%45,47 aralığında daha yüksek veri faydası sunduğu ve son olarak Su-Mondrian modelinin SMondrian modeline göre DM, GCP ve AECS metrikleri için sırasıyla %25,55-%33,12, %22,83-%29,16 ve %9,29-%17,29 aralıklarında daha yüksek veri faydası sunduğu görülmüştür.

Özet (Çeviri)

Data privacy is a difficult tradeoff problem between privacy and utility. Although it is understood as preserving the privacy of data owners at first glance, it has the utility dimension of data in privacy preserving processes. Data utility directly affects the accuracy of the analysis and models which are made and developed on the privacy preserved data. In the context of data privacy, outliers are defined as the data group that reduces total data utility and they need to be managed in the privacy preserving processes. In the literature, there exist various studies which focus on outliers and outlier management. Because these studies remove outliers partially or completely from the dataset or change the real values of outliers, they do not present sufficient solutions in terms of data utility and data reliability. In this thesis, two traditional architecture based anonymization models (u-Mondrian and u-Canon) which propose to increase total data utility by managing outliers, a new anonymization model (Canon) which is better than Mondrian and a new big data based anonymization model (Su-Mondrian) which manages outliers and presents higher data utility than SMondrian were proposed, developed, applied and tested. According to the experimental results, for DM, GCP and AECS metrics, it was seen that u-Mondrian presents higher data utility than Mondrian in the ranges of %15.30-%49.75, %16.02-%44.50 and %13.76-%48.98; u-Canon presents higher data utility than Canon in the ranges of %15.30-%49.08, %5.18-%32.43 and %13.76-%48.99 respectively; Canon presents higher data utility than Mondrian in the range of %43.01-%45.47 for GCP metric and finally Su-Mondrian presents higher data utility than SMondrian in the ranges of %25.55-%33.12, %22.83-%29.16 and %9.29-%17.29 for DM, GCP and AECS metrics respectively.

Benzer Tezler

  1. Makine öğrenmesi teknikleriyle yazılım uyum metriklerinin tahmini

    Predicting software coheson metrics with machine learning techniques

    ELİF NUR HANER KIRĞIL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TÜLİN ERÇELEBİ AYYILDIZ

  2. Augmented superpixel based anomaly detection in hyperspectral imagery

    Hiperspektral görüntülerde genişletilmiş süperpiksel tabanlı anomali tespiti

    EZGİ GÖKDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  3. Futbolcularda antrenör-sporcu ilişkisi: Mükemmeliyetçilik ve hedef yönelimi perspektifi

    Coach-athlete relationship in football players: Perfectionism and goal orientation perspective

    ATALAY EROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    SporEge Üniversitesi

    Beden Eğitimi ve Spor Ana Bilim Dalı

    PROF. DR. FERİDE ZİŞAN KAZAK

  4. Sağlık sektöründe aykırı verilerin algılanması ve yorumlanması için mekânsal-zamansal veri madenciliği kullanımı

    Using of spatio-temporal data mining for trajectory outlier detection and interpretation in health care services

    ŞEYMA YÜCEL ALTAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDULSAMET HAŞILOĞLU

  5. Bilgi teknolojileri projelerinde risk ve performans arasındaki ilişkinin incelenmesi

    Research of relationship between risk and performance in it projects

    GÖZDE ÇELİKEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgi ve Belge Yönetimiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. FETHİ ÇALIŞIR