Comparison of the effects of data privacy preserving methods on machine learning algorithms in IoT
Nesnelerin internetinde veri gizliliğini koruma yöntemlerinin makine öğrenme algoritmalarına etkilerinin karşılaştırılması
- Tez No: 743286
- Danışmanlar: DOÇ. DR. ÖMER KORÇAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Veri gizliliğini korumak, birçok kuruluş ve birey için çok önemli ve artan bir endişe kaynağıdır. Gizlilik konusunu ele almak için, veriye dayalı hizmetler araştırma ve geliştirme üzerinde doğrudan etkileri olan birçok düzenleme uygulanmaktadır. Verilerin anonimleştirilmesi, belirli gizlilik düzenlemelerine uymak için kişisel olarak tanımlanabilir bilgileri kaldırarak bu sorunla başa çıkmanın bir yoludur. Ancak, anonimleştirme süreci tek başına verilere bir miktar gürültü getirir. Bu çalışmada, anonimleştirme algoritmalarının uygulanmasının makine öğrenmesi modellerinin performansı üzerindeki etkilerini anlamayı amaçlıyoruz. K-anonimliği ve l-diversity ve t-closeness gibi farklı varyasyonlarını sağlamanın etkilerini bir dizi sınıflandırıcı ve gerçek hayat veri kümesi üzerinde karşılaştırıyoruz. Karşılaştırmalarımızda, makine öğrenimi için özelleşmiş bir bilgi kaybı metriği kullanıyoruz. Ayrıca, bilgi kaybını en aza indiren ve k-anonimlik özelliğini uygulayan optimal genelleme hiyerarşi ağaçlarını oluşturabilen ve seçebilen otomatik bir genelleme ve bastırma çerçevesi sunuyoruz. Sonuçlarımız, her k-anonimlik varyasyonunun farklı bir gizlilik düzeyi sunduğunu ve anonimleştirme sürecinde farklı kısıtlamalar getirdiğini göstermektedir. Genel olarak, anonimleştirme sürecinde ne kadar fazla kısıtlamamız olursa, verilerde o kadar fazla gürültü alırız. Ayrıca, kullanıcıların ham verilerini toplamadan veya paylaşmadan ML modellerinin merkezi olmayan bir şekilde eğitilmesine izin veren federe öğrenme isimli yeni bir başka yaklaşımı da araştırdık. K-anonimleştirilmiş verileri kullanmaya adapte olabilen, silolar arası federe bir öğrenme çerçevesi tasarladık. Veri anonimleştirme entegrasyonunun daha iyi gizlilik sağlarken minimum bilgi kaybı sağlayabileceğini ve her iki yaklaşımı tek bir çerçevede kullanmanın her iki yaklaşımın avantajlarından yararlanmamızı sağladığını gösteriyoruz.
Özet (Çeviri)
Maintaining data privacy is a crucial and rising concern for many organizations and individuals. To address the issue of privacy, many regulations are enforced, which have direct impacts on data-driven services research and development. Data anonymization is one way to deal with this issue, by removing personal identifiable information to abide by certain privacy regulations. However, the anonymization process by itself introduces a level of noise to the data. In this study we aim to understand the effects of applying anonymization algorithms on the performance of the machine learning models. We compare the effects of enforcing k-anonymity and its different variations (known as l-diversity and t-closeness) on a number of classifiers and real-life datasets. In our comparisons, we utilize an information loss metric specialized for machine learning. Furthermore, we introduce an automatic generalization and suppression framework that can build and choose the optimal generalization hierarchy trees that minimize information loss and enforce the k-anonymity property. Our results show that each k-anonymity variation offers a different level of privacy and introduces different constraints on the anonymization process. In general, the more constraints we have on the anonymization process the more noise we get in the data. We also investigated another recent approach, that is federated learning where it allows for training of ML models in a decentralized manner without collecting or sharing users' raw data. We designed a cross-silo federated learning framework that can adapt to use k-anonymized data. We show that integration of data anonymization can give minimal information loss while providing better privacy, and that utilizing both approaches in one framework does enable us to benefit from both approaches' advantages.
Benzer Tezler
- Akıllı ev cihazlarının haberleşmesinde hafif sıklet şifreleme algoritmalarının performans analizi
In communication of smart home devices performance analysis of lightweight encryption algorithms
ÖMER YEL
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HÜSEYİN ESKİ
- Ödeme yöntemlerine yönelik karar modeli ve dijital cüzdan uygulamasıyla ilgili tüketici araştırması
Decision model for payment methods and consumer research on digital wallet application
SEDA ASMAZ GÜLER
Yüksek Lisans
Türkçe
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF İLKER TOPCU
- Privacy-preserving techniques and machine learning for critical systems
Kritik sistemler için mahremiyet koruyucu teknikler ve makine öğrenmesi
ZÜMRÜT MÜFTÜOĞLU
Doktora
İngilizce
2022
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TÜLAY YILDIRIM
- Mimari bir eleman olan pencerelerin/ açıklıkların insan-mekan ilişkileri bağlamında irdelenmesi; Ofis mekanları için bir deneme
A Study of windows/ voids as architectural elements within the context of human-environment relations; An experiment for office spaces
İLKNUR TÜRKSEVEN DOĞRUSOY
- Dijital pazarlamada ürün kişiselleştirme ve ürün özelleştirmenin karşılaştırılması ve müşteri kişiselleştirme hassasiyetine yönelik bir araştırma
Comparison of product personalization and product customization in digital marketing and a research on customer personalization sensitivity
SEYFETTİN ANMAÇ