Privacy and security enhancements of federated learning
Federe öğrenme uygulamalarında mahremiyet ve güvenlik geliştirmeleri
- Tez No: 887328
- Danışmanlar: PROF. DR. ENVER ÖZDEMİR, DR. FERHAT KARAKOÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilişim Uygulamaları Ana Bilim Dalı
- Bilim Dalı: Bilgi Güvenliği Mühendisliği ve Kriptografi Bilim Dalı
- Sayfa Sayısı: 79
Özet
Federe Öğrenme, makine öğrenimi alanında veri gizliliği ve güvenliği ile ilgili önemli endişelere çözüm getiren devrim niteliğinde bir yaklaşım olarak ortaya çıkmıştır. Geleneksel merkezi makine öğrenimi modelleri, verilerin merkezi sunucularda toplanmasını gerektirir, bu da veri ihlalleri ve gizlilik ihlalleri açısından büyük riskler oluşturur. Federe Öğrenme ise model eğitim sürecini birden fazla merkezi olmayan uç cihaz arasında dağıtarak, ham veriyi yerel tutar ve merkezi veri depolama ve işleme ile ilgili gizlilik risklerini azaltır. Bu tezin motivasyonu, Federe Öğrenme uygulamalarında gizlilik ve güvenliği artırma ihtiyacından kaynaklanmaktadır. Veri gizliliği düzenlemeleri sıkılaştıkça ve kamuoyunun veri güvenliği konusundaki farkındalığı arttıkça, hassas bilgileri koruyabilen ve aynı zamanda yüksek model performansını sürdürebilen güçlü FL çerçevelerine olan talep de artmaktadır. Federe Öğrenme, akıllı telefonlar ve Nesnelerin Interneti cihazları gibi uç cihazların hesaplama gücünden yararlanarak, sağlık, finans ve Nesnelerin Interneti gibi çeşitli alanlarda umut verici bir çözüm sunar. Bu tezin başlıca amaçları üç aşamada ele alınmıştır: 1. Gizlilik artırılmış Federe Öğrenme konusundaki mevcut araştırmaları kapsamlı bir şekilde inceleyerek ana kavramları, metodolojileri ve bulguları sentezlemek. 2. Mevcut gizlilik artırılmış Federe Öğrenme literatüründe boşlukları, sınırlamaları ve açık araştırma sorularını belirlemek. 3. Federe Öğrenme'de kullanılan farklı gizlilik artırma tekniklerini ve metodolojilerini değerlendirip karşılaştırarak, bunların etkinliğini, ölçeklenebilirliğini ve ödünleşimlerini analiz etmek. Federe Öğrenme, verileri istemcilerde yerel tutarak birçok gizlilik riskini doğal olarak azaltır. Ancak, çıkarım saldırıları ve model güncelleme zehirlemesi gibi yeni zorluklar da beraberinde getirir. Çıkarım saldırıları, model güncellemelerini kullanarak hassas bilgileri çıkarma çabalarını içerirken, model güncelleme zehirlemesi, kötü niyetli istemcilerin yanlış güncellemeler yaparak küresel modeli bozmasını içerir. Bu zorluklar, Federe Öğrenme sürecinin bütünlüğünü ve gizliliğini sağlamak için sağlam çözümler gerektirir. Ayrıca, Federe Öğrenme uygulamasını karmaşık hale getiren diğer faktörler arasında non-IID veri ve iletişim yükleri bulunmaktadır. Non-IID veri, veri dağılımlarının istemciler arasında farklılık göstermesini ifade eder ve bu durum model yakınsamasını ve performansını olumsuz etkileyebilir. Ek olarak, istemciler ve sunucu arasında sık ve büyük veri değişimlerinin gerekmesi, ağ kaynaklarını zorlayarak önemli iletişim yüklerine neden olabilir. Bu gizlilik ve güvenlik zorluklarını ele almak için çeşitli stratejiler geliştirilmiştir. Diferansiyel gizlilik, veri güncellemelerine gürültü ekleyerek bireysel katkıların gizliliğini sağlar. Kriptografik imzalar ve Güvenli Çoklu Hesaplama tekniklerini içeren protokoller, model güncellemelerinin güvenliğini artırır ve veri bütünlüğünü korur. Ortak fayda çerçeveleri, sunucular ve istemciler arasında karşılıklı faydayı teşvik ederken, sağlam toplama yöntemleri Federe Öğrenme sistemlerinin güvenliğini ve gizliliğini güçlendirir. Flamingo ve SafeFL gibi yenilikçi metodolojiler, gelişmiş kriptografik teknikler kullanarak güvenli toplama ve gizlilik korumasını sağlar. Bu çözümler, Federe Öğrenme çerçevelerinin gerçek dünya senaryolarında daha güvenli, verimli ve gizlilik dostu olmasını mümkün kılar. Federe Öğrenme, çeşitli alanlarda başarılı bir şekilde uygulanarak çok yönlülüğünü ve etkinliğini göstermiştir. Kablosuz iletişimde, Federe Öğrenme araçlar arası iletişimi, konum belirlemeyi ve anlamsal iletişimi veri merkezileştirmeden geliştirir. Nesnelerin Interneti sektöründe, Federe Öğrenme gizliliği artırır ve veri aktarım maliyetlerini düşürür; akıllı evler ve endüstriyel Nesnelerin Interneti uygulamaları için önemli çözümler sunar. Sağlık alanında, Federe Öğrenme, kurumların hasta verilerini paylaşmadan tıbbi görüntüleme ve tahmine dayalı analizler üzerinde işbirlikçi modeller eğitmesini sağlar. Bu sayede, katı gizlilik düzenlemelerine uyulurken model doğruluğu ve genelleştirilebilirlik artırılır. Çalışmalar, Federe Öğrenme'nin yüksek tanı doğruluğunu koruyabildiğini ve kişiselleştirilmiş tıbbı destekleyebildiğini göstermiştir. Finans sektöründe, Federe Öğrenme gizlilik ve düzenleyici zorlukları ele alarak işbirlikçi kredi riski değerlendirmesi ve sahtekarlık tespiti sağlar. Birden fazla kurumdaki verileri merkezileştirmeden değerlendirerek, Federe Öğrenme tabanlı modeller daha yüksek doğruluk ve uyum kabiliyeti ile sahtecilik faaliyetlerini tespit eder ve kredi skorlaması modellerini iyileştirir. Araştırmalar, Federe Öğrenme alanında vazgeçilmez bir rol oynar ve birçok fayda sağlar. Mevcut odaklı çalışmaların kapsamlı birer deposu olarak hizmet ederler, yeni başlayanlara temel bir anlayış sunarken deneyimli araştırmacıları keşfedilmemiş sınırlar yönünde yönlendirirler. Çok sayıda literatürü dikkatlice inceleyip sentezleyerek, ortaya çıkan eğilimleri belirler, başarılı uygulamaları vurgular ve gelecekteki araştırma yönelimlerini özetlerler. Federe Öğrenme, verilerin merkezi olmayan bir şekilde işlenmesini sağlayarak geleneksel merkezi modellerdeki kritik gizlilik ve güvenlik sorunlarını ele alan dönüştürücü bir makine öğrenimi yaklaşımı sunar. Bu tez, Federe Öğrenme'nin gizlilik ve güvenlik ile ilgili çeşitli yönlerini, karşılaşılan zorlukları ve çözümleri, ayrıca farklı sektörlerdeki çeşitli uygulamalarını derinlemesine incelemektedir. Federe Öğrenme araştırmalarında ortaya çıkan eğilimler, kriptografik tekniklerdeki gelişmeler, federe öğrenme çerçeveleri ve düzenleyici uyum mekanizmaları gibi sürekli yenilik ve disiplinler arası işbirliği ihtiyacını vurgulamaktadır. Federe Öğrenme, gelişmeye devam ettikçe, güvenli iletişim sistemlerini devrim niteliğinde değiştirme ve makine öğrenimi teknolojilerinde güvenlik farkındalığı ile gizliliğin tasarım aşamasında düşünülmesini teşvik etme potansiyeline sahiptir. Bu çalışma, Federe Öğrenme sistemlerinin güvenliğini sağlama mekanizmaları hakkında içgörüler sunarak, araştırmacılar, uygulayıcılar ve politika yapıcılar için değerli bilgiler sağlamayı amaçlamaktadır. Kriptografik tekniklerin, güvenli toplama protokollerinin veya anomali tespit mekanizmalarının geliştirilmesi, güvenlik ihlallerini tespit edip önlemeye yardımcı olur. Ayrıca, sunucu ile katılımcı istemciler arasında güven tesis etmenin önemine değinir, bu da model güncellemelerinin güvenilirliğini ve doğruluğunu sağlar. Sonuç olarak, Federe Öğrenme'nin veri gizliliğini ve güvenliğini artırarak merkezi olmayan bir makine öğrenimi yaklaşımı olarak önemli bir rol oynadığı vurgulanmaktadır. Bu tez, Federe Öğrenme alanındaki mevcut durumun kapsamlı bir değerlendirmesini sunarken, gelecekteki araştırmalar için de yol gösterici nitelikte önerilerde bulunmaktadır. Federe Öğrenme, verilerin yerel olarak işlenmesini sağlayarak, hem bireysel gizliliği korur hem de işbirlikçi öğrenme süreçlerini destekler. Bu bağlamda, tez, Federe Öğrenme'nin potansiyelini ve uygulanabilirliğini geniş bir bakış açısıyla ele almakta ve bu alandaki önemli katkıları ortaya koymaktadır. Disiplinler arası işbirliği ve kolektif çabalarla, Federe Öğrenme'nin daha güvenli ve gizlilik dostu bir dijital toplum oluşturma potansiyeline sahip olduğu sonucuna varılmaktadır.
Özet (Çeviri)
Federated Learning has emerged as a revolutionary approach in the field of machine learning, addressing significant concerns related to data privacy and security. Traditional centralized machine learning models require data aggregation on central servers, posing substantial risks of data breaches and privacy violations. FL, on the other hand, distributes the model training process across multiple decentralized edge devices, keeping the raw data localized and mitigating the privacy risks associated with centralized data storage and processing. The motivation for this thesis stems from the growing need to enhance privacy and security in FL applications. As data privacy regulations become more stringent and public awareness of data security increases, there is a pressing demand for robust FL frameworks that can protect sensitive information while maintaining high model performance. FL's ability to leverage the computational power of edge devices, such as smartphones and IoT gadgets, makes it a promising solution for various domains including healthcare, finance, and the Internet of Things. The primary objectives of this thesis are threefold: 1. To provide a comprehensive survey of existing research on privacy-enhanced FL, synthesizing key concepts, methodologies, and findings. 2. To identify gaps, limitations, and open research questions in the current literature on privacy-enhanced FL. 3. To evaluate and compare different privacy-enhancing techniques and methodologies used in FL, assessing their effectiveness, scalability, and trade-offs. FL inherently mitigates several privacy risks by keeping data local to clients. However, it introduces new challenges, particularly related to inference attacks and model update poisoning. Inference attacks exploit model updates to extract sensitive information, while model update poisoning involves malicious clients injecting false updates to corrupt the global model. These challenges necessitate robust solutions to ensure the integrity and privacy of the FL process. Non-IID data and communication overheads further complicate FL implementation. Non-IID data, where data distributions vary across clients, can hinder model convergence and performance. Additionally, frequent and substantial data exchanges between clients and servers result in significant communication overheads, which can strain network resources. Several strategies have been developed to address these privacy and security challenges. Differential privacy introduces noise to data updates, ensuring that individual contributions remain confidential. Protocols that incorporate cryptographic signatures and Secure Multiparty Computation techniques further enhance the security of model updates and ensure data integrity. Co-utility frameworks, which promote mutual benefit between servers and clients, and robust aggregation methods also play vital roles in safeguarding FL systems. Innovative methodologies such as Flamingo and SafeFL leverage advanced cryptographic techniques to provide secure aggregation and enhance privacy preservation. These solutions collectively improve the robustness, efficiency, and security of FL frameworks, enabling their application in real-world scenarios. FL has been applied successfully in various domains, demonstrating its versatility and effectiveness. In wireless communication, FL enhances vehicular communication, localization, and semantic communication by enabling collaborative model training without data centralization. In the IoT sector, FL improves privacy and reduces data transfer costs, with significant applications in smart homes and industrial IoT. Healthcare is another critical area where FL has made substantial impacts. By allowing institutions to collaboratively train models on medical imaging and predictive analytics without sharing patient data, FL addresses stringent privacy regulations while improving model accuracy and generalizability. Studies have shown that FL can maintain high diagnostic accuracy and support personalized medicine. In the financial sector, FL addresses privacy and regulatory challenges by enabling collaborative credit risk assessment and fraud detection. By leveraging data from multiple institutions without centralizing it, FL-based models achieve higher accuracy and adaptability, enhancing the detection of fraudulent activities and improving credit scoring models. Surveys play indispensable roles and offer numerous benefits within the FL domain. They serve as comprehensive repositories of existing research, providing newcomers with a foundational understanding while guiding experienced researchers toward unexplored frontiers. By scrutinizing and synthesizing a plethora of literature, surveys identify emerging trends, highlight successful applications, and outline future research directions. Federated Learning presents a transformative approach to machine learning by enabling decentralized data processing, which addresses critical privacy and security concerns inherent in traditional centralized models. This thesis explored various facets of FL, particularly focusing on the challenges and solutions related to privacy and security, as well as its diverse applications across different sectors. Emerging trends in FL research, including advancements in cryptographic techniques, federated learning frameworks, and regulatory compliance mechanisms, underscore the need for continuous innovation and interdisciplinary collaboration. As FL continues to evolve, it holds the potential to revolutionize secure communication systems and foster a culture of security awareness and privacy by design in machine learning technologies.
Benzer Tezler
- A new framework for decentralized social networks: Harnessing blockchain, deep learning, and natural language processing
Merkezsiz sosyal ağlar için yeni bir çerçeve: Blok zinciri, derin öğrenme ve doğal dil işlemeyi kullanmak
AMIR AL KADAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DENİZ BALTA
- Rostam: A passwordless web single sign-on solution integrating credential manager and federated identity systems
Rostam: Kimlik yöneticisi ve federasyonlu kimlik sistemlerini entegre eden şifresiz bir web tek oturum açma çözümü
AMIN MAHNAMFAR
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. KEMAL BIÇAKCI
- Hava araçları kokpitlerinde makine öğrenmesi tabanlı tahmine dayalı kullanıcı arayüzü
Machine learning prediction based ui for aircraft cockpit
BİLGE TOPAL
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- A serious game study on raising awareness towards social media security
Sosyal medya güvenliğine karşı farkındalığı arttırmaya yönelik ciddi oyun çalışması
HAKAN ARPACI
Yüksek Lisans
İngilizce
2020
İletişim BilimleriBahçeşehir ÜniversitesiOyun Tasarımı Bilim Dalı
YRD. DOÇ. DR. İBRAHİM ALTUĞ IŞIĞAN
DOÇ. DR. BARBAROS BOSTAN
- Exploratıon of turkısh consumers' trust ın e-commerce
Türkiye?deki tüketicilerin e-ticarete karşi güveninin incelenmesi
NİLAY ARGÜN
Yüksek Lisans
İngilizce
2012
Bilim ve TeknolojiKadir Has ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. CHRİSTOPHE BİSSON