Geri Dön

Efficiency improvement via new methods for data valuation, privacy and communication in federated learning

Yeni veri değerlendirme, gizlilik ve haberleşme yöntemleri ile federe öğrenmede verimlilik artırımı

  1. Tez No: 942029
  2. Yazar: EMRE ARDIÇ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP GENÇ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Gebze Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Federe Öğrenme (FL), birden fazla cihazın merkezi bir sunucunun yönetiminde, verilerini paylaşmadan ortak bir model eğittiği dağıtık bir makine öğrenimi yöntemidir. Ancak FL performansı, çoğu zaman gereksiz, zararlı veya anormal örneklerin varlığı nedeniyle düşmekte ve model doğruluğunun azalmasına yol açmaktadır. Bir diğer önemli zorluk ise, cihazlar arasındaki bağlantı hızları ve bant genişliklerindeki farklılıkların neden olduğu iletişim darboğazıdır. Bu nedenle, eğitim sırasında iletilen veri miktarının azaltılması büyük önem taşımaktadır. Ayrıca, model ya da gradyan analizleri yoluyla hassas bilgilerin açığa çıkma riski de mevcuttur. Bu tezde, gizlilik koruması ve iletişim verimliliği sağlamak amacıyla Diferansiyel Gizlilik (DP) ve adaptif kuantizasyon yöntemleri önerilmektedir. Özellikle, FL literatüründe az çalışılmış Laplace tabanlı DP yöntemi tercih edilmiştir. Bu yöntem, Gaussian tabanlı yaklaşımlara göre daha sıkı gizlilik garantileri sunmaktadır. Ayrıca, iki yeni adaptif kuantizasyon yöntemi önerilmektedir. Bunlardan biri, eğitim turlarına göre kosinüs azalımı kullanan küresel bir bit uzunluğu zamanlayıcısı; diğeri ise veri kümesi entropisine bağlı olarak bit hassasiyetini dinamik biçimde ayarlayan istemci tabanlı zamanlayıcıdır. CIFAR10, MNIST ve bazı özel tıbbi görüntüleme veri kümeleri üzerinde yapılan deneyler, önerilen yöntemlerin etkinliğini ortaya koymaktadır. Sonuçlar MNIST için %52,64'e, CIFAR10 için %45,06'ya ve tıbbi veri kümeleri için %31 ila %37 arasında iletişim yükünde azalma sağlandığını, model doğruluğunun korunduğunu ve güçlü gizlilik koruması elde edildiğini göstermektedir. Ayrıca, eğitim sürecinde model performansını düşüren gereksiz, zararlı veya anormal yerel verileri tespit edip filtrelemek üzere yeni örnek seçme yöntemleri geliştirilmiştir. Örnek değerini hem kayıp hem de özellik analizlerine göre tahmin eden çok görevli bir otomatik kodlayıcı (MTAE) mimarisi önerilmektedir. Düşük kaliteli ya da zararlı örneklerin denetimsiz olarak tespiti için, merkezi olarak yönetilen fakat istemcilerde yerel olarak çalışan One-Class Support Vector Machine (OCSVM), Isolation Forest (IF) ve Adaptif Eşikleme (AT) yöntemleri önerilmiştir. Ayrıca, FL ortamlarında özellik tabanlı örnek seçimini geliştirmek amacıyla çok sınıflı Deep Support Vector Data Description (SVDD) kayıp fonksiyonu önerilmektedir. Ayrıca, hesaplama maliyeti yüksek olsa da Shapley Value (SV) ve Leave-One-Out (LOO) tabanlı örnek seçim yöntemleri geliştirilmiştir. MNIST üzerinde %40'lık kapalı-set gürültüsü ile yapılan deneyler, her iki yöntemin de doğrulukta anlamlı artış sağladığını göstermektedir. Gradient Shapley ve Truncated Monte Carlo Shapley ise sırasıyla %8,51 ve %7,11 doğruluk artışı sağlamıştır. Buna karşılık, özellikle LOO-Sum yöntemi olmak üzere LOO tabanlı yaklaşımlar, SV'ye göre çok daha düşük hesaplama maliyetiyle benzer doğruluk artışları sağlamıştır. MTAE tabanlı örnek seçimini değerlendirmek için non-IID dağıtılmış CIFAR10 ve MNIST veri kümelerinde %40'lık gürültü seviyesiyle farklı istemci sayıları için kapsamlı deneyler gerçekleştirilmiştir. Kayıp tabanlı örnek seçimi, CIFAR10 için OCSVM ile %7,02, MNIST için AT ile %1,83 doğruluk artışı sağlamıştır. Ayrıca, SVDD tabanlı yaklaşım, özellikle CIFAR10 üzerinde OCSVM ile %0,99 ek doğruluk artışı elde ederek, özellik tabanlı seçimi daha da iyileştirmiştir. Bu sonuçlar, geliştirilen yöntemlerin zorlu veri dağılımları ve gizlilik gereksinimleri altında model başarımını önemli ölçüde artırma potansiyelini ortaya koymaktadır.

Özet (Çeviri)

Federated Learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. However, its performance is often hindered by redundant, malicious, or abnormal samples, leading to accuracy degradation. Another challenge is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Thus, it is critical to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. This thesis combines Differential Privacy (DP) with adaptive quantization to address both privacy and communication efficiency. Specifically, Laplacian-based DP is used to enhance privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. Two novel adaptive quantization methods are introduced: a global bit-length scheduler employing round-based cosine annealing and a client-based scheduler that dynamically adjusts quantization precision according to dataset entropy, thereby prioritizing clients with more informative datasets. Experimental evaluations conducted on standard datasets, including CIFAR10, MNIST, and specialized medical imaging datasets, show the effectiveness of the proposed meth ods. Results show significant reductions in communication overhead, up to 52.64% for MNIST, 45.06% for CIFAR10, and between 31% and 37% for medical imaging datasets, while maintaining competitive model accuracy and robust privacy protection. This thesis further presents novel sample selection methods to identify and filter redundant, malicious, or abnormal local samples that reduce model performance during training. A Multi-Task Autoencoder (MTAE) architecture, leveraging loss and feature analysis, is used to estimate individual sample contributions. Unsupervised outlier detection methods managed by a central server, such as One-Class Support Vector Machine (OCSVM), Isolation Forest (IF) and Adaptive Thresholding (AT), are proposed to filter noisy samples on clients. A multi-class deep Support Vector Data Description (SVDD) loss function is also proposed to improve feature-based sample selection in FL. Moreover, the effectiveness of Shapley Value (SV) and Leave-One-Out (LOO) methods under noise is empirically evaluated. Experiments on the MNIST dataset with 40% closed-set noise show notable accuracy gains for both methods. Gradient Shapley and Truncated Monte Carlo Shapley achieve accuracy gains of 8.51% and 7.11%, respectively, although with significant computational overhead. In contrast, LOO-based methods, particularly LOO-Sum, yield comparable accuracy gains with substantially lower computational demands. To evaluate MTAE-based sample selection, extensive experiments are performed on the non-IID distributed CIFAR10 and MNIST datasets under various client counts and noise levels of up to 40%. Loss-based sample selection achieved notable accuracy improvements, including gains up to 7.02% on CIFAR10 using OCSVM and 1.83% on MNIST using AT. Moreover, the federated SVDD-based approach further improved feature-based selection, resulting in accuracy gains of up to 0.99% on CIFAR10 with OCSVM. Collectively, these results underline the potential of the developed methods to significantly enhance FL model accuracy, robustness, and resilience under challenging data distributions and privacy constraints.

Benzer Tezler

  1. Nesnelerin interneti ekosisteminde iş modeli oluşturulması

    Designing business models for the internet of things ecosystem

    BİRGÜL KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NİHAN YILDIRIM

  2. Telekomünikasyon sektöründe veri toplama yöntemleri, yeni yaklaşımlar ve güvenlik

    Data collection methods in the telecommunication sector, new approaches and safety

    EMİNE HEMŞİNLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgi ve Belge YönetimiGediz Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA GÜNEŞ

  3. Energy efficiency oriented model based investigation of marine diesel engine and auxiliary systems

    Enerji verimliliğine yönelik gemi dizel makineleri ve yardımcı sistemlerinde modelleme tabanlı araştırma

    ÇAĞLAR DERE

    Doktora

    İngilizce

    İngilizce

    2021

    Gemi Mühendisliğiİstanbul Teknik Üniversitesi

    Deniz Ulaştırma Mühendisliği Ana Bilim Dalı

    PROF. DR. CENGİZ DENİZ

  4. NiCoCrAlY+YSZ ile kaplanmış kanatçıklı diskin dinamik sonluelemanlar analizi ve toplu parametreli sistem ilemodellenmesi

    Dynamic fem analysis and modeling of NiCoCrAlY+YSZ coated blisk with lumped parameter system

    MUSTAFA YİĞİT OTAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. VAHİT MERMERTAŞ

  5. Bilgisayar destekli kalite kontrol sistemleri

    Computer aided quality control systems

    ÖZGEN TURASI

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. MURAT DİNÇMEN