Privacy-preserving horizontal federated learning methodology through a novel boosting-based federated random forest algorithm
Yeni bir güçlendirmeye dayalı birleşik rastgele orman algoritmasıyla gizliliği koruyan yatay birleşik öğrenim yöntemi
- Tez No: 779182
- Danışmanlar: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 158
Özet
Bu çalışmada, yatay olarak bölümlenmiş veriler için Güçlendirmeye Dayalı Birleşik Rastgele Orman (BOFRF) adı verilen, yalnızca tüm katılımcıların tahminleme gücünü artırmakla kalmayıp aynı zamanda başarısız yerel modellere sahip katılımcıların tahmin gücü üzerinde önemli ölçüde yüksek iyileştirme sağlayan yeni bir birleşik topluluk sınıflandırma algoritması önerilmiştir. Algoritma, iyi bilinen bir torbalama algoritması olan rastgele ormana artırma fikri uyarlanarak, onun bir birleşik öğrenme versiyonu olarak geliştirilmiştir. Entegrasyon adımında, iletişim ve hesaplama maliyetini artırmayan, yerel sınıflandırıcıların her bir katılımcının verisi üzerindeki sınıflandırma performansına dayalı yeni bir ağırlık hesaplama ve birleştirme metodolojisi sunulmuştur. Çalışmada ayrıca, önerilen algoritma aracılığıyla oluşturulan birleşik modellerin tahmin gücünü artırmak için, her bir katılımcının BOFRF'in hiper parametrelerine yerel olarak ince ayar yaptığı ve kendi veri kümesinde daha iyi performans gösteren bir birleşik model oluşturduğu kişiselleştirilmiş bir BOFRF algoritması sunulmuştur. Ek olarak, katılımcıların algoritmayı çalıştırmadan önce veri dağılımı benzerliklerine veya farklılıklarına göre kümelenmesini sağlayan bir uzantı da önerilmiştir. Son olarak, güvenlik ihlallerinin oluşmasını önlemek ve mahremiyet seviyesini artırmak için BOFRF için güvenilir bir üçüncü taraf ile merkezileştirilmiş uygulama ve güvenli toplam protokolü kullanılarak merkezi olmayan uygulama olmak üzere iki farklı uygulama önerilmiştir. BOFRF'in performansı, sağlık sektöründen dört ayrı veri seti kullanılarak kurulan farklı federe ortamlarda değerlendirilmiştir. Sonuçlar, BOFRF algoritmasının ve uzantılarının, her durumda yerel rastgele orman modellerinin tahmin gücünü geliştirdiğini göstermiştir. Önerilen metodolojinin avantajı, başarısız yerel modellere sahip katılımcılar için sağladığı iyileştirme seviyesinin mevcut çözümlere kıyasla önemli ölçüde yüksek olmasıdır.
Özet (Çeviri)
In this thesis, a novel federated ensemble classification algorithm for horizontally partitioned data called Boosting-based Federated Random Forest (BOFRF) is proposed, which not only increases the predictive power of all participating sites, but also provides significantly high improvement on the predictive power of sites having unsuccessful local models. In this regard, a federated version of random forest, which is a well-known bagging algorithm, is implemented by adapting the idea of boosting to it. In the integration step, a novel aggregation and weight calculation methodology is introduced that assigns weights to local classifiers based on their classification performance at each site instead of proportioning them with the sample size or site index without increasing the communication or computation cost. To increase the predictive power of the federated models built through the proposed algorithm, a personalized implementation is presented where each participant fine-tunes the hyperparameters of BOFRF locally and come up with a better-performing federated model on their own datasets. In addition, a clustered extension is proposed where participants are clustered according to their data distribution similarities or differences prior to running the algorithm. Finally, to prevent security breaches from happening and increase the level of privacy, two different implementations are proposed for BOFRF, which are centralized implementation with a trusted third party and decentralized implementation using secure sum protocol. The performance of the proposed solution was evaluated in different federated environments that were set up by using four healthcare datasets. The empirical results show that the BOFRF algorithm and its extensions improve the predictive power of local random forest models in all cases. The advantage of the proposed methodology is that the level of improvement it provides for sites having unsuccessful local models is significantly high unlike existing solutions.
Benzer Tezler
- Sağlık hizmetlerinde anonimlik: Dağıtık yapılar için ideal bir veri paylaşım modeli
Anonymity in healthcare systems: An ideal data sharing model for distributed structures
PELİN CANBAY
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAYRİ SEVER
- Geleneksel Türk konut mimarisi ve oluşturduğu kentsel doku
Traditional Turkish housing architecture and its texture forming characteristics
ÖZLEM KAYGUSUZ
- Privacy-preserving distributed data mining and processing on horizontally partitioned data
Başlık çevirisi yok
MURAT KANTARCIOĞLU
Doktora
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPurdue UniversityPROF. CHRISTOPHER CLIFTON
- Privacy-preserving distributed collaborative filtering
Gizliliği koruyarak dağıtık ortak süzgeçleme
CİHAN KALELİ
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnadolu ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
- A toolbox for privacy preserving distributed data mining
Mahremiyet koruyucu veri madenciliği için bir kütüphane gerçeklemesi
SELİM VOLKAN KAYA
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiElektronik Mühendisliği ve Bilgisayar Bilimi Ana Bilim Dalı
DOÇ. DR. ERKAY SAVAŞ
YRD. DOÇ. DR. YÜCEL SAYGIN