Unveiling the wireless network limitations in federated learning

Kablosuz internet ağlarındaki kısıtların federe öğrenmeye olan etkilerinin ortaya çıkarılması

PDF İndir

Tez No: 732945
Yazar: MÜMTAZ CEM ERİŞ
Danışmanlar: PROF. DR. SEMA FATMA OKTUĞ, DOÇ. DR. BURAK KANTARCI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 92

Özet

Güçlü ve kapasitesi yüksek mobil cihazların artışı birçok araştırmacıyı merkezi olmayan makine öğrenmesi tekniklerinin bu cihazların üzerinde kullanılmasına ilham kaynağı olmuştur. Bu teknikler ile bu cihazlar kullanılarak derin öğrenme ağlarının eğitilmesinin önü açılmıştır. Merkezi olmayan makine öğrenmesi tekniklerinden biri olan federe öğrenme, oldukça ilgi görmüş olup cihazlardaki gizliliğin korunmasına katkı sağlar ve aynı zamanda bilgisayar ağlarındaki maliyetleri de düşürür. Bunun sebebi ise federe öğrenmenin işlenmemiş verinin olduğu gibi gönderilmesinden ziyade cihazlardan sadece gradyan güncellemelerinin alınmasıdır. Böylelikle bu işlenmemiş verilerin bir yerde tutulmasına da gerek kalmaz. Bu gradyan güncellemeleri cihazdaki veriler kullanılarak oluşturulur ve sunucuya gönderilir, sonrasında ise sunucuda bu gradyanların ortalaması alınarak yeni bir model oluşturulur. İşlenmemiş veriye asla dokunulmaz, bu veri cihazda kalır ve sadece gradyan güncellemesi sunucuyla paylaşılır. Sonuç olarak birçok cihazın bulunduğu merkezi olmayan makine öğrenmesi düşünüldüğünde, federe öğrenme güvenlik ve gizlilik konuları konusunda oldukça kolaylık sağlar. Bahsedilenler göz önünde bulundurulduğunda, federe öğrenmenin dağınık ve merkezi olmayan merkezi öğrenme sistemlerinde devrim yarattığını söylemek mümkündür. Bu tezde, stokastik gradyan düşüşüyle kayıp fonksiyonu hesaplayan birçok cihazın bulunduğu ve her iletişim turunda bir sunucunun bu gradyanların ortalamasını aldığı tipik bir federe öğrenme sistemi incelendi. Her turda, belli bir sayıda rastgele seçilen cihazlar bu federe öğrenmeye dahil edilir ve gradyan güncellemelerini oluştururlar. Cihazdaki verinin bir kısmının kullanılarak hesaplandığı bu gradyanlar sunucu tarafından toplanılarak ortalamaları alınır, yeni bir model oluşturulur ve bu yeni model tekrar cihazlara gönderilir. Belli bir tur sayısından sonra ise doğrulukta bir yakınsama oluşması beklenilir. Bunun sebebi ise birçok cihazın katkıda bulunduğu bu öğrenme sistemi, birçok turdan sonra sunucuya yeteri kadar gradyan güncellemesi gönderecektir. Fakat, federe öğrenmenin bilgisayar ağlarında karşılaşacağı zorluklar ve kısıtlamalar göz ardı edilmektedir. Federe öğrenme uygulamaları ve simülasyonlarında bilgisayar ağları tamamen stabil varsayılmakta ve olası kısıtlamalar incelenmemektedir. Simülasyonlar genellikle Python'da yazılmakta ve bilgisayar ağları için şart olan parametreler dolaylı yollardan varsayımlarla uygulanmaktadır veya hiç uygulanmamaktadır. Paket düşme oranları ve gecikme gibi hizmet kalitesi (Quality of Service, QoS) parametreleri simülasyonlarda incelenmemektedir, fakat bu parametrelerin federe öğrenmede anahtar faktörleri olarak karşımıza çıkar. Bunun sebebi ise bu parametreler yakınsamayı oldukça yavaşlatabilir veya tamamen durdurabilir. Federe öğrenme için önerilen uygulamalar gerçek zamanlı olduğundan dolayı olası gecikme ve paket düşüşleri bu uygulamaların performanslarını oldukça etkileyecektir. Bu sebepten ötürü bu iki parametre detaylı bir şekilde incelenmeli ve bu bilgiler ışığında federe öğrenmenin fizibilite raporu çıkarılmalıdır. Anlatılanlar doğrultusunda, federe öğrenme için ileri bir simülasyon önerilmiştir ve simülasyondan alınan sonuçlar bu çalışmada paylaşılmıştır. Simülasyon gradyan güncellemesi üreten cihazlar ve sunucunun dışında tam anlamıyla bir bilgisayar ağı üzerine kurulmuştur. Böylelikle yukarıda bahsedilen hizmet kalitesi parametreleri federe öğrenmede incelenebilir hale gelmiştir. Bunu başarabilmek için, çokça sayıda cihazı ve sunucuyu içinde bulunduran bilgisayar ağı, tanınırlığı ve güvenirliği yüksek olan NS3 (Network Simulator 3) kullanılarak simüle edilmiştir. Bu bilgisayar ağı dambıl topolojisi modeli kullanılarak tanımlanmıştır. Dambılın sol tarafına bağlı 100 cihaz, sağ tarafına bağlı sunucu konumlandırılmıştır. Bu dambılın sol tarafında bir darboğaz yaratmaktadır, bu şekilde bilgisayar ağındaki oluşacak trafikte paketler bu darboğazda yakalanmaktadır. Bu cihazlara ek olarak, sol tarafa arka planda oluşacak trafiği yaratan bir cihaz daha eklenmiştir. Bunun sebebi ise bu trafiğin paketler arası zaman parametresi şeklinde bu cihazda tanımlanmasıyla trafiğin istenilen sıklıkta oluşturulmasını sağlamaktır. Bu şekilde paket düşüşleri incelenecek ve trafiğin yoğunluğu istenilen ayarda yapılabilecektir. Arka planda oluşacak trafiğin paketlerinin geliş sıklıkları Poisson dağılması kullanılarak üretilmiştir. ns3-ai uygulaması kullanılmasıyla bahsedilen NS3 ve federe öğrenmenin çalıştırıldığı Python uygulaması birbirleriyle haberleşebilmekte ve hizmet kalitesi parametreleri incelenebilmektedir. Milyonlarca cihazın federe öğrenme uygulamasında katkıda bulunacağı göz önünde bulundurulursa, yakınsama hızının önemi kaçınılmaz olur. Bazı cihazların az veriye sahip olmasından dolayı federe öğrenmeye katkısı düşük olacağından taşıma katmanında UDP uygulanmıştır. Bu gradyan güncellemeleri UDP paketlerine böldürülerek bilgisayar ağlarında bir yerden bir yere taşınmaktadır. Ne zaman gradyan güncellemesi bilgisi taşıyan bir UDP paketi düşerse tüm gradyan güncellemesi federe öğrenmeden çıkarılmalıdır. Sonuç olarak, bu zorundalıktan ötürü çıkarılan güncellemeler federe öğrenmenin performansını düşürür ve bu uygulamada çok ciddi sorunlara yol açar. İlk olarak, farklı seed değerleriyle birçok simülasyon çalıştırılarak deneyin doğruluğu onaylandı. Bunun gerekli olmasının sebebi, bu deneyde veri dağılımı ve arka planda oluşturulacak trafiğin seed değerleriyle rastgele sağlanmış olmasından gelir. Bu doğrulama işlemi aynı deneylerin tekrar edilebilirliğinin sınanmasıyla gerçekleştirilmiştir ve burada cross entropy hatası, sunucu ve cihazlarardaki doğruluk ve paket düşme zamanlarına bakılarak yapılmıştır. 250 milisaniyeden 900 milisaniyeye olacak şekilde farklı paketler arası zaman değerleriyle farklı deney senaryoları oluşturulmuştur. Sonrasında, sonuçların elde edilmesi için tekrarlama (replication) metodolojisi kullanılmıştır. \%95 güven aralığı kullanılarak her bir senaryo 10 kez çalıştırılmış ve sonuçların ortalaması alınmıştır. Bu senaryolardan yoğun, orta ve hafif trafik olarak etiketlenen ve sırasıyla 250, 400, 900 paket arası zaman değerine tekabül eden deneyler seçilmiştir. Sonuçlar her bir turda maksimum hata oranları, ortalama başarılı paket gönderme oranları ve test verisi üzerinden doğrulama oranları olarak elde edildi. Sunucuda oluşturulan model test verisi üzerinde sınandı ve sınanırken üzerinden geçtiği veri parçalarından en yüksek hataya sahip olan parçadaki hata oranı maksimum hata oranı olarak gösterildi. Bu aslında modelin en kötü performansını göstermekte ve ağsal trafiğin uygulamadaki oluşacak istenmeyen sorunları göstermede oldukça etkili olduğu görüldü. Yoğun trafik olduğu durumda maksimum hata oranı tur sayısı 90 olduğunda bile 0.8'e kadar çıkıyor. Trafğin hafif olduğu durumda ise aynı tur sayısında 0.1 ve 0.2 civarlarında seyrediyor. Eğer bilgisayar ağları tamamen stabil kabul edilirse, ortalama başarılı paket gönderme oranı sürekli \%100 çıkacaktır. Fakat bu hiç de gerçekçi değildir ve ortalama başarı oranı trafik oranına göre düşmekte ve değişmektedir. Trafiğin yoğunlaşmasıyla modelini başarılı gönderebilen cihaz sayısında düşme gerçekleşmektedir. Buna ek olarak test verisi üzerinde doğruluk oranları farklı trafik yoğunluklarına göre gösterilmiştir ve güven aralıkları paylaşılmıştır. Topolojideki darboğaz yaratan kuyruktaki paket düşme oranlarının doğruluk oranlarında oldukça büyük düşüşler yarattığı görülmüştür ve bunun uygulama performansına olan yüksek etkisi bilinmektedir. 200 iletişim turunda, trafiğin yoğun olduğu durumda doğruluk oranlarındaki düşüşler kolaylıkla görünmektedir. Örnek verilecek olunursa, trafiğin yoğun olduğu durumda 0.9 doğruluk oranına 120 turda erişilmiş, trafiğin hafif olduğu durumda ise bu orana 60 turda erişilmiştir. Bu da trafik yoğunluk oranının gerçek zamanlı federe öğrenme uygulamalarını ciddi bir şekilde etkilediğini göstermektedir. Bu sonuçların yanında güven aralıkları da verilmiştir. Yakınsama belli bir tur sayısından sonra tüm trafik durumlarında erişilmiştir. Güven aralıkları ilk turlarda oldukça geniş ve eğer trafik yoğunsa bunların daha da geniş oldukları fark edilmiştir. Bunlara ek olarak, trafik yoğunluğu veya paket arası zaman değerleri, trafikle oluşturulan veri, trafik tarafından oluşturulan paket sayısı, veri oranı ve gözlemlenen paket arası zaman değerleri de gösterilmiştir. Bu sonuçların ışığında, yoğun trafikle baş edebilecek adaptif federe öğrenme yöntemi önerilmiştir. Yükleme oranı, gecikme gibi ağ metrikleri kullanılarak, bir iletişim turunda başarılı gönderim yapabilecek maksimum cihaz sayısı hesaplanmış ve katılım oranı buna göre belirlenmiştir. Bu sunucunun yoğun trafik olduğu zamanda daha çok cihaz gönderimini almasını sağlamakta ve federe öğrenme uygulamasının performansını artırmaktadır.

Özet (Çeviri)

Huge increase in edge devices over the world with powerful processors inspired many researchers to apply decentralized machine learning techniques so that these edge devices can contribute to train deep neural networks. Among those decentralized machine learning schemes, federated learning has gained tremendous sympathy as it grants privacy to the edge devices as well as diminishing communication costs. This is because federated learning does not need to access raw data nor store it, instead, clients would learn from their raw data locally and produce gradient updates. These gradient updates would be aggregated at the server. The raw data is kept at clients untouched, to a degree that only the trained gradient updates are shared with the parameter server. As a matter of fact, the privacy and security issues are mostly scaled down and the ML models instead of raw data would save communication overhead. Considering these issues, federated learning has emerged from distributed and decentralized learning yet it revolutionizes the training as it aggregates the locally trained ML models by edge devices. A typical federated learning scheme which is investigated in the thesis, includes many number of clients who calculate the gradient of the loss function by applying stochastic gradient descent method and it also consists of an aggregator that collects these gradients in each communication round. In each round, only randomly selected number of clients participate in federated learning with their calculated gradient. The gradient descent is estimated according to the local batch size which is the fraction of client's local raw data. Collected gradients by the server are averaged in the server and the averaged gradient is disseminated to the clients back. It is expected to see the convergence after many communication rounds, as many clients are anticipated to contribute and therefore train the model in the server about the data. Yet, the issues related to the network limitations for the federated learning process are not covered in the literature. In such federated learning applications and simulations, the network is assumed to be stable and the limitations that come with unstable network are overlooked. These simulations are mostly written on Python and the essential network settings are implicitly asserted. Quality of Service (QoS) parameters such as packet drop ratio and delay are not considered, however they stand as key factors for federated learning convergence since they can slow down or even prevent the convergence process. In fact, there are federated learning applications proposed in the literature which are real-time such as cache-based popular content prediction applications. Meaning that these applications are sensitive to packet drops and delays that are caused by the network. Therefore, delay and packet drops in the network must be thoroughly examined in order to make such federated learning applications feasible. To this end, an advanced federated learning simulation is introduced and results are shared in this study. The simulation includes not only clients and server which are producing gradient updates, but also a full network backbone which allows the observation of the QoS parameters in the federated learning process. To be able to achieve this, a network which consists of clients and the server of the federated learning is simulated using reputable NS3 (Network Simulator 3). The network is designed as dumbbell topology which includes 100 clients on the left hand side of the dumbbell and server on the right hand side. This makes the left router to be the bottleneck, thus the background traffic in the network causes packet drops there. Additional node to generate background traffic is placed in the same side with clients so that the packet drops are observed and the intensity of the packet drops can be arranged by a hyperparameter which is called the interarrival time of the packets that are generated via background traffic. Poisson distribution based background traffic is produced in the manner of the interarrival time between packets at the traffic generator node. By applying ns3-ai framework which enables NS3 and python processes to communicate, the network and the federated learning process are run simultaneously so that the observations on QoS can be made. Since millions of devices are expected to be involved in a federated learning application in which the speed of converge is essential and not all of the clients updates may increase the convergence, UDP (User Datagram Protocol) is utilized as transport layer protocol. These gradient updates are fragmented to UDP packets and are sent from clients to servers and servers to clients. Thus, whenever a UDP packet that carries client update is dropped, the whole client update must be discarded. As a result, discarded clients reduce the performance of the federated learning and cause significant drawbacks to the application. Initially, the experiment is validated by running countless simulations with different seed values. Validation is carried out by testing the reproducibility of the same experiments by comparing cross entropy error, accuracy of both server and clients and also packet drop rates. For various interarrival time values ranging from 250 milliseconds to 900 milliseconds many simulation scenarios are designed. The replication method is used to evaluate the results. This means that each scenario with different seeds are run 10 times and the results are presented with \%95 confidence interval. Among those scenarios, three of them are picked and are tagged as heavy, medium and light traffic intensity which correspond to 250, 400, 900 milliseconds interarrival time, respectively. The results are presented by giving maximum error rates, average success rates and per round test accuracies. The most erroneous batch that is detected in aggregated gradient at server is presented by maximum error percentage after each communication round. It shows the worst performing model and it is meaningful to demonstrate the unfavorable consequences of the background traffic to the performance. With heavy intensity traffic, maximum error percentage goes up to \%80 after round 90, whereas maximum error percentage is between \%10 and \%20 with light traffic. This shows the federated learning application's early vulnerability to the background traffic. With the assumption of the network being completely stable, then average success percentage of client update delivery becomes \%100. However, it is not realistic and average success percentage reduces and fluctuates according to the traffic intensity. As the traffic gets intense, less client updates are received by the parameter server for a successful aggregation. Finally, the test accuracy of various intensity traffic configurations are presented. Packet drops because of the bottleneck queue capacity overflow causes tremendous decrease for the test accuracy which is crucial for any federated learning application. For at least 200 communication rounds, the decline in the accuracy is evidently visible when the traffic is intense. More specifically, \%90 accuracy is reached over 120 rounds for high intensity traffic, while it is reached around 60 rounds for light traffic. The intensity of the background traffic becomes highly crucial consideration for potential time-critical federated learning applications. Confidence intervals on test accuracy are presented according to the traffic intensity. The convergence is achieved no matter what the traffic intensity is. Wide intervals can be seen in earlier rounds and it gets slightly wider if the intensity is higher. In addition to these, according to the traffic intensity or interarrival time, the amount of traffic data, the number of packets that are produced by the background traffic generator node, the data delivery rate and monitored interarrival time are presented as well. In the light of these results, an adaptive federated learning is proposed in order to cope with heavy intensity traffic. By using network metrics such as upload rate, transmission and queueing delay, the maximum number of clients that can be fit in a communication round is calculated and set as participation rate. This allows server to receive more client updates and increasing the performance of the federated learning under heavy background traffic.

Benzer Tezler

Tez No
637794
Multilevel object tracking on big graph data using interval type-2 fuzzy systems in wireless multimedia sensor networks
Çoklu ortam duyarga ağlarında aralık tip-2 bulanık sistemler kullanarak büyük çizge verilerde çokkatmanlı nesne takibi
CİHAN KÜÇÜKKEÇECİ
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
Tez No
796903
Improved Mac protocol based on energy harvesting and wake up dutycycling technique
Geliştirilmiş Mac protokolü enerji toplama ve uyandırma görevibisiklet tekniği
ANHAR SAMI M HASAN MOHAMMED HASAN
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliği Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDULLAHİ ABDU IBRAHEEM
Tez No
881742
Unveiling the influence of motivation type on organizational commitment, employee engagement, and intention to leave
Motivasyon türünün iş yerine bağlılık, işle bütünleşme ve ayrılma niyeti üzerindeki etkisinin ortaya çıkarılması
YAREN KÜÇÜKAKYÜZ
Yüksek Lisans
İngilizce
2024
İşletme Boğaziçi Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. HAYAT KABASAKAL
Tez No
889258
Açık kaynak ve ortak yaratımın etkileri: Open compute project'in veri merkezi pazarını dönüştürücü rolü
Unveiling the influence of open source and co-creation: The transformative effect of the open compute project on the data centre market
ÇAĞATAY YILMAZ
Yüksek Lisans
Türkçe
2024
Bilim ve Teknoloji Anadolu Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. FEYZA AĞLARGÖZ
Tez No
889468
Unveiling the educational pathways and identity narrations: an ethnographic case study of Syrian refugees in Turkish higher education amidst crisis
Eğitsel yolların ve kimlik anlatılarının izinde: Kriz ortasında Türk yükseköğretimindeki Suriyeli mültecilerle ilgili bir etnografik durum çalışması
GİZEM DOĞAN
Doktora
İngilizce
2024
Eğitim ve Öğretim Orta Doğu Teknik Üniversitesi
Yabancı Dil Öğretimi Ana Bilim Dalı
PROF. DR. ABDULLAH CENDEL KARAMAN

Geri Dön