Reinforcement learning based resource allocation for initial disasterresponse
Afetle mucadelede pekistirmeli ogrenme tabanli kaynak yonetimi
- Tez No: 836740
- Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 65
Özet
Afet sonrası müdahalelerin etkin, adil ve hızlı olması mecburidir. Deprem gibi büyük çapta etkileri olan afetlerin ardından kaynakların sınırlı olması, bu kaynakların yönetimi noktasında afetle mücadeleye güçlük oluşturmaktadır. Bu tez çalışmasında, afetten etkilenen bir bölgeye müdahalede sınırlı olan bu kaynakların yönetimi için pekiştirmeli öğrenme tabanlı kaynak yönetimi yaklaşımımızı sunuyoruz. Pekiştirmeli öğrenme tabanlı yaklaşımımız şu şekildedir. İki boyutlu bir afet şiddet haritası bizim durum uzayımızı belirtmektedir.Bir kaynağın, destek biriminin, belirli bir noktaya atanması ise eylem uzayımızı ifade eder. Basit bir simulasyon yardımıyla sanallaştırdığımız afet senaryosunda destek birimlerinin sönümlendiği afet hasarları miktarı kaynak yönetiminin etkinliğini, kaynakların bölgeye yayılım miktarı kararların ne kadar adil olduğunu gösterir. Bu metrikleri kullanarak tüm atama sonrasında bir ödül hesaplaması yapıyoruz. Ayrıca, bu formulasyonda karşılaşı-lan problemleri azaltmak amaçlı her adımda ödüllendirme esaslı bir hesaplamamız daha mevcut. Çalışmamızda, iki farklı derin q-öğrenmesi tabanlı ajanlar eğittik. Biri sadece nihai durumda ödüllendirilirken, diğeri hem her adımda hem de nihai durumda ödüllendirildi. İki boyutlu olarak tasarladığımız dünya modellemesi durum ve eylem uzaylarının fazlaca geniş olmasını da beraberinde getirdi. Parametre sayılarını düşürmek ve model varsayımı eklemek için kullanacağımız modeli evrişimli sinir ağları üzerine kurguladık. Ayrıca, açgözlü yaklaşım ajanı geliştirip, her adımda ödüllendirme esaslı yaklaşımımıza bir taban oluşturduk. Modelleri değerlendirme süreçlerimiz iki farklı şekildedir. Birincisi, oyuncak haritalar diye isimlendirdiğimiz senaryolarımız üzerinde niteliksel davranış değerlendirme-leri yapıyoruz. İkinci olarak, kentsel senaryolarımızda ise niceliksel değerlendirmelerimizi yapıyoruz. Her iki değerlendirmede de kullandığımız senaryolar modellerin eğitilme aşamasında hiç karşılaşmadığı haritalardır. Nitelik değerlendirmelerimizde açgözlü yaklaşımın, beklendiği gibi, yayılımı dikkate almadığı, sadece afet şiddeti yoğun olan bölgelere kaynak ataması yaptığını gözlemledik. Nihai durumda ödüllendirdiğimiz ajanımızın ise çok yoğun olan bölgeleri gözden kaçırdığını, her adımda ve nihai durumda ödüllendirdiğimiz ajanımızın ise hem yayılımı hem de şiddetli noktaları dikkate aldığını ortaya koyduk. Niceliksel değerlendirmelerimizde de niteliksel değerlendirmelerimize paralel çıka-rımlar elde ettik. Açgözlü ajanımız yayılım hususunda başarısız olduğunu ve nihai durumda ödüllendirdiğimiz ajanımızın afet sönümlemelerinde geride kaldığını gözlemledik. Açgözlü ajanımız her lokasyonun değerini her adımda hesaplaması sebebiyle eğitilmiş modellerimize nazaran çok geride kaldığını, karar alım sürecinin çok uzun olduğunu belirledik. Genel olarak ifade etmek gerekirse, hem her adımda hem de nihai durumda ödüllendirdiğimiz ajanımız en iyi performansı gösterdi. Karar alımının hızlı olduğunu, atamalar sonrasında destek birimlerinin sönümlediği afet miktarının daha fazla olduğunu ve yayılımın daha geniş kapsama alanını etkilediğini niceliksel ve niteliksel olarak ortaya koyduk. Bu tez çalışmasında, ana amacımız pekiştirmeli öğrenmenin geniş çaplı kaynak yönetimi problemlerinde uygulanabilir olduğunu göstermektir. Öyle ki, çalışmamızda bazı basitleştirici varsayımlar yaptık. Örneğin, afetten farklı etkilenen farklı lokasyonlar için değişik tiplerde destek birimleri gerekiyor olsa da, çalışmamızda tek tip bir kaynak üzerine yoğunlaştık. Aksi durumda, her bir tip destek birimi için birden fazla yapay zeka ajanı eğitiyor olmamız gerekebilirdi. Ayrıca, kaynakların dağılım maliyetini de göz önüne almadık. Kaynak ataması sonrasında destek birimlerinin ilgili yerlere herhangi bir engel olmadan ulaşılabilir olduğu bir dünya tasarladık. Her ne kadar her adım ödüllendirme esaslı yaptığımız çalışmalarda ayrıca bir geliştirme yapma ihtiyacımız doğsa da, bu hali ile afet simulatörümüz ve nihai durum ödüllendirmelerimizi yeterli bir şekilde kapsayacak altyapı ihtiyacımızı karşıladı. Diğer bir varsayımımız ise, durağan bir afet doğası üzerinde çalışıyor olmamızdır. Çalışmamıza deprem odaklı başlamamız sebebiyle araştırma süreçlerimiz bu şekilde ilerledi. Büyük ölçekli yangınlar gibi dinamik felaketler de simülatöre dahil edilebilir ancak bu, felaketin nasıl geliştiğine ilişkin bilgilerin de yaklaşımımız ve altyapımıza dahil edilmesi için durum uzayında ek çalışma yapılmasını gerektirecektir. Bu tez çalışması, gelişigüzel karmaşık hedeflerin kullanılması ve ortam stokasti-sitesinin dahil edilmesi potansiyeline ek olarak, hedef yapıya ilişkin varsayımlar olmadan geniş durum ve eylem uzaylarıyla çalışabilen afet müdahalesine yönelik ilk kaynak tahsis yaklaşımını sunmaktadır. Çalışmalarımız, basitleştirici varsayımları ortadan kaldıracak daha karmaşık afet senaryoları ve hedef fonksiyonları ile bu alanda yapılacak çalışmaların önünü açacaktır.
Özet (Çeviri)
Effective, fair and quick disaster response is imperative in the aftermath of disasters. Resource limitations, particularly after large-scale disasters like earthquakes, pose challenges in distributing material and human resources. In this thesis, we present a reinforcement learning (RL) based resource allocation approach for disaster response, where a finite amount of resources are dispatched to affected locations. Our RL formulation is as follows. A 2D map of continuous disaster severity constitutes our state space. Dispatching a single resource to a specific location constitutes the action space. We calculate rewards after allocating all the available resources by running a simple simulation to determine the amount of disaster relieved, reflecting effectiveness, and the spread of the resources across the map, reflecting fairness. We additionally define a per-step reward, based on the local disaster severity distribution, to alleviate issues with sparse rewards. We train two Deep Q-learning agents; one utilizing only terminal rewards and the other incorporating both rewards. Our 2D map formulation induces large state and action spaces. To reduce the number of learned parameters and to add inductive bias, we use convolutional neural networks to approximate the Q-values. We additionally devise a greedy algorithm incorporating per-step rewards as a baseline. Our evaluation encompasses qualitative behavior assessment on toy maps and quantitative performance assessment on urban maps, both on unseen maps and disaster distributions. Our qualitative assessment reveals that the greedy algorithm places resource units to high disaster severity locations but does not take spread into account as expected, the sparse-reward agent is prone to missing highly concentrated disaster regions, and the other RL agent spreads the units while catching the concentrated regions. Our quantitative assessment mirrors the qualitative ones; the greedy algorithm falls behind in resource spread and the sparse reward agent falls behind in the amount of disaster relieved. The greedy algorithm evaluates each location in each allocation step during testing/inference. This leads to two orders of magnitude slower allocation speed, which is related to quickness, compared to the trained agents. Overall, the RL agent trained with both rewards achieves the best performance in terms of allocation speed, disaster relieved and resource spread for novel disaster scenarios. In this thesis, our main aim is to show the feasibility of RL for large scale resource allocation. As such, we made some simplifying assumptions. We are assuming only one type of resource whereas different regions may require different types (e.g. excavators vs fire engines). This can be handled by training multiple RL agents for each resource type. We are also not taking the distribution cost of the resources into account and assume that the resources can get to where they want to without hindrance. Both of these can be readily incorporated into our disaster simulator and terminal rewards, while requiring additional work on the per-step rewards. Another assumption is about the static nature of the disaster as we started our work for earthquakes. Dynamic disasters such as large scale fires can be incorporated into the simulator stage as well but this would require additional work on the state space to incorporate information on how the disaster may evolve. This thesis presents the first resource allocation approach for disaster response that can work with large state and action spaces without assumptions on the objective structure, in addition to the potential of using arbitrarily complex objectives and incorporating environment stochasticity, to the best of our knowledge. Our work paves the way for further developments that can incorporate further developments such as more complicated disaster scenarios and objective functions to remove the simplifying assumptions.
Benzer Tezler
- Deep learning based resource allocation for ultra-reliable communications in wireless control systems
Kablosuz kontrol sistemlerinde ultra güvenilir iletişim için deep learning tabanlı kaynak tahsisi
AMIRHASSAN BABAZADEH DARABI
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SİNEM ÇÖLERİ
- Deep learning based resources allocation for 5G networks
Başlık çevirisi yok
ZIADOON TAREQ OBAID ALYASARI
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik MühendisliğiAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEFER KURNAZ
- Rl based network deployment and resource management solutions for opportunistic wireless access for aerial networks in disaster areas and smart city applications
Felaket alanları ve akıllı şehir uygulamalarında uçan fırsatçı kablosuz erişim ağları için takviyeli öğrenme tabanlı ağ oluşturma ve kaynak yönetimi çözümleri
MEHMET ARİMAN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BERK CANBERK
- Sanal ağ fonksiyonları çizelgeleme algoritmalarının tasarımı ve uygulaması
Design and implementation of virtual network functions (VNFS) scheduling algorithms
ABDOUL AZIZ CISSE
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiFen Bilimleri Ana Bilim Dalı
DOÇ. DR. HASAN BULUT
- Resource allocation mechanisms for end-to-end delay optimization of 5G URLLC services
5G URLLC hizmetlerinin uçtan uca gecikme optimizasyonu için kaynak aktarım mekanizmaları
HASAN ANIL AKYILDIZ
Doktora
İngilizce
2024
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN ALİ ÇIRPAN
DR. İBRAHİM HÖKELEK