IQ-flow: Mechanism design for inducing cooperative behavior to self-interested agents in sequential social dilemmas
TQ-akışı: Ardışıl sosyal ikilemlerdeki çıkarcı etmenleri işbirlikçi davranışa teşvik etmek için mekanizma tasarımı
- Tez No: 776487
- Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 104
Özet
Ortak bir amacı başarıyla tamamlamak için etmenler arası işbirliğini elde etmek ve sürdürmek Çok-Etmenli Pekiştirmli Öğrenmenin temel amaçlarından biri olmuştur. Literatürde yüksek başarıma ulaşmayı taahhüt eden birçok yöntem olsa da, bu yöntemler bu başarımı sabit bir etmen düzeneğinde elde etmek ile ilgilenmektedir. Ancak, gerçek dünyadaki durumlarda ortama herhangi bir sayıda etmen sınırlandırılmamış bir şekilde girip çıkabilmektedir. Dahası, çoğu gerçek dünya durumlarında birbirinden bağımsız şekilde eğitilmiş ve özelleşmiş etmenler paylaşımlı bir ortamda konuşlandırılmaktadır ya da ortam bir arada var olan etmenlerin birden fazla hedefi gerçekleştirmesini gerektirmektedir. Uzmanlıklar ve hedefler arası bu farklılıkların birbirleriyle çatışan güdülere ve sonunda tüm tarafların zararda olacağı bir sosyal ikileme sebep olması muhtemeldir. Buna karşın, söz konusu uzmanlık tek olduğunda ve hedefler karma güdü problemine sebep olmadığında bu duruma işbirlikçi Çok-Etmenli Pekiştirmeli Öğrenmede aktarım ve genelleşme problemi olarak yaklaşabiliriz. Böylelikle, öncelikle tek bir hedefin olduğu durumları inceliyoruz ve dış bir mekanizmanın bu durumlarda işbirliğine teşvik etmesine ihtiyaç olup olmadığını çıkarsıyoruz. Sonrasındaysa, ardışıl sosyal ikilemlerde işbirliği teşvik etme yöntemleri inceleyecek ve önerecek şekilde odağımızı ortamın altında bir sosyal ikilem yatan durumlara çeviriyoruz. Merkezileştirme ve ademi merkezileştirme Çok-Etmenli Pekiştirmeli öğrenmede kullanılan iki yaklaşımdır. Tamamiyle ademi merkeziyetçi olan yöntemler kısmi gözlenebilirlik ve durağan olmama sebepli standart altı çözümlere yakınsamaya meyilliyken, merkezileştirme içeren yöntemler ise ölçeklenebilirlikte sınırlılıkları ve tembel etmen sorunundan muzdariptir. Merkezi eğitim ademi merkezi yürütme paradigması bu yaklaşımların en iyi taraflarını kendine toplamaktadır; ancak merkezi eğitim sadece elde edilen işbiriliği performansı için değil aynı zamanda model boyutu ve eğitim süresi açısındaan da bir üst sınıra sahiptir. Tek bir işbirlikçi hedefe sahip olan etmenlerin paylaşımlı bir ortamda konuşlandırıldığı durumları incelemek istediğimiz için, ilk çalışmamızda merkezi eğitim ademi merkezi yürütme paradigmasını benimsiyoruz. Eğitilmiş modellerin değişken sayıda etmenlerle karşılaşılan durumda genelleşme ve aaktarım kapasitesini araştırıyoruz. Etmenlerin genelleşme ve aktarım kapasitesi belirli bir Çok-Etmenli Pekiştirmeli Öğrenme probleminde değişken sayıda etmenle eğitim yapıp sonra yine her eğitim konfigürasyonu için değişken sayıda etmenle açgözlü değerlendirmeler yaparak ölçülmektedir. Böylelikle, her etmen sayısı kombinasyonu için eğitime karşın değerlendirme başarımları incelenmiştir. Avcı-av ve trafik kavşağı ortamlarında deneysel değerlendirmeler gerçekleştirilmiştir ve hedefte olandan daha az sayıda etmenle hedefe benzer ya da daha yüksek değerlendirme başarımı elde edilip edilemeyeceği gösterilmiştir. Eğitim sırasında kullanılacak ideal etmen sayısının hedefte olan etmen sayısından farklı olabileceği sonucuna ulaşıyoruz ve yüksek sayıda etmenli ölçeklenebilirlik problemleri için daha az etmenle eğitip yüksek sayıda etmenli duruma aktarım yapmanın eğitim sırasındaki etmen sayısını artırmaktan daha verimli bir çözüm olabileceğini öne sürüyoruz. Böylelikle, hedef tek olduğunda ve tüm etmenler aynı politikayı kullandıklarında eğitilmiş etmenleri sınırlandırılmamış bir ortamda konuşlandırmanın herhangi bir probleme yol açmadığı ve dış bir teşvik mekanizması gerektirmediği sonuçlarına varıyoruz. Odağımızı birbirinden bağımsız şekilde eğitilmiş ve özelleşmiş etmenlerin paylaşımlı ortamda konuşlandırılmasına çevirmek Ardışıl Sosyal İkilemleri incelemeyi gerektirmektedir; ne de olsa, farklı işlerde özeelleşmiş etmenler karma güdülere sahip olmaya eğilimli olacaktır. Ardışıl Sosyal İkilemler son yıllarda dikkatleri üzerine çekmiştir. Güncel eğilimler ya genel refahı artırma amaçlı ödülleri değiştirmek için teşvik fonksiyonları geliştirmeye yöneliktir ya da teşviklerein diğer etmenlerin politika güncellemelerini nasıl etkilediğini hesaba katarak ödül fonksiyonunu değiştirecek öğrenme temelli yaklaşımlar üzerinedir. Öğrenme temelli yöntemler arasında en önemli çalışmalardan bir tanesi LIO'dur. LIO, bağımsız çıkarcı etmenlerin sürekli olarak birbirlerini toplamsal ek bir ödülle teşvik ettiği bir yöntemdir. LIO, etmenlerin sürekli birbilerine verdikleri teşvik ödülleri ile öğrendiklerini ve uyum sağladıklarını varsaymaktadır ve birçok ardışıl sosyal ikilem ortamında başarımını da ispatlamıştır. Biz de LIO'nun başarımını çeşitli kurgulara sahip deneylerle Temizlik ortamında inceliyoruz. Bu inceleme ile hedeflediğimiz çıktı ise LIO'nun tümevarımsal eğilim bulundurma gerekliliği, başlangıç etmen konumunda değişim ve bu sırada asimetrik teşvik potansiyeline sahip olma durumlarında sağlamlığının analizi; bunun dışında ise elde edilen teşvik fonksiyonularının teşvik fonskiyonu öğrenimi durdurulduğunda ve etmen keşfi ilk ayarlara döndürüldüğünde ne kadar stabil olduğunu görmek. Bu deneylerimiz sonunda görüyoruz ki, LIO yöntemi bu ayarlara hassas olmakla beraber öğrenilmiş teşvik sistemi durağanlaştığında sistemin stabil kalmasına izin verecek düzeyde teşvik fonksiyonları öğrenmek için güvenilir değildir. Bu ikinci çalışmamızı ise, yöntemin sağlamlığını ve teşvik öğrenme araştırmasını iyileştirecek bazı araştırma yönleriyle tamamlıyoruz. Son olarak, her etmene birbirini teşvik etme yetkinliği vermektense bu yetkinliği kendisinde toplayacak tek bir mekanizma kullanmayı araştırıyoruz. Söz konusu etmenler kendi politikalarını öğrenirken uyarlanabilir olarak teşvik fonksiyonu öğrenen merkezi bir mekanizma kullanarak karma güdülü etmenlerin yol açtığı standart altı sonuçların önüne geçmeyi hedefliyoruz. Bu amaçla Teşvik Q-Akışı (TQ-Akışı) adlı algoritmayı öneriyoruz. Bu algoritma sistemin ödül düzeneğini teşvik düzenleyici bir etmen yoluyla değiştirmekte ve bu sayede işbirlikçi politikanın etmenlerin çıkarcı politikalarına denk düşmesini sağlamaktadır. Şu ana kadarki bildiğimiz uyarlanabilir mekanizma ya da çıkarcı etmen teşvik etmeyi öğrenme yöntemlerinin aksine, TQ-Akışı etmenlerin politikaları ya da öğrenme algoritmaları üzerine hiçbir varsayım yapmamaktadır. Bu sayede geliştirilen bu yapı daha geniş uygulama alanlarında da kendine yer bulabilecektir. TQ-Akışı, öğrenilen politikaların en-iyiliğini diğer etmenlerden gelen verileri kullanaarak çevrim-dışı olarak değerlendirmektedir ve bu sayede işbirlikçi ve çıkarcı politikaları ayırt etmektedir. Sonrasında, TQ-Akışı meta-gradyan öğrenmesi kullanarak politika değerlendirmesinin nasıl değiştiğini kestirmekte ve buna göre teşvik fonksiyonunu değiştirmektedir, öyle ki çıkarcı politika işbirlikçi hedef için de çıkarcı hedef için de aynı eylemleri versin. Yineli Matris Oyunlarında TQ-Akışının işleyiş özelliklerini sunuyoruz. TQ-Akışı'nın engelişkin algoritmaya Kaçış Odası ve Temizlik ortamlarında üstün geldiğini gösteriyoruz. Sonundaysa, önceden eğitilip teşvik fonksiyonu dondurulmuş TQ-Akışı mekanizmasının standart paylaşımlı ödül düzeneğine Temizlik ortamında önemli ölçüde üstün geldiğini gösteriyoruz.
Özet (Çeviri)
Achieving and maintaining cooperation between agents in order to accomplish a common objective is one of the central goals of Multi-Agent Reinforcement Learning (MARL). Although many methods promise high performance in the literature, these methods are mainly concerned with obtaining that performance in the same agent set-up as training. However, in real-world scenarios the environment is open-ended such that any number of agents can enter. Furthermore, in many real world scenarios, separately trained and specialized agents are deployed into a shared environment or the environment requires multiple objectives set to be achieved by different coexisting parties. These variations among specialties and objectives are likely to cause mixed motives that eventually result in a social dilemma where all the parties are at a loss. Nevertheless, when the specialty in the subject is single and the objectives do not cause a mixed motive problem, we can approach the situation as a transfer and generalization problem in cooperative MARL with decentralized execution. Thus, we first examine the scenarios with a single objective and deduce if an external mechanism is necessary to promote cooperation in these scenarios. Then, we turn our focus to cases where there is an underlying social dilemma in the environment such that we study and propose incentivization-based methods to promote cooperation under sequential social dilemmas. Centralization and decentralization are two approaches used for cooperation in MARL. While fully decentralized methods are prone to converge to suboptimal solutions due to partial observability and nonstationarity, the methods involving centralization suffer from scalability limitations and lazy agent problem. The centralized training decentralized execution (CTDE) paradigm brings out the best of these two approaches; however, centralized training still has an upper limit of scalability not only for acquired coordination performance but also for model size and training time. Since we want to study the situation where any number of agents with a single cooperative objective can be deployed into a shared environment, we adopt the centralized training with decentralized execution paradigm for our first study and investigate the generalization and transfer capacity of the trained models across a variable number of agents. The generalization and transfer capacity of the agents is assessed by training a variable number of agents in a specific MARL problem and then performing greedy evaluations with a variable number of agents for each training configuration. Thus, we analyze the evaluation performance for each combination of agent count for training versus evaluation. We perform experimental evaluations on predator prey and traffic junction environments and demonstrate that it is possible to obtain similar or higher evaluation performance by training with fewer agents. We deduce that the optimal number of agents to perform training may differ from the target number of agents and argue that transfer across a large number of agents can be a more efficient solution to scaling up than directly increasing the number of agents during training. Thus, we conclude that deploying trained agents to an open-ended environment does not constitute a problem or necessitate an external incentivizing mechanism when the objective is single and all of the agents use the same policy. Turning the focus to deployment of separately trained and specialized agents to a shared environment necessitates the study of Sequential Social Dilemmas (SSD), since agents with different specializations are prone to have mixed motives. Sequential Social Dilemmas are gaining attention in recent years. The current trends either focus on engineering incentive functions for modifying rewards to reach general welfare, or developing learning based approaches to modify the reward function by accounting for the impact of the incentives on policy updates. One of the most significant works in the learning based approach is LIO, which enables independent self-interested agents to incentivize each other by an additive incentive reward. LIO assumes that agents continually learn and adapt according to the changing incentives they give each other and has demonstrated success in several sequential social dilemma environments. We investigate LIO's performance under a variety of different setups in public goods game Cleanup in order to analyse its robustness against necessity of including inductive bias in incentive function, randomness in initial agent position with an option of asymmetric incentive potential, and assess its stability under frozen incentive functions after agents' explorations are reset. We observe and demonstrate empirically that LIO is indeed sensitive to these settings and it is not reliable for obtaining good incentives that would let the system stay stable when it is static. We conclude with some research directions that would improve the robustness of the method and incentive learning research. Finally, we study having a single incentivizing mechanism instead of giving every agent the ability to incentivize each other. We aim to preclude the suboptimal consequences of agents with mixed motives by using a central mechanism that learns its incentives adaptively while the agents in question learn their policies. Thus, we propose the Incentive Q-Flow (IQ-Flow) algorithm, which modifies the system's reward setup with an incentive regulator agent such that the cooperative policy also corresponds to the self-interested policy for the agents. Unlike the existing methods that learn to incentivize self-interested agents or adaptive mechanisms, IQ-Flow does not make any assumptions on agents' policies or learning algorithms, which enables generalization of the developed framework to wider array of applications. IQ-Flow performs offline evaluation of the optimality of the learned policies using the data provided by other agents to determine cooperative and self-interested policies. Next, IQ-Flow uses meta-gradient learning to estimate how policy evaluation changes according to given incentives and modifies the incentive such that the greedy policy for cooperative objective and self-interested objective yield the same actions. We present the operational characteristics of IQ-Flow in Iterated Matrix Games. We demonstrate that IQ-Flow outperforms the state-of-the-art incentive design algorithm in Escape Room and Cleanup environments. We further demonstrate that pretrained IQ-Flow mechanism significantly outperforms the performance of shared reward setup in Cleanup environment.
Benzer Tezler
- FEM-basiertes Softwaresystem für die effiziente 3D Gewindebohrsimulation und Werkzeugoptimierung mittels CFD-Simulation
Başlık çevirisi yok
EKREM ÖZKAYA
- Plastik sanatlarda fraktal
Fractal in plasti̇c arts
EVREN TEPE
Yüksek Lisans
Türkçe
2014
Güzel SanatlarDokuz Eylül ÜniversitesiHeykel Ana Sanat Dalı
YRD. DOÇ. SEVGİ AVCI
- Yerinde uranyum ekstraksiyonu yöntemi üzerine deneysel ve teorik modelleme çalışmaları
Başlık çevirisi yok
HASANCAN OKUTAN
- MPEG videolardan hareket vektörleri ve arka plan çıkarımı kullanarak trafik akış hızı ve araç yoğunluğunun belirlenmesi
Extracting traffic flow velocity and vehicle density within MPEG videos using motion vectors and background estimation technique
MUHAMMET BALCILAR
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET COŞKUN SÖNMEZ
- Investigating pelagic fish larval dispersal and ecologic connectivity in the black sea using lagrangian drifter modeling
Karadenizde lagranç parçacık modellemesi kullanarak pelajik balık larva dağılımı ve ekolojik bağlılık araştırması
BULUT ÇAĞDAŞ
Yüksek Lisans
İngilizce
2019
Deniz BilimleriOrta Doğu Teknik ÜniversitesiOşinografi Ana Bilim Dalı
PROF. DR. BETTINA ANDREA FACH