Geri Dön

Analysis of meta-gradient incentive algorithm for cooperative behavior in social dilemma problems

Sosyal ikilem problemlerinde işbirlikçi davranış için meta-gradient teşvik algoritması analizi

  1. Tez No: 773984
  2. Yazar: ABDULLAH VANLIOĞLU
  3. Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Savunma Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Savunma Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 57

Özet

Birden çok temsilcinin bulunduğu paylaşımlı ortamlarda, temsilcilerin toplam ödülü en üst düzeye çıkarmak ve görevleri tamamlayabilmek için işbirliği içinde hareket etmesi beklenir. Ancak, temsilcilerin kendi çıkarları doğrultusunda hareket etmesi, bu ortamlarda işbirliği yapılmasını zor bir hale getirir. Başlangıçta araştırmacılar, çok temsilcili pekiştirmeli öğrenme problemleri için işbirlikçi politikalar geliştirmeye odaklandı. İşbirlikçi politikalar ile öğrenme, temsilcilerin kendi politikalarını birbirleriyle paylaşmalarını gerektirir ki bu her zaman mümkün olmayabilir. Alternatif bir diğer yaklaşım, temsilciler ve ortamları hakkında ayrıntılı bilgiye sahip olmaya dayanan merkezi öğrenmeyi içerir. İlk olarak kendi oluşturduğumuz ortamda temsilcilerin davranışlarını incelemek için merkezi bir öğrenme methodu olan Multi Agent Proxy Proximal Policy Optimization algoritmasını uyguladık. Ortamdaki görev, düşman güçlerinin olabildiğince çabuk ortadan kaldırılmasını içermektedir. Temsilcilerin bu amaca ulaşmak için işbirliği yapmaları gerekmektedir. Ancak bu tür askeri senaryolarda temsilcilerin hedefleri çalışabilir ya da stratejik kararlar alması gerekebilir. Bu durumda sosyal ikilemler ortaya çıkar. Sosyal ikilem durumunda temsilcilerin birlikte hareket etmesini sağlamak için teşvik edici ödül verme yöntemi uygulanabilir. Temsilcilerin iş birliği yapmasını sağlayan eylemler ödüllendirilerek, temsilcilerin kendi çıkarlarından ziyade takım çalışmasını ön planda tutmayı öğrenmesi sağlanabilir. Learning to Incentivize Others (LIO), temsilcilerin işbirliği sağlayacak davranışlarda bulunduğunda teşvik ödülü veren bir algoritmadır. Bu çalışmada LIO'nun dayanıklık analizi, farklı şartlar altında Cleanup ortamında yapılmıştır. Amaç, LIO'nun hasass noktalarını belirlemek ve meta-gradient tabanlı teşvik edici öğrenme algoritmasını geliştirmek için bilgi elde edinmektir. Bu tezde iyileştirme gerektiren alanları belirlemek için kapsamlı bir analiz yapılmaktadır.

Özet (Çeviri)

In shared environments, agents are expected to act cooperatively to maximize rewards and achieve objectives. However, it remains as a challenge and an open research problem for self-interested agents to behave cooperatively in Multi-Agent Deep Reinforcement Learning (MARL) environments. Initially, research into multi-agent reinforcement learning focused on developing cooperative policies. However, this requires agents to share their policies with each other, which is sometimes not feasible. An alternative approach involves centralized learning, which relies on having detailed knowledge of agents and their environments. We applied Multi-Agent Proxy Proximal Policy Optimization (MAPPO), a centralized learning method, to investigate the behavior of centralized agents in a custom environment. The environment's objective is to eliminate hostile forces as quickly as feasible. Agents need to collaborate in order to reach the desired outcome. During such military tasks, agents may make strategic decisions or have conflicting objectives. This results in social dilemmas. Rewards and penalties can be utilized to incentivize cooperation when dealing with sequential social dilemmas (SSDs). These incentives can assist agents in learning to cooperate by rewarding them for actions that lead to cooperative outcomes. Learning to Incentivize Others (LIO) is a reward-shaping approach, which uses incentive rewards to encourage cooperation between agents. We analyze the robustness of LIO in the public good game Cleanup under different configurations. Our goal is to identify the sensitive points of LIO and provide insights to enhance meta-gradient based incentive learning. Our primary contribution is to carry out a comprehensive analysis to pinpoint the areas that most require improvement.

Benzer Tezler

  1. Çölyak hastalığı ile immün yanıt arasındaki ilişkinin meta analizi

    Meta analysis of the relationship between celiac disease and immune response

    ÖZGÜL ÖZER

    Doktora

    Türkçe

    Türkçe

    2022

    Biyoistatistikİstanbul Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. EMİNE ŞEKÜRE NAZLI ARDA

  2. Orta Sakarya bölgesinde Sakarya kıta kabuğunun erken mesozoyik öncesi tektonik gelişimi

    Pre-early mesozoic tectonic development of Sakarya continental crust in the central Sakarya region

    OKŞAN GÖKÇEN UĞURCAN

    Doktora

    Türkçe

    Türkçe

    2022

    Jeoloji Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Jeoloji Mühendisliği Ana Bilim Dalı

    PROF. DR. TİMUR USTAÖMER

  3. Zaman serileri tahmininde melez bir yaklaşım

    A hybrid approach to time series forecasting

    NURBANU IŞIK DELİBALTA

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BURHANETTİN CAN

    DR. ÖĞR. ÜYESİ GÖNÜL ULUDAĞ

  4. Yelken balığı eniyileme yaklaşımı ile güçlendirilmiş karar ağacı algoritması kullanarak kalp rahatsızlıklarının teşhisi

    Using sailfish optimizer with enhanced decision tree algorithm to diagnose heart disease

    MURAT ONUR YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Endüstri ve Endüstri MühendisliğiSüleyman Demirel Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDAL AYDEMİR

  5. Dynamic heuristic approach to enhance the performance of few-shot meta-learning

    Az örnekle meta-öğrenmenin performansını artırmak için dinamik heuristik bır yaklaşım

    ÖMER MİRHAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. NUMAN ÇELEBİ