Geri Dön

Çok ajanlı kaçma kovalama problemlerine takviyeli öğrenme yaklaşımı

An approach to multi agent pursuit evasion games using reinforcement learning

  1. Tez No: 334385
  2. Yazar: AHMET TUNÇ BİLGİN
  3. Danışmanlar: YRD. DOÇ. DR. ESRA KADIOĞLU ÜRTİŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: TOBB Ekonomi ve Teknoloji Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Güvenlik başta olmak üzere yaşamın birçok alanında uygulamalarını gördüğümüz kaçma-kovalama problemleri, her dönem için popüler bir araştırma konusu olmuştur. Özellikle son on yılda, süreç içerisine öğrenmenin de katılmasıyla ajanlar akıllı ajanlar halini almış ve bir haritaya gereksinim duymaksızın çevreleri hakkında topladıkları bilgileri kendi faydaları için kullanmaya başlamışlardır. Bu yönelim, problem çözümüne farklı disiplinlerden yeni bakış açıları kazandırmayı başarmış ve konuya olan ilginin tekrar yoğunlaşmasını sağlamıştır. Takviyeli öğrenme, kaçma-kovalama problemlerinin çözümünde kullanılan ve ajanların çevre ile etkileşiminden faydalanan bir yöntemdir. Bu yöntemle ajanlar, karmaşık algılayıcılar ve haritalar kullanmadan çevrelerinden aldıkları geribildirimler (ödüller ve cezalar) ile davranışlarını optimize ederler. Yapılan çalışmalarda, bir kaçan ajan, bir kovalayan ajan içeren senaryolar için başarılı deneyler gerçekleştirilmişse de, birden fazla kovalayan ajan bulunan takip senaryoları için yeterli sayıda araştırma bulunmamaktadır. Bu tezde, çok ajanlı kaçma-kovalama problemlerinde takviyeli öğrenme yaklaşımı araştırılmış ve buna yönelik olarak deneyler sunulmuştur. Problemin çözümüne ilişkin benimsenen yöntemde ajanlar Watkins'in Q(lamda) öğrenmesi metodunu kullanmaktadırlar. Q-öğrenmesi, uyguladığı politikadan bağımsız, optimal olarak aksiyon-değer tablosunu güncelleyen bir Geçici Farklar Kontrolü algoritmasıdır. Bizim çalışmalarımızda kullanılan Watkins'in Q(lamda) yöntemi ise Q-öğrenmesinin uygunluk izleri mekanizmasıyla genişletilmiş bir hali olup, ajanın uygulayacağı keşif niteliğindeki ilk hamleye kadar takip eden tecrübeleri kullanmaktadır. Çalışmamızda kovalayan ajanlar takımı için eşzamanlı öğrenme yaklaşımı uygulanmıştır. Bu yaklaşımda, aynı takımdaki ajanların her biri kendi aksiyon-değer tablosuna sahiptir ve takım arkadaşlarından bağımsız olarak bilgi uzayını günceller. Çalışmamızda, bahsi geçen yöntemler kullanılarak, bir kaçma kovalama problemi simülasyonu düzenlenmiş ve yapılan deneylerde elde edilen sonuçlar paylaşılmıştır.

Özet (Çeviri)

The game of pursuit-evasion, which is encountered frequently in applications of security, has always been a popular research subject in the field of robotics. Especially in the last two decades, when computer scientists gave rise to learning, the agents turned into intelligent agents and they started to use the information about their enviroment for their own purposes, without using the help of a map. This tendecy drew considerable amount of attention and opened the area to newcomers from several different disciplines. Reinforcement learning, which takes the advantage of an agent's interaction with the environment, is a method widely used in pursuit-evasion domain. With the help of this method, agents use the feedbacks (rewards and punishments) taken from the environment to optimize their behaviour, without using complex sensors and maps. Although there are successful examples of the one-pursuer one-evader scenario, there is not enough research on multi-agent pursuit-evasion problems in literature. In this master's thesis, a research is conducted on multi-agent pursuit-evasion problem using reinforcement learning and the experimental results are submitted. The intelligent agents use Watkins's Q(lambda) learning algorithm for the solution of the problem. Q-learning is an off-policy temporal difference control algorithm. The method we used on the other hand, Watkins' Q(lambda) learning algorithm, is a unified version of Q-learning and eligibility traces. It uses backup information until the first occurence of an exploration. In our work, concurrent learning is adapted for the learning of the pursuit team. In this approach, each member of the team has got its own action-value function and updates its information space independently.

Benzer Tezler

  1. A probabilistic guidance approach to swarm-to-swarm engagement problem

    Sürüler arası angajman problemine olasılıksal güdüm yaklaşımı

    SAMET UZUN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NAZIM KEMAL ÜRE

  2. Generation of plasmid-based eukaryotic model to investigate biology of Crimean-Congo hemorrhagic fever virus nucleoprotein and glycoproteins

    Kırım Kongo kanamalı ateşi virüsü nükleoproteinin ve glikoproteinlerinin biyolojisinin çalışılmasında plazmit temelli ökaryotik model oluşturulması

    NESİBE SELMA ÇETİN

    Doktora

    İngilizce

    İngilizce

    2023

    BiyoteknolojiBezm-i Alem Vakıf Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    PROF. DR. MEHMET ZİYA DOYMAZ

  3. AKT1 ve CTNNB1 gen mutasyonlarının Taksan grubu ilaç direnci ile ilişkisinin incelenmesi

    Investigation of the relationship between AKT1 and CTNNB1 gene mutations with Taxane group drug resistance

    GÜLSÜM ALTIPARMAK ÜLBEGİ

    Doktora

    Türkçe

    Türkçe

    2023

    Biyokimyaİstanbul Üniversitesi

    Tıbbi Biyokimya Ana Bilim Dalı

    PROF. DR. PINAR AKSOY SAĞIRLI

  4. İlköğretim 1. kademe görsel sanatlar dersinde müze eğitiminin tarih ve kültür bilinci oluşturmasındaki önemi

    The importance of museum education raising history and culture awareness in primary education first stage visual arts course

    TİMUÇİN AKYÜREK

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Eğitim ve ÖğretimGazi Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. SEMA BİLİCİ

  5. Children's perceptions of their urban outdoor experiences: The case of İzmir

    Çocukların kentsel dış mekan kullanımlarına dair algıları: İzmir örneği

    OYLUM DİKMEN GÜLERYÜZ

    Doktora

    İngilizce

    İngilizce

    2019

    Mimarlıkİzmir Yüksek Teknoloji Enstitüsü

    Mimarlık Ana Bilim Dalı

    PROF. DR. FEHMİ DOĞAN

    DR. ÖĞR. ÜYESİ ALTUĞ KASALI