Learning cooperation in hunter-prey problem via state abstraction
Av avcı probleminde durum soyutlama yoluyla işbirliği öğrenme
- Tez No: 238621
- Danışmanlar: PROF. DR. FARUK POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 52
Özet
Avcı av problemi Pekiştirmeli Öğrenme yöntemi için sıkça kullanılan bir deney alanıdır, ancak durum uzayı hacminin büyüklüğü ajan sayısına ve ortamın büyüklüğüne üstel bağlı olarak değişmektedir. Durum uzayının bu büyüklüğü standart Q-öğrenme algoritmasının kullanımını imkansız kıldığından, bu tez daha önce öğrenilmiş bilgiyi kullanıp daha büyük deney ortamlarında çalışabilen ajanlar üreterek, durum uzayı büyüklüğünün sabit tutmayı sağlayan bir yöntem tanıtmaktadır. Bu metot, Hiyerarşik Pekiştirmeli Öğrenme yöntemlerinden esinlenerek görevi daha basit alt görev seçimlerine bölen paralel alt görev mekanizmasından, bu yönteme yönelik bir durum gösterim tekniğinden ve bunun daha büyük ortamlar için genişletiminden oluşmaktadır. Deneysel sonuçlar önerilen yöntemin ortam parametrelerinden bağımsız, sabit büyüklükte bir durum uzayı kullanarak, el ile yazılmış algoritma kullanan ajanlara yakın, başarılı sonuçlar elde ettiğini göstermektedir.
Özet (Çeviri)
Hunter-Prey or Prey-Pursuit problem is a common toy domain for Reinforcement Learning, but the size of the state space is exponential in the parameters such as size of the grid or number of agents. As the size of the state space makes the flat Q-learning impossible to use for different scenarios, this thesis presents an approach to make the size of the state space constant by producing agents that use previously learned knowledge to perform on bigger scenarios containing more agents. Inspired from HRL methods, the method is composed of a parallel subtasks schema dividing the task into choices of simpler subtasks, a state representation technique convenient for this schema and its extension for bigger grids. Experimental results show that proposed method successfully provides agents that perform near to hand-coded agents by using constant sized state space independent from parameters of the domain.
Benzer Tezler
- 2 LRL: A two-level multi-agent reinforcement learning algorithm with communication
2 LRL: Bir iki seviyeli iletişimli çoklu-etmen takviye öğrenme metodu
GÜRAY ERUS
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
PROF.DR. FARUK POLAT
- İktisadi ve İdari Bilimler Fakülteleri ve İşletme Fakültelerinin Endüstri 4.0 ile dönüşümü
Transformation of Faculties of Economics and Administrative Sciences and Faculties of Business Administration with Industry 4.0
AYŞEGÜL SAĞLAM
Yüksek Lisans
Türkçe
2022
İşletmeKaradeniz Teknik Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. TÜLAY İLHAN NAS
- İdeal olmayan da-da düşürücü dönüştürücüler için optimal kesir dereceli pıd denetleyici tasarımı
Optimal fractional order pid controller design for non-ideal dc-dc buck converters
CİHAN ERSALI
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiBatman ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARAN HEKİMOĞLU
- İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması
Başlık çevirisi yok
TARIK ÇAKAR
Doktora
Türkçe
1997
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. AYHAN TORAMAN