Effective subgoal discovery and option generation in reinforcement learning

Pekiştirmeli öğrenmede etkili alt hedef bulma ve opsiyon oluşturma

PDF İndir

Tez No: 457344
Yazar: ALPER DEMİR
Danışmanlar: PROF. DR. FARUK POLAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2016
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 72

Özet

Alt hedef bulma, pekiştirmeli öğrenmede, problem büyüklüğüyle başa çıkma konusunda kendini kanıtlamış önemli bir yaklaşımdır. Alt hedefler problemin, alt problemlere bölünmesi konusunda ipucu verir. Bu alt hedeflerin öğrenmenin erken aşamalarında bulunmaları, öğrenen ajanın her bir alt problemi ayrı ayrı çözmesine olanak sağlar ve öğrenme hızını arttırır. Markov Karar İşlemi olarak modellenmiş bir problemde, alt hedefler, ajanın bulunduğu diğer durumlara göre farklı özellikler taşır ve bu özellikler keşfedilmelerine olanak sağlar. Ajanın, bulunmuş bir alt hedefe yönelmesi için, opsiyon sistemi ortaya atılmıştır. Opsiyon sistemi, öğrenen ajana bulunmuş bir alt hedefe gitmek için bir yetenek kazandırır. Alandaki birçok çalışma, bu opsiyonların gideceği alt hedefleri bulma konusuna odaklanmış olup çalışmalar istatistik tabanlı ve grafik tabanlı olmak üzere ikiye ayrılır. Opsiyon oluşturma aşamasını geliştirme konusunda görece daha az çalışma bulunmaktadır. Bu çalışmada, problem hakkında kısmi bilgi ile çalışan verimli bir alt hedef bulma yöntemi sunulmuştur. Bu yöntem, alandaki diğer yöntemlerin aksine, daha düşük zaman karmaşıklığına sahiptir ve problem ile alakalı fazladan bir parametreye ihtiyaç duymamaktadır. Ayrıca bu tezde, opsiyon oluşturma aşaması için daha gelişmiş bir yaklaşım ortaya atılmıştır. Bu yaklaşım, opsiyon tanımını, opsiyonun kullanılmasının faydalı olacağı durumlar ile sınırlandırıp opsiyonları ana hedefe yönlendirir. Bu sayede, daha etkili opsiyonlar üretilir.

Özet (Çeviri)

Subgoal discovery is proven to be a practical way to cope with large state spaces in Reinforcement Learning. Subgoals are natural hints to partition the problem into sub-problems, allowing the agent to solve each sub-problem separately. Identification of such subgoal states in the early phases of the learning process increases the learning speed of the agent. In a problem modeled as a Markov Decision Process, subgoal states possess key features that distinguish them from the ordinary ones. A learning agent needs a way to reach an identified subgoal, and this can be achieved by forming an option to reach it. Most of the studies in the literature focus on finding useful subgoals by employing statistical methods and graph-based methods. On the other hand, there are few studies working on how to improve the process of forming options. In this thesis, an efficient subgoal discovery making use of local information is proposed. Unlike other methods, it has lower time complexity and does not require additional problem specific parameters. Furthermore, a better heuristic for forming options is proposed. It focuses on collecting a set of states that an option is really useful to employ from, leading to more effective options.

Benzer Tezler

Tez No
524674
Üniversitelerin lisans programlarında uygulanan çekirdek programın değerlendirilmesi
Evaluating core curriculum implemented at undergraduate programmes of universities
ELİF İLHAN
Doktora
Türkçe
2018
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. NURDAN KALAYCI ATAY
Tez No
657846
EMDD-RL: Faster subgoal ıdentification with diverse density in reinforcement learning
EMDD-RL: Pekiştirmeli öğrenmede ayrı yoğunluk yöntemiyle daha hızlı alt hedef bulma
SAİM SUNEL
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FARUK POLAT
Tez No
603471
Improving reinforcement learning using distinctive clues of the environment
Çevreden gelen belirgin ipuçlarını kullanarak pekiştirmeli öğrenmeyi geliştirme
ALPER DEMİR
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FARUK POLAT
DR. ERKİN ÇİLDEN
Tez No
591454
Süreç yönetimi ve risk analizi ilişkisi: Bir eğitim kurumu örneği
Relationship between process management and risk assessment: Case study of an education institute
TÜLİN KAYA
Yüksek Lisans
Türkçe
2019
Eğitim ve Öğretim Dokuz Eylül Üniversitesi
Toplam Kalite Yönetimi Ana Bilim Dalı
DOÇ. DR. HÜLYA KURGUN
Tez No
333377
Ziyaretçilerin etkinliklere katılım güdülerinin etkinlik türüne göre karşılaştırılması: İzmir ili örneği
Comparison of visitors' motivations of participating in events in accordance with type of events: Example of Izmir
CEYDA LALE
Yüksek Lisans
Türkçe
2012
Turizm Dokuz Eylül Üniversitesi
Turizm İşletmeciliği Ana Bilim Dalı
DOÇ. DR. EBRU GÜNLÜ

Geri Dön