Factored reinforcement learning using extended sequence trees
Bölümlenmiş genişletilmiş dizi ağaçlarıyla takviyeli öğrenme
- Tez No: 416477
- Danışmanlar: PROF. DR. FARUK POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 88
Özet
Takviyeli öğrenme, bir problem ortamında maksimum ödülü almaya çalışırken bitiş durumuna ulaşmak için nasıl davranılması gerektiğini öğrenme ile ilgilenen bir alandır. Takviyeli öğrenmede ortamı tanımlamak için en yaygın kullanılan yapı Markov Karar Süreci'dir (MKS). MKS'leri çözmek için önerilen değişik tekniklere ek olarak takviyeli öğrenme metotlarını farklı yönlerden geliştirmek için birçok araştırma yapılmıştır. Çünkü bu teknikler çoğu zaman gerçek dünya problemlerini çözmede yetersiz kalırlar. Klasik yaklaşımlar, bir çözüm üretebilmek için bütün olası durumların hesaplanmasını gerektirirler. Fakat durumlar, ortamdaki özniteliklerin değerlerinin listesiyle ifade edilebildiğinde, durum uzayı öznitelik sayısına bağlı olarak üstel olarak büyür. Buna it çok boyutluluğun laneti denir. Yeni ifade biçiminin avantajlarını kullanarak ortam durumunu daha kompakt bir şekilde modellemek mümkündür. Bölümlenmiş Markov Karar Süreçleri (BMKS) bu amaç için kullanılır ve bu yapıya Bölümlenmiş Takviyeli Öğrenme metotları uygulanarak yeni modelin faydalarından istifade edilir. Fakat bu yaklaşım da büyük ölçekli problemler için yeterli olmayabilir. Değerlendirilmesi gereken durum ve eylemlerin adedinin çok büyük olması nedeniyle öğrenme süreci fazla zaman ve kaynak gerektirir. Bu çalışmada, bu sorunun çözümü için bölümlenmiş kompakt bir yapı önerilmektedir. Zamansal soyutlamaların otomatik olarak tespit edilip kullanılmasının öğrenme hızını artırdığı ispatlanmıştır. Bu yolla, problemin farklı bölümlerinde tekrar eden şablonlar bulunup hepsinde ortak bir hareket tarzı uygulanarak aynı çözümü tekrar tekrar hesaplamanın önüne geçilmektedir. Genişletilmiş Dizi Ağaçları algoritması, durum ve eylemlerin tarihçelerini, sıklıkla kullanılan şablonları yapısal bir şekilde kaydedip alt katmanda çalışan takviyeli öğrenme algoritmasına alternatif eylemler öneren bir otomatik geçici soyutlama tespit tekniğidir. Bu çalışmada, genişletilmiş dizi ağaçlarına dayanan, birbirlerini takip eden durumlardaki değişken değerlerinin farklılıklarını kullanan, bölümlenmiş bir otomatik geçici soyutlama metodu önerilmektedir. Çalışmadaki amaç, durum ve eylem tarihçelerini daha kompakt bir şekilde saklayıp büyük hafıza kullanımından kaçınmaktır. Metodun önemli ölçüde hafıza kazanımı sağladığı yaygın bir şekilde kabul gören problemler üzerinde gösterilmiştir.
Özet (Çeviri)
Reinforcement Learning (RL) is an area concerned with learning how to act in an environment to reach a final state while gaining maximum amount of reward. Markov Decision Process (MDP) is the formal framework to define an RL task. In addition to different techniques proposed to solve MDPs, there are several studies to improve RL algorithms. Because these methods are often inadequate for real-world problems. Classical approaches require enumeration of all possible states to find a solution. But when states are described by a number of features in the environment, state space grows exponentially, which is known as curse of dimensionality. It is possible to model environments more compactly by taking advantage of new representation. Factored Markov Decision Processes (FMDPs) are used for this purpose and on top of this structure, Factored Reinforcement Learning (FRL) methods are applied to utilize new structured representation. Furthermore, this approach may not be sufficient for large scale problems. Since there are a huge number of states and actions to consider, learning process requires more time and resources. In this thesis, we propose a compact factored structure to solve this problem. Automatic detection and use of temporal abstractions during learning is proven to be an effective way to increase learning speed. Repeating patterns are found in different parts of the problem and a common sub-policy is used for all of them without exploring the solution again and again. Extended Sequence Tree (EST) algorithm is an automatic temporal abstraction detection technique that uses history of states and actions to store frequently used patterns in a structured manner and offers alternative actions to the underlying RL algorithm. In this work, we propose a factored automatic temporal abstraction method based on extended sequence tree by taking care of state differences via state variable changes in successive states. The aim is to store useful history portions more compactly to avoid excessive memory usage. The proposed method has been shown to provide significant memory gain on selected benchmark problems.
Benzer Tezler
- Betonarme eğilme elemanlarında moment yeniden dağılımının incelenmesi
Evaluation of moment redistribution in reinforced concrete beams
HAKAN OLGUNER
Yüksek Lisans
Türkçe
2006
İnşaat MühendisliğiYıldız Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. HASAN ORHUN KÖKSAL
- Mevcut betonarme binaların deprem güvenliklerinin belirlenmesi yapı sistemlerinin hesap yöntemlerinin karşılaştırılması
Evaluation of seismic capacity of existing reinforced concrete buildings comparison of methods of structural analysisi
MUSTAFA KARADAŞ
- Alman standartları (DIN 1045) Amerikan standartları (ACI) Türk standartları (TS 500) Eurocode-2'de narinlik ve burkulma hesabı
The slenderness effects and the buckling design in DIN1045-ACI-TS500 and EC-2
SEYHAN TEMEL
Yüksek Lisans
Türkçe
1997
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. MELİKE ALTAN
- Betonarme yapı sistemlerinde ikinci mertebe limit yükün ve göçme güvenliliğinin belirlenmesi için bir yük artımı yöntemi
Başlık çevirisi yok
KONURALP GİRGİN
- Mevcut betonarme yapıların deprem performanslarının belirlenmesi ve viskoz akışkanlı sönümleyiciler ile güçlendirilmesi için artımsal analize dayalı bir algoritma
An algorithm based on incremental analysis to evaluate performance and retrofit with viscous dampers of existing reinforced conrete structures
YAVUZ DURGUN
Doktora
Türkçe
2013
Deprem Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ERKAN ÖZER