Automatic identification of transitional bottlenecks in reinforcement learning under partial observability
Kısmi gözlemlenebilirlik altında pekiştirmeli öğrenmede geçişsel darboğazların otomatik tespiti
- Tez No: 483880
- Danışmanlar: PROF. DR. FARUK POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 66
Özet
Örneğe dayalı yöntemler, durum bilgisinin saklı olduğu pekiştirmeli öğrenme problemlerini çözmek için kanıtlanmış araçlardır. En Yakın Sıra Belleği (NSM), esasen En Yakın k-Komşu (kNN) algoritmasını temel alan, yaygın olarak bilinen bir örneğe dayalı bir yaklaşımdır. NSM, eylem-gözlem-ödül üçlülerinin ham tarihini sabit uzunlukta (veya ideal olarak sınırsız) hafızasında tutar. Mevcut durum ile önceki eylem-gözlem-ödül üçlülerinin eşleşmesini yinelemeli bir şekilde kontrol ederek komşuluk değerlerini hesaplar. En çok eşleşme gözlenen kısa-süreli bellek noktaları mevcut durumun en yakın komşuları kabul edilir ve etmeni en yüksek beklenen ödüle ulaşmasını sağlamak için gereken bilgi bu eşlemelerden elde edilen eylem değerlerinin ortalaması alınarak elde edilir. Bu tez çalışması kapsamında, NSM'in geçmişteki durumlarla eşleşme yakalayabilmek için yaptığı gereksiz karşılaştırmaları önlemek için özütleme mekanizması kullanılarak oluşturulmuş bir indeksleme yöntemi sunulmuştur. Deneyler zamansal karmaşıklıkta önemli bir iyileştirme gözlenirken öğrenme performansının korunduğunu göstermiştir. Bundan başka, NSM algoritmasında, ortamda hedefe ulaşma yolunda önemli olan geçişsel darboğaz bilgisi etmene önden verilerek yapılan iyileştirme de yine bu tezde sunulmuştur. Buna ek olarak bu iyileştirme, NSM durum-üçlüsüne yapılan ekleme ile ortamdaki durum belirsizliği azaltılarak geliştirilmiş, bu da öğrenme hızını daha da artırmıştır. Son olarak, NSM ile Farklı Yoğunluk yöntemleri birleştirilerek etmenin ortamdaki faydalı geçişsel darboğazların tespitini otomatik bir şekilde yapması sağlanmıştır. Deney sonuçları bu kombinasyonun kaliteli geçişsel darboğazları herhangi bir ön bilgi verilmeksizin bulmakta başarılı olduğunu göstermiştir.
Özet (Çeviri)
Instance-based methods are proven tools to solve reinforcement learning problems with hidden states. Nearest Sequence Memory (NSM) is a widely known instance-based approach mainly based on k-Nearest Neighbor algorithm. NSM keeps track of raw history of action-observation-reward instances within a fixed length (or ideally unlimited) memory. It calculates the neighborhood for the current state through a recursive comparison of the matching action-observation-reward tuples with the previous ones. The ones with the highest short-term history overlap are assumed to be the nearest neighbors of the current state, and the information required to lead the agent to the highest expected reward are extracted via averaging the action values among the matches. In this thesis, an indexing method is proposed to avoid redundant comparisons of tuples to identify matching histories for NSM, via a hashing mechanism. Experiments show that a significant improvement has been achieved in terms of time complexity while the learning performance is preserved. Furthermore, an improving heuristic is proposed for the NSM algorithm which provides the agent an additional prior information, namely transitional bottlenecks, on the way to goal. Additionally, a tuple extension pattern is shown to further improve the heuristic by means of ambiguity reduction due to the nature of transitional bottlenecks, thus increase the learning speed. Finally, NSM is combined with Diverse Density, so that identification of useful transitional bottlenecks can be automatized. The experimentation shows that this combination achieves to find the qualified transitional bottlenecks without any prior information fed into agent.
Benzer Tezler
- DETR derin öğrenme tekniği ile göz tomografi görüntülerinin tanımlanması
Detection of retinal OCT images using DETR deep learning technique
EFE EROĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EYYÜP GÜLBANDILAR
- Çeltik yanıklığı hastalığının görüntü işleme teknikleri kullanılarak tespit edilmesi
Determination of rice leaf blight disease by using image processing techniques
OĞUZHAN SOYDAN
Yüksek Lisans
Türkçe
2020
ZiraatOndokuz Mayıs ÜniversitesiTarım Makineleri ve Teknolojileri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALPER TANER
- Integration and testing of the RFID-enabled smart factory
RFID-etkin akıllı fabrikanın entegrasyonu ve test edilmesi
İSMAİL AKDAĞ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİzmir Katip Çelebi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN KAYA
- Markov zincirleri ile pazar payı tahmini ve renkli televizyon pazarına ilişkin bir uygulama
Market share estimation of colored TV with markov chains for the period of 1990-1995
BÜLENT MENGÜÇ
- Kartlı aktif elektrik enerjisi sayaç sistemi
Başlık çevirisi yok
TURGAY ETÇİBAŞI
Yüksek Lisans
Türkçe
1995
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiDOÇ.DR. MEHMET KORÜREK