Geri Dön

Pruning algorithms for partially observable Markov decision processes

Kısmi gözlemlenebilir Markov karar süreçleri için budama algoritmaları

  1. Tez No: 489520
  2. Yazar: SELİM ÖZGEN
  3. Danışmanlar: PROF. DR. MÜBECCEL DEMİREKLER
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 140

Özet

Durum, eylem ve gözlem uzayının ayrık olduğu kısmi gözlemlenebilir Markov karar süreçlerinde değer fonksiyonunu parçalı doğrusal bir fonksiyon olarak göstermek mümkündür. Kesin değer yineleme algoritması, bu değer fonksiyonunu ararken her adımda üssel sayıda lineer fonksiyon yaratmaktadır. Bu fonksiyonların önemli bir kısmını değer fonksiyonunun değerini hiç değiştirmeden elemek mümkündür. Bu budama prosedürü lineer programlamanın kullanılması sayesinde mümkün olmaktadır. Bu çalışma ilk olarak budama prosedürünün geometrik bir çerçevesini vermektedir. Bu çalışmada gösterilmektedir ki, lineer programlama iterasyonları, budama probleminin vektör uzayı gösteriminde farklı dışbükey alanların seçimine denk gelmektedir. Buna ek olarak, budama problemine cebirsel bir çerçeve de sunulmuştur. Bu çerçeve lineer programların inşa edilmesi ve kullanılması üzerine kurulmaktadır. Problemin daha küçük boyutlu lineer programlar kullanılarak nasıl çözülebileceği ve lineer programların iterasyonlarının ne anlama geldiği anlatılmıştır. Problemin geometrik ve cebirsel çerçevesi arasında ayrıca bir ilişki de kurulmuştur. Kesin değer yineleme algoritmasının her adımında vektör sayısındaki üssel artışın nedeni verili olan vektör kümeleri üzerinde yapılan çapraz toplama işlemidir. Bu işlem sonucunda yeni bir vektör kümesi oluşmaktadır. Bilinmektedir ki, yeni oluşan setteki toplanan vektörlerden herhangi birinin elenebilir olduğunu görmek için çapraz toplama işlemine giren toplanan vektörlerin destek kümelerinin kesişimine bakmak yeterlidir. Elinizdeki çalışma, verili olan geometrik ve cebirsel çerçeveyi çapraz toplama operasyonunun özelliklerini incelemek üzere kullanmaktadır. Bu çalışmada iki yeni budama algoritması önerilmektedir. Bunlardan ilki olan FastCone verili herhangi bir vektör seti için kullanılabilir. Algoritmanın herhangi bir anında verili olan bir temiz vektör seti için, seçilmiş olan kirli vektörün içine düştüğü dışbükey alan hızlı bir şekilde bulunmaktadır. Eğer bulunan çözüm, seçilmiş olan kirli vektörü elemek için yeterli değilse bu işlem için yararlı olabilecek temiz vektörler bulunmaya çalışılmaktadır. İkinci algoritmanın ismi Cross-Sum Pruning with Multiple Objective Functions olarak belirlenmiştir. Bu algoritma ile amaçlanan herhangi bir simpleks adımında aktif olan vektörlerin destek kümeleriyle kesişimi boş küme olan vektörleri belirlemektir. Bu operasyonun işlevi şöyle özetlenebilir. Eğer farklı iki kümeden alınan iki vektörün destek kümelerinin kesişimi boş küme ise, bu iki vektörü içeren bütün sıralı çiftlerin elenmesi mümkün hale gelmektedir. Bu iki vektörün destek kümelerinin kesişiminin boş küme olduğunu anlamak için ise simpleks tablosundaki bir sırada işaret kontrolu yapmak yeterli olmaktadır. Algoritma performanslarını gösterebilmek için önerilen algoritmalar, konvansiyonel algoritmalar ve onların revize edilmiş versiyonları ile analitik ve deneysel olarak kıyaslanmıştır.

Özet (Çeviri)

It is possible to represent the value function in partially observable Markov decision processes as a piecewise linear function if the state, action, and observation space is discrete. Exact value iteration algorithm searches for this value function by creating an exponential number of linear functions at each step, many of which can be pruned without changing the value of the value function. The pruning procedure is made possible by the use of linear programming. This study first gives a geometric framework of the pruning procedure. It shows that the linear programming iterations refer to the selection of different convex regions in the vector space representation of the pruning problem. We also put forward an algebraic framework, which is the utilization and maintenance of linear programs. It shows how the problem can be decomposed into small sized LPs and what the LP iterations refer to. While stating these two theoretical frameworks, their relations have also been exploited. The exponential increase in the number of vectors in any step of the exact value iteration algorithm is due to an operation called the cross-sum addition of a set of vectors. This operation results in a new set of vectors. It is known that for any of the summand vectors in this new set to be non-dominated, the addend vectors entering the cross-sum addition should have intersecting support sets. The given geometric and algebraic framework has further been extended to exploit this particular property of the cross-sum operation. Two novel pruning algorithms have been offered in this study. First algorithm, called FastCone, can be used for pruning any given set of vectors. For a given set of clean vectors at any step, the algorithm hastily searches for the convex region that a dirty vector is in and tries to find a clean vector if only the given set of clean vectors is not sufficient to make the decision about this dirty vector. The second algorithm is called Cross-Sum Pruning with Multiple Objective Functions, where the aim is to find the vectors that have non-intersecting support sets with the current active vectors in each simplex iteration. This approach is useful because when two vectors from two different sets with non-intersecting support sets are detected, it is possible to delete all ordered pairs containing these two vectors. And this amounts to a simple sign check of the coefficients of a row of the simplex tableau. To show the algorithms' performance, both algorithms have been compared to the conventional algorithms and their revised versions both analytically and experimentally.

Benzer Tezler

  1. Protocols for stochastic shortest path problems with dynamic learning

    Başlık çevirisi yok

    VURAL AKSAKALLI

    Doktora

    İngilizce

    İngilizce

    2007

    Eğitim ve ÖğretimJohns Hopkins University

    Eğitimde Ölçme ve Değerlendirme Ana Bilim Dalı

    PROF. DONNİELL E. FİSHKİND

    PROF. CAREY E. PRİEBE

  2. Kaynak kısıtlı proje programlama problemlerinin çözümü için yeni yöntem ve algoritmalar

    New methods and algorithms for solving the resource-constrained project scheduling problem

    İHSAN UĞUR

    Doktora

    Türkçe

    Türkçe

    1987

    İşletmeİstanbul Teknik Üniversitesi

    PROF.DR. ATAÇ SOYSAL

  3. Covolutional neural networks based on non-euclidean operators

    Öklidce mensup olmayan operatörler bazında konvolüsyonel sinir ağları

    DIAA HISHAM JAMIL BADAWI

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Prof. AHMET ENİS ÇETİN

  4. Development of graphical code-based algorithms for the detection of abnormalities in mammogram ımages

    Mamogram görüntülerinde anormalliklerin tespiti için grafik kod tabanlı algoritmaların geliştirilmesi

    IMAN M. HAMADAMIN HAMADAMIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiFırat Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HASAN GÜLER

  5. AO* and Penalty Based Algorithms for the Canadian Traveler Problem

    Kanadalı Gezgin Problemi İçin AO* ve Ceza Tabanlı Algoritmalar

    ÖMER FURKAN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir Üniversitesi

    Endüstri ve Sistemler Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VURAL AKSAKALLI