A generalized deep reinforcement learning based controller for heading keeping in waves
Dalgalı ortamda yön tutma problemi için geliştirilmiş derin takviyeli öğrenme tabanlı bir kontrolcü
- Tez No: 740808
- Danışmanlar: DOÇ. DR. ÖMER KEMAL KINACI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Gemi Mühendisliği, Computer Engineering and Computer Science and Control, Marine Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Gemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Açık Deniz Mühendisliği Bilim Dalı
- Sayfa Sayısı: 87
Özet
Takviyeli Öğrenme (Reinforcement Learning ya da RL), bir öğrenicinin (agent) bir ödül (reward) fonksiyonunu maksimize etmek için hangi ortam koşulları altında nasıl eylemlerde (action) bulunması gerektiğini anlamaya çalıştığı bir makine öğrenimi yöntemidir. Agent, içinde bulunduğu ortamın çeşitli özelliklerini (state vector ya da durum vektörü üzerinden) gözlemler, bir eylemde bulunur ve ardından ortamdan bir ödül ve yeni ortam koşullarını alır. Denediği her eylemle agent eylem alma stratejisini (policy ya da politikasını) geliştirir. İyi tasarlanmış bir agent, yeterince eğitildiği taktirde iyi performans gösteren bir policy'ye yakınsayacaktır. RL ve Derin RL (DRL) yöntemleri, birçok karar verme problemi için başarıyla kullanılmıştır. Örneğin RL agent'ları, Atari, satranç ve Go gibi bir çok oyunda insan-üstü performans gösterebilmektedir. Bunun yanı sıra RL, robotik, finans ve hatta analog entegre devre tasarımı gibi çeşitli gerçek hayat uygulamalarında da oldukça umut vaadeden sonuçlar göstermiştir. RL'in kullanılabileceği gerçek hayat uygulamalarından biri de kontroldür. Modelsiz RL (Model-Free RL), birçok geleneksel kontrol yönteminin aksine, herhangi bir ortam dinamiğine ihtiyaç duymadan çalışmaktadır. Model-Free RL'in bu özelliği, ortam dinamiklerinin lineer olmadığı veya iyi bilinmediği problemler için oldukça faydalıdır. Fakat sektörde denizcilik uygulamaları için hala en çok PID gibi klasik geri bildirimli kontrolcüler kullanılmaktadır. Denizcilik kontrol problemlerinden biri yön tutmadır. Bu kontrol probleminde, bir kontrolcü olabildiğince az enerji harcayarak bir su üstü aracının sapma açısını sabit tutmaya çalışır. Bu problem için, genel olarak sektörde PID benzeri geleneksel geri beslemeli kontrolcüler kullanılmaktadır. Bu çalışma, dalgalı deniz koşullarında yön tutma problemi için genelleştirilmiş bir RL kontrolcüsü tasarlamaya odaklanmıştır. Kontrolcü, Maritime Research Institute of Netherlands'in (MARIN) simülasyon ortamı olan XSimulation ve modern bir RL algoritması olan SAC da kullanan MARINRL isimli bir kurumiçi kütüphane kullanılarak geliştirilmiştir. SAC, actor-critic bir off-policy RL algoritmasıdır (Ayrıntılı bilgi Section 3'de verilmiştir). Bu algoritmayı diğer algoritmalardan ayırt eden en büyük özellik, entropi adı verilen bir kavram kullanıyor olmasıdır. SAC bağlamı içerisinde entropi, bir policy'nin rastgeleliği olarak nitelendirilebilir. Policy'nin rastgeleliğe yakın olması, agent'ın bir çok farklı çevresel koşulla karşılaşıp hızlı bir şekilde tecrübe edinebilmesini sağlar. Fakat policy fazla rastgele ise bu sefer agent'ın sıkça karşılacagı makul çevresel koşullarda edineceği tecrübe azalır. SAC, entropi kavramı yardımıyla, agent'ın policy'sini makullük sınırları içerisinde olabildiğince rastgele tutmaya çalışır. Bu sayede SAC, çoğu diğer modern RL algoritmasından çok daha az veri ile çok daha başarılı policy'lere yakınsayabilmektedir. Deniz uygulamaları için gerçek bir geminin üzerinde bir RL agent'ı eğitmek çok pahalı olacağından, SAC'ın bu özelliği tez için oldukça önemlidir. Bu çalışmada dalgalar lineer olarak modellenmiştir. Geliştirilen kontrolcü, kontrol edilen aracın pervane RPM'lerinin sabit tutulduğu ve deniz durumu 1 ve deniz durumu 6 arasında çalışacak şekilde tasarlanmıştır. Kontrolcünün geliştirme sürecinde bir çok problemle karşılaşılmıştır. Aşırı dümen kullanımı, hedef sapma açısını ıskalayıp ters yönden sapma hatası alma ve ufak sabit kalıcı sapma hatalarını aşamama bu problemlerden sadece bir kaçıdır. En son geliştirilmiş RL agent bu hataların hepsi ile başedebilmek için farklı mekanizmalar kullanmıştır. Bu mekanizmalar agent'ın ödül (reward) fonksiyonuna yapılan çeşitli değişiklerden oluşmaktadır. Tasarlanan kontrolcülerin performansına bir referans noktası oluşturabilmek için bir Linear Quadratic Regulator (LQR) kontrolcüsü tasarlanmıştır. LQR, model tabanlı bir kontrolcüdür. İsminden anlaşılabileceği üzere, sistem dinamiklerini lineer bir şekilde modeller. Kontrolcünün davranışını ayarlamak için Q ve R ağırlık matrisleri kullanılır. Bu matrisler sırasıyla hatayı ve tahrik sistemi kullanımı (bu problem için dümen kullanımı) cezalandırır. Q'daki yüksek değerler kontrolcünün düşük hatalara öncelik vermesini sağlarken, R'daki yüksek değerler kontrolcünün tahrik sisteminin az kullanımına öncelik vermesini sağlar. Tez, geliştirilen RL agent'ın son hali üzerinden konuşmak yerine, oldukça basit bir agent'dan başlayıp onu adım adım iyileştirmektedir. Her adımın sonunda, agent'ın performansı farklı deniz koşullarında uzun bir sürece değerlendirilmekte ve bu performans tasarlanan LQR kontrolcüsü ile karşılaştırılmaktadır. Böylelikle yapılan her iyileştirmenin agent performansına olan etkisi açık bir şekilde döküman edilebilmiştir. Bununla gelecekte yapılacak denizcilik konulu RL çalışmalarına yön göstermek hedeflenmiştir. En son geliştirilen RL agent'ın, sapma açısı hatası ve dümen kullanımı açısından tasarlanan LQR kontrolcüsünden daha iyi performans gösterdiği gözlemlenmiştir. İlk bölüm, yön tutma problemi ve RL'in kaba bir özetini vermekte, tezin amacını açıklamakta ve tezin konusu üzerine yapılmış olan literatür araştırması hakkında bilgi vermektedir. Kullanılan araçlar ve simülasyon ortamı hakkında bazı ayrıntılı bilgiler de burada verilmiştir. İkinci bölüm, RL agent'ın performansı ile karşılaştırılacak olan geleneksel LQR kontrolcüsünü tanıtmakta ve ardından bu çalışma için kullanılacak olan LQR kontrolcüsünün tasarımını anlatmaktadır. Üçüncü bölüm, sonraki bölümler için bir temel oluşturmak amacıyla RL'i derinlemesine açıklamaktadır. Dördüncü bölüm, basit bir RL agent ile başlamakta ve bu agent'ın adım adım iyileştirilme sürecini anlatmaktadır. Her adımda agent performansı tasarlanan LQR kontrolcüsü ile karşılaştırılmış, agent'ın zayıf yönleri analiz edilmiş ve bir sonraki adım için yapılacak olan iyileştimeler belirlenmiştir. Beşinci bölüm önceki bölümleri özetlemekte, tezin literatüre olan katkılarını açıklamakta ve gelecekte yapılabilecek ilgili çalışmalar üzerine konuşmaktadır.
Özet (Çeviri)
Reinforcement Learning (RL) is a machine learning method where a learner (the agent) tries to maximize a reward by learning how to act under different environmental circumstances. The agent looks at the state of its environment (through the state vector), takes an action, and then gets a reward and the next state of its environment. The agent improves its action-taking strategy (policy) with every action it experiments with. RL methods have been used for many decision-making problems including control problems with promising results. Unlike many traditional control methods, a model-free RL doesn't need any environment dynamics to operate. This is especially beneficial for problems where the model dynamics are non-linear or not well-known. However, classical controllers are still the most used method of control for maritime applications. Heading-keeping is a maritime control problem where a controller's objective is to keep the heading (yaw) angle of a vehicle constant. Generally speaking, the industry standard is to use traditional feedback controllers such as PID for this problem. This study focuses on designing a generalized RL controller for the heading-keeping problem in waves. The study compares the designed RL controller to a traditional controller in terms of yaw error and rudder usage and observes that the designed RL-based controller performs better than the used traditional controller. The first iterations of the RL agent had many issues. Unlike traditional controllers, the RL agents don't inherently recognize that in an idealized environment they can deal with waves coming from 0 and 180 degrees with almost zero rudder usage. On top of that, the first few developed agents had problems with excessive rudder usage, steady-state error, and overshooting behavior. All of these problems have been solved in the final iteration of the RL agent. Instead of just explaining the final agent, the thesis starts off with a weak RL agent and explains how it can be improved iteratively. This way the thesis explains how one might approach the problem of developing an RL-based controller. The first section focuses on giving a rough summary of RL and the problem case, explains the purpose of the thesis, then talks about previous work over marine movement control in literature. Some detailed information about the used tools and simulation environment is also given here. The second section introduces LQR controllers and designs an LQR controller for the heading keeping problem. The third section explains RL in-depth to lay the foundation for the upcoming sections. The fourth section starts with a naively designed simple RL agent and iteratively improves it. In each iteration of development, the agent is compared to the designed LQR controller, its weaknesses are analyzed, and the improvements for the next iteration are determined. The fifth section summarizes the previous sections, explains the contributions of the thesis, and discusses possible future work.
Benzer Tezler
- Reinforcement learning baseddrift control
Başlık çevirisi yok
AHMET TİKNA
Yüksek Lisans
İngilizce
2021
Otomotiv MühendisliğiBudapest University of Technology and EconomicsDR. REMELİ VİKTOR
- Automated lane change decision making for autonomous vehicles using machine learning techniques
Makine öğrenmesi teknikleri ile otonom araçlarda şerit değişimine karar verme
MEHDI NASIRI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. GÜLAY ÖKE GÜNEL
- Deep reinforcement learning for urban modeling: Morphogenesis simulation of self-organized settlements
Derin pekiştirmeli öğrenme ile kentsel modelleme: Kendiliğinden örgütlenen yerleşimlerin morfogenez simülasyonu
HOUSSAME EDDINE HSAIN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiMimarlık, Planlama ve Tasarım Ana Bilim Dalı
Assoc. Prof. Dr. BURCU ŞENYAPILI ÖZCAN
Dr. YİĞİT ACAR
- Predicting stock prices in bist: A reinforcement learning and sentimental analysis approach
Pekiştirmeli derin öğrenme ve duyarlılık analizi yaklaşımı ile bıstteki hisselerin fiyatlarının tahmin edilmesi
ŞEYMA EĞE
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiBüyük Veri ve Veri Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Yapay zekâ ve demokrasi
Artificial intelligence and democracy
AYŞE NUR YAZICILAR
Yüksek Lisans
Türkçe
2023
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. ŞULE ÖZSOY BOYUNSUZ