Transfer learning for continuous control
Sürekli kontrol için öğrenme aktarımı
- Tez No: 603288
- Danışmanlar: PROF. DR. HÜSEYİN LEVENT AKIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
- Sayfa Sayısı: 128
Özet
Derin pekiştirmeli öğrenme algoritmaları ile eğitilen etmenler, sürekli ortamlarda hareket dahil olmak üzere oldukça karmaşık görevleri gerçekleştirme yeteneğine sahiptir. İnsan düzeyinde bir performans elde etmek için bir görevde edinilen öğrenmeyi bilinmeyen görevlere transfer etme yeteneğini geliştirmek bu alandaki araştırmalarının bir sonraki adımı olmalıdır. Derin pekiştirmeli öğrenmede genelleme, öğrenim aktarımı araştırmalarında yeterince ele alınmamaktadır ve hatalı değerlendirme kriterlerine yol açarak yanlış algoritma karşılaştırmalarına neden olmaktadır. Bu tezde, örnekleme seçilimi ve erken durdurma yoluyla sürekli kontrol için politika gradyan algoritmalarına özgü yeni düzenleme teknikleri önerdik. Kırpma parametresi ile örnekleme seçilimi önererek aşırı öğrenmeye engel olarak, yüksek genelleme kapasitesine sahip bir robot için dayanıklı politikalar elde ettik. Derin öğrenme aktarımı problemlerinde yaygın olarak kullanılan hiperparametrelere optimizasyon iterasyonunun da dahil edilmesini önerdik. Yöntemlerimizin geçerliliğini farklı yerçekimleri ve teğetsel sürtünme ortamlarına başarılı öğrenim aktarımı gerçekleştirerek kanıtladık. Ağır kutu taşıyan bir kurye robotu deneyi tasarladık ve metotlarımızın üstün performansını grafiklerle gösterdik. Standart insansı robottan daha uzun ve daha kısa insansı robotlara başarılı bir şekilde yürüme görevini aktardık. Kaynak görev performansı, algoritmanın genelleştirme kapasitesinin bir göstergesi olmadığı için üç farklı öğrenimi aktarımı değerlendirme yöntemi önerdik. Entropi bonusu, farklı eleştirmen mimarileri ve müfredat öğrenimi kullanarak dayanıklı çekişmeli pekiştirmeli öğrenme algoritmasının genelleştirme kapasitesini arttırdık. Çekişmeli ağlar için genelleştirilmiş avantaj hesaplayıcısı tasarladık ve geliştirdiğimiz bu yöntem ile zıplayıcı robotu ağırlaştırdığımız hedef ortamda daha iyi performans gösteren politikalar elde ettik. Çekişmeli algoritmaların dayanıklılığını morfolojik olarak değiştirilmiş zıplayıcı robotlarda ve bilinmeyen yerçekimli ortamlarda tasarladığımız kriterlere göre değerlendirdik.
Özet (Çeviri)
Agents trained with deep reinforcement learning algorithms are capable of performing highly complex tasks including locomotion in continuous environments. In order to attain a human-level performance, the next step of research should be to investigate the ability to transfer the learning acquired in one task to unknown tasks. Concerns on generalization and overfitting in deep reinforcement learning are not usually addressed in current transfer learning research. This issue results in simplistic benchmarks and inaccurate algorithm comparisons due to rudimentary assessments. In this thesis, we propose novel regularization techniques exclusive to policy gradient algorithms for continuous control through the application of sample elimination and early stopping. By discarding samples that lead to overfitting via strict clipping we will generate robust policies for a humanoid with high generalization capacity. We also suggest the inclusion of training iteration to the hyperparameters in deep transfer learning problems. We recommend resorting to earlier snapshots of parameters depending on the target task due to the occurrence of overfitting to the source task. We demonstrate that a humanoid is capable of performing forward locomotion in unseen environments with different gravities and tangential frictions using strict clipping and early stopping. Furthermore, we evaluate our propositions on a delivery task where a humanoid is required to carry a heavy box while walking and inter-robot transfer tasks where the humanoid transfers its learning to taller and shorter robots. Because source task performance is not indicative of the generalization capacity of the algorithm we propose three different transfer learning evaluation methods. We increase the generalization capacity of a state-of-art adversarial algorithm by introducing entropy bonus, proposing different critic architectures and using simpler adversaries. Finally, we evaluate the robustness of these adversarial algorithms on morphologically modified hopper environments and environments with unknown gravities according to the criteria we proposed.
Benzer Tezler
- Learning based image and video editing
Öğrenme temelli görüntü ve video düzenleme
LEVENT KARACAN
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
- Improvement of face recognition performance through transfer learning: a comprehensive study using identity card biometric photographs and mobile phone selfie images
Transfer öğrenme yoluyla yüz tanım performanslarının geliştirilmesi: Kimlik kartı biyometrik ve cep telefonu özçekim fotoğrafları ile yapılan kapsamlı bir çalışma
YÜSRA ALBARAZİ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. KEMAL BIÇAKCI
- Classification of eeg signals using transfer learning on convolutional neural networks via spectrogram
Eeg sinyallerinin konvolüsyonel sinir ağlarında spektrogram yoluyla transfer öğrenimi kullanılarak sınıflandırılması
AHMET ESAD TOP
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HİLAL KAYA
- Atıkların derin öğrenme tabanlı sınıflandırılması
Deep learning based classification of wastes
DİLARA KARACA
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜLEYMAN UZUN
- Privacy and security enhancements of federated learning
Federe öğrenme uygulamalarında mahremiyet ve güvenlik geliştirmeleri
ŞÜKRÜ ERDAL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. ENVER ÖZDEMİR
DR. FERHAT KARAKOÇ