Geri Dön

Multi-agent planning with automated curriculum learning

Otomatik müfredat öğrenmesi ile çoklu ajan planlaması

  1. Tez No: 944874
  2. Yazar: ONUR AKGÜN
  3. Danışmanlar: DOÇ. DR. NAZIM KEMAL ÜRE
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mekatronik Mühendisliği, Computer Engineering and Computer Science and Control, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 123

Özet

Pekiştirmeli öğrenme (RL), özerk ajanların ardışık karar verme görevlerinde ustalaşmaları için güçlü bir paradigma sunmaktadır. Temel prensibi olan, ödül sinyali rehberliğinde deneme-yanılma yoluyla öğrenme yaklaşımı, çeşitli alanlarda başarıyla uygulanmıştır. Ancak, standart RL algoritmalarının etkinliği, ödüllerin seyrek olduğu ya da karmaşık ve yüksek boyutlu durum uzaylarıyla karakterize edilen ortamlarda ciddi şekilde azalmaktadır. Bu tür zorlu ortamlarda bir ajan, ancak doğru eylemlerden oluşan uzun ve belirli bir dizi gerçekleştirdikten sonra anlamlı bir geri bildirim alabilir. Bu durum, keşif sürecini—yani ödüllendirici davranışların bulunmasını—son derece verimsiz kılan“kredi atfetme problemi”olarak adlandırılır. Ajan, öğrenmesi için gerekli geri bildirimi asla elde edemeden amaçsızca dolaşabilir ve bu da standart algoritmaların etkili politikalar geliştirmesini engeller. Bu temel sınırlamanın üstesinden gelmek amacıyla, bu tezde insan pedagojisinden esinlenen bir strateji olan müfredat öğrenmesi (Curriculum Learning, CL) ele alınmaktadır. Nasıl ki öğrencilere kalkülüs öğretmeden önce aritmetik öğretiyorsak, CL de öğrenme sürecini başlangıçta daha basit görevlerle başlatıp, ajan yeterlilik kazandıkça zorluk derecesini kademeli olarak artırarak yapılandırır. Bu rehberli yaklaşım, ajanın daha karmaşık problemleri çözmek için kullanabileceği temel beceriler geliştirmesine olanak tanır. Ancak geleneksel CL'in temel darboğazı, büyük ölçüde manuel tasarıma bağımlı olmasıdır; etkili bir müfredat oluşturmak ciddi derecede insan uzmanlığı, sezgi ve alan bilgisi gerektirir; bu da süreci hem zahmetli hem de genelleştirilmesi güç kılar. Bu tez, bu kritik boşluğu doldurmayı amaçlayarak öğrenme müfredatlarının otomatik ve uyarlanabilir bir şekilde oluşturulmasına yönelik özgün bir çerçeve önermektedir. Temel hedef, Bayesyen Müfredat Oluşturma (Bayesian Curriculum Generation, BCG) adı verilen ve görevin altında yatan yapının ve ajanın gerçek zamanlı gelişiminin anlaşılmasına dayalı olarak dinamik biçimde müfredat inşa eden ve uyarlayan algoritmik bir çerçevenin geliştirilmesi, uygulanması ve titizlikle değerlendirilmesidir. Amaç, özellikle geleneksel yöntemlerin başarısız olduğu, karmaşık ve ödülü seyrek ortamlarda, RL ajanlarının performansını, kararlılığını ve örnek verimliliğini önemli ölçüde artırmaktır. Önerilen BCG algoritması, birkaç temel kavramın bütünleşik şekilde kullanılmasına dayanmaktadır. Çerçevenin merkezinde, Bayesyen Ağlar (Bayesian Networks, BN) adı verilen olasılıksal grafiksel modeller yer almakta olup, bir ortam içindeki görevleri tanımlayan temel parametreler arasındaki yapısal bağımlılıkları temsil etmektedir. Örneğin bir gezinme (navigasyon) görevinde bu parametreler harita boyutu, engel sayısı veya rakip varlığı gibi unsurları içerebilir. BN, bu parametreler arasındaki olasılıksal ilişkileri yakalar ve güçlü bir üretici model işlevi görür. Bu sayede çerçeve, basit parametre rastgeleleştirmesini aşarak ilkesel bir yapıya sahip, çeşitli ve tutarlı görev konfigürasyonları üretebilir. Çerçevenin kritik bir bileşeni de, esnek görev gösterim teknikleriyle farklı girdi türlerini işleyebilmesidir. MiniGrid gibi görsel ortamlarda, durumun bir görüntü olduğu durumlarda, yüksek boyutlu gözlemleri düşük boyutlu gizli özellik vektörüne sıkıştırmak üzere evrişimli bir otomatik kodlayıcı (CAE) eğitilmektedir. Bu vektör, durumun temel anlamsal içeriğini yakalayarak analiz için kompakt ve anlamlı bir gösterim sağlar. Fizik tabanlı AeroRival simülatörü gibi ortamlar ise doğrudan normalleştirilmiş parametre vektörleriyle temsil edilir. Görevler ortak bir özellik uzayında temsil edildikten sonra, zorluk dereceleri nicel olarak belirlenir. Bu genellikle, belirli bir görevin gösterimi ile nihai hedef görevinki arasındaki (örneğin Öklidyen) mesafe ölçülerek yapılır. Bu yaklaşım, gösterimi hedefe yakın olan görevlerin gerektirdiği becerilerin de benzer olduğu varsayımına dayanır. Elde edilen ham mesafe değerleri daha sonra normalleştirilir ve K-Ortalamalar (K-Means) gibi gözetimsiz kümeleme algoritmalarıyla otomatik olarak ayrık zorluk seviyelerine veya“kutulara”gruplandırılır. Bu süreç, müfredatın yapılandırılmış aşamalarını etkin biçimde oluşturur. BCG'nin ayırt edici özelliği, uyarlanabilirliğidir. Müfredat, statik ve önceden tanımlanmış bir dizi değildir. Ajanın eğitim alacağı görevlerin seçimi, ajanın gerçek zamanlı performans ölçütleri (ortalama ödül veya görev başarısı gibi) doğrultusunda olasılıksal olarak gerçekleştirilir. Ajan bir zorluk seviyesinde tutarlı şekilde başarılı olursa, bir sonraki daha zor seviyeden görev seçme olasılığı artar; tersi durumda ise çerçeve, ajanın becerilerini pekiştirmesi için daha kolay görevler sunabilir. Bu kapalı döngü sistem, ajanın her zaman yeteneklerinin sınırında eğitim almasını sağlar ve hem durağanlaşmayı hem de hayal kırıklığını önler. Önemli olarak, BCG çerçevesi bilgi aktarımını (transfer learning) dolaylı ve etkili biçimde kullanarak yetenek edinimini hızlandırır. Temel RL ajanı (deneylerde Proximal Policy Optimization – PPO) tarafından bir müfredat aşamasındaki görevlerde öğrenilen politika ve değer fonksiyonu parametreleri, bir sonraki daha zorlu aşamadaki öğrenme süreci için başlangıç noktası olarak kullanılır. Bu sayede ajan her adımda tekrar baştan öğrenmek zorunda kalmaz, önceki bilgilerini üzerine inşa edebilir ve nihai göreve ulaşmak için optimal politikaya çok daha hızlı yakınsar. BCG çerçevesinin pratik etkinliği ve sağlamlığı, iki farklı ve zorlu RL ortamında gerçekleştirilen kapsamlı deneylerle doğrulanmıştır. İlki, MiniGrid'in DoorKey varyantı olup, kısmi gözlemlenebilirliğe (ajan yalnızca çevresinin küçük bir kısmını görebilir) ve hiyerarşik olarak seyrek ödüllere sahip, ayrık ve ızgara tabanlı bir gezinme problemidir (ajan önce anahtarı bulmalı, ardından kapıya giderek ödül almalıdır). İkincisi ise AeroRival Pursuit olup, yüksek hızlı rakip etkileşimleri, dinamik tehlikelerden kaçınma ve seyrek ödüller içeren, sürekli kontrol gerektiren bir hava muharebe senaryosudur. Her iki test ortamında da, BCG'nin performansı, müfredatsız temel PPO ajanı ve benzer zorlukları çözmeye yönelik çağdaş algoritmalarla karşılaştırmalı olarak değerlendirilmiştir. Deneysel sonuçlar, BCG yaklaşımının üstünlüğünü tutarlı ve açık biçimde ortaya koymuştur. Hem ayrık MiniGrid hem de sürekli AeroRival ortamlarında, BCG ile eğitilen ajanlar, test edilen tüm taban çizgilerine kıyasla anlamlı derecede daha yüksek nihai performans düzeylerine ulaşmış ve başarılı politikalara daha güvenilir biçimde yakınsamıştır. Ayrıca BCG, birden fazla bağımsız eğitim koşusunda daha düşük performans varyansı ile daha yüksek öğrenme kararlılığı sergilemiş, başarının rastlantısal olmadığını göstermiştir. Özellikle MiniGrid'de, BCG ajanların artan karmaşıklıktaki görevleri başarıyla öğrenmesini sağlarken, birçok taban çizgisi ölçeklenememiştir. Son derece karmaşık AeroRival ortamında ise, BCG ajanların tutarlı şekilde başarılı politika öğrenebildiği tek yöntem olmuş, çoğu taban çizgisi herhangi bir olumlu ödül elde edememiştir. Temel dinamikleri tamamen farklı iki ortamda dahi elde edilen bu başarı, çerçevenin çok yönlülüğünü ve genellenebilirliğini vurgulamaktadır. Sonuç olarak, bu çalışma, Bayesyen Müfredat Oluşturma algoritmasını geliştirerek, uygulayarak ve doğrulayarak pekiştirmeli öğrenme alanına önemli bir katkı sunmaktadır. BCG, özellikle ödülün seyrek ve durum uzayının karmaşık olduğu zorlu alanlarda, otomatik ve uyarlanabilir müfredat öğrenimi için sağlam, ilkesel ve etkili bir çözüm sunmaktadır. Görev uzayının olasılıksal modellenmesi, ajanın performansına dayalı uyarlanabilir görev seçimi ve aşamalar arasında verimli bilgi aktarımını bütünleştirerek, BCG keşif süreçlerini etkin şekilde yönlendirmekte ve karmaşık becerilerin edinimini hızlandırmaktadır. Bazı sınırlamalar—örneğin BN için parametrelerin belirlenmesinde başlangıçta alan bilgisine ihtiyaç duyulması ve ek hesaplama maliyeti—olmakla birlikte, sunulan sonuçlar son derece umut vericidir. Gelecekteki çalışmalar, parametre seçiminin otomatikleştirilmesi, çerçevenin durağan olmayan ortamlara genişletilmesi ve hesaplama verimliliğinin artırılmasına odaklanacaktır. Sonuç olarak, BCG, yarının karmaşık senaryolarında daha yetenekli, verimli ve özerk yapay zekâ ajanlarının eğitilmesinde potansiyeli ileriye taşıyan güçlü bir yaklaşım sunmaktadır.

Özet (Çeviri)

Reinforcement learning (RL) represents a formidable paradigm for training autonomous agents to master sequential decision-making tasks. Its core principle, learning through trial and error guided by a reward signal, has proven successful in a variety of domains. However, the efficacy of standard RL algorithms diminishes drastically in environments characterized by sparse rewards or complex, high-dimensional state spaces. In these challenging settings, an agent receives meaningful feedback only after executing a long and specific sequence of correct actions. This“credit assignment problem”makes exploration, the process of discovering rewarding behaviors, profoundly inefficient. An agent may wander aimlessly without ever stumbling upon the feedback necessary to learn, preventing standard algorithms from developing effective policies. To overcome this fundamental limitation, this thesis turns to curriculum learning (CL), a strategy inspired by the principles of human pedagogy. Just as we teach students arithmetic before calculus, CL structures the learning process by initially presenting the agent with simpler tasks and gradually increasing the difficulty as its competence grows. This guided approach helps the agent build foundational skills that can be leveraged to solve more complex problems. The primary bottleneck of traditional CL, however, is its reliance on manual design; creating an effective curriculum requires significant human expertise, intuition, and domain-specific knowledge, making it a process that is both laborious and difficult to generalize. This thesis addresses this critical gap by proposing a novel framework for the automated and adaptive generation of learning curricula. The central objective was to develop, implement, and rigorously evaluate an algorithmic framework, termed Bayesian Curriculum Generation (BCG), designed to dynamically construct and adapt a curriculum based on an understanding of the task's underlying structure and the agent's real-time progress. The aim is to significantly enhance the performance, stability, and sample efficiency of RL agents, particularly in complex, sparse-reward scenarios where traditional methods falter. The proposed BCG algorithm is built upon a synergistic integration of several key concepts. At its heart, the framework utilizes Bayesian Networks (BNs), a type of probabilistic graphical model, to represent the structural dependencies among the key parameters that define the tasks within an environment. For instance, in a navigation task, these parameters might include map size, the number of obstacles, or the presence of adversaries. The BN captures the probabilistic relationships between these parameters, serving as a powerful generative model. This allows the framework to sample a diverse yet coherent set of task configurations, moving beyond simple parameter randomization to generate tasks with a principled structure. A critical component of the framework is its ability to handle diverse input modalities through flexible task representation techniques. For visual environments like MiniGrid, where the state is an image, a convolutional autoencoder (CAE) is trained to compress high-dimensional observations into a low-dimensional latent feature vector. This vector captures the essential semantic content of the state, providing a compact and meaningful representation for analysis. For environments defined by a set of scalar parameters, such as the physics-based AeroRival simulator, normalized parameter vectors are used directly. Once tasks are represented in a common feature space, their difficulty is quantified. This is typically achieved by measuring the distance (e.g., Euclidean distance) between a given task's representation and that of the final target task. The intuition is that tasks with representations closer to the target are more similar in the skills they require. These raw distance values are then normalized and processed using unsupervised clustering algorithms, such as K-Means, to automatically group tasks into a discrete number of difficulty levels or“bins.”This process effectively creates the structured stages of the curriculum. A defining feature of BCG is its adaptability. The curriculum is not a static, predefined sequence. Instead, the selection of tasks for the agent to train on is performed probabilistically, guided by the agent's real-time performance metrics, such as its average reward or task success rate. If an agent consistently succeeds at a certain difficulty level, the probability of sampling tasks from the next, more challenging level increases. Conversely, if the agent struggles, the framework can present it with easier tasks to help it consolidate its skills. This closed-loop system ensures the agent is always training at the edge of its capabilities, preventing both stagnation and frustration. Crucially, the BCG framework implicitly and effectively leverages transfer learning to accelerate skill acquisition. The policy and value function parameters, learned by the base RL agent (in our evaluations, Proximal Policy Optimization - PPO) on tasks from one curriculum stage, are used to initialize the learning process for the subsequent, more challenging stage. This prevents the agent from having to learn from scratch at each step, allowing it to build upon previously acquired knowledge and dramatically speeding up convergence to an optimal policy for the final task. The practical efficacy and robustness of the BCG framework were empirically validated through comprehensive experiments in two distinct and demanding RL environments. The first, MiniGrid (specifically, the DoorKey variant), provided a discrete, grid-based navigation challenge characterized by partial observability (the agent can only see a small portion of its surroundings) and a hierarchically sparse reward (the agent must first find a key, then navigate to a door, and only then receive a reward). The second, AeroRival Pursuit, offered a continuous control task involving high-speed adversarial interaction, dynamic hazard avoidance, and sparse rewards, simulating an aerial combat scenario. In both testbeds, BCG's performance was rigorously benchmarked against a baseline PPO agent (with no curriculum) and a diverse set of relevant contemporary algorithms designed to address similar challenges. The experimental results consistently and unequivocally demonstrated the superiority of the BCG approach. Across both the discrete MiniGrid and continuous AeroRival environments, agents trained with BCG achieved significantly higher final performance levels and converged on successful policies more reliably than all tested baselines. Furthermore, BCG exhibited greater learning stability, as evidenced by a lower variance in performance across multiple independent training runs, indicating that its success is not due to random chance. Notably, in MiniGrid, BCG enabled the agent to master tasks of progressively increasing complexity where many baselines failed to scale. In the highly complex AeroRival environment, BCG was the only method that consistently enabled the agent to learn a successful policy, whereas most baselines failed to obtain any positive rewards at all. This success across environments with fundamentally different dynamics underscores the versatility and generality of the framework. In conclusion, this research makes a significant contribution to the field of reinforcement learning by developing, implementing, and validating the Bayesian Curriculum Generation algorithm. BCG presents a robust, principled, and effective solution for automated and adaptive curriculum learning, particularly in challenging domains hampered by sparse rewards and complex state spaces. By synergistically combining probabilistic modeling of the task space, adaptive task selection driven by agent performance, and efficient knowledge transfer between stages, BCG successfully guides exploration and accelerates the acquisition of complex skills. While acknowledging certain limitations—such as the initial need for domain knowledge to identify parameters for the BN and the added computational overhead—the presented results are highly promising. Future work will focus on automating parameter selection, extending the framework to non-stationary environments, and further improving computational efficiency. Ultimately, BCG offers a powerful approach that advances the potential for training more capable, efficient, and autonomous AI agents in the complex scenarios of tomorrow.

Benzer Tezler

  1. A multiagent system based decision making framework for lean construction scheduling

    Yalın inşaat planlaması için çoklu ajan temelli karar verme çerçevesi

    EMİNE EBRU ALTAN

    Doktora

    İngilizce

    İngilizce

    2024

    İnşaat MühendisliğiYıldız Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEYNEP IŞIK

  2. Multi-agent approach for the scheduling of manufacturing systems

    Üretim sistemlerinin çizelgelenmesi için çoklu ajan yaklaşımı

    CENK ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2010

    Endüstri ve Endüstri MühendisliğiÇukurova Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. RIZVAN EROL

  3. Design and simulation of a multi-agent autonomous robot system for industrial facilities

    Endüstriyel tesisler için çok-ajanlı bir otonom robot sistemi tasarımı ve simülasyonu

    SARP BARAN ÖZKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    PROF.DR. LEVENT AKIN

  4. Veri merkezleri için makine öğrenmesi temelli izleme sistemi tasarımı

    Machine learning based monitoring system design for data centers

    METEHAN HAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAH SEVİN

  5. Emotion aware artificial intelligence for cognitive systems

    Bilişsel sistemler için duygu farkındalıklı yapay zeka

    DEĞER AYATA

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

    PROF. DR. MUSTAFA ERSEL KAMAŞAK