An actor-critic reinforcement learning approach for bilateral negotiation
İki taraflı müzakere için aktör-kritik pekiştirmeli öğrenme yaklaşımı
- Tez No: 691184
- Danışmanlar: DR. ÖĞR. ÜYESİ REYHAN AYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Özyeğin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 68
Özet
Bir çıkar çatışması olduğunda yazılım aracılarının karşılıklı bir anlaşma bulmak amacıyla birbirleriyle yaptığı pazarlık için etkili ve akıllı bir teklif stratejisi tasarlamak otomatik müzakeredeki en zorlayıcı araştırma zorluklarından biridir. Bu tez de, elle hazırlanmış bir karar verme modülü tasarlamak yerine, ikili bir müzakerede hangi teklifi sunulacağını öğrenen bir aktör-eleştirmen takviyeli öğrenme yaklaşımını benimseyen yeni bir teklif stratejisi önerilmiştir. Teklif verme yaklaşımı için Soft Actor-Critic (SAC) adı verilen bir entropi pekiştirmeli öğrenme yaklaşımı kullanılmıştır. Önceki teklif değişimlerine ve kalan süreye dayalı olarak gelecek teklifin hedef değerini belirleyen SAC modeli eğitmek için bir kendi kendine oynama yaklaşımı kullanılır. Ayrıca, öğrenme sürecini hızlandırmak için davranış klonlama adı verilen bir taklit öğrenme yaklaşımı benimsenmiştir. Bunlara ek olarak, müzakerenin sonunda yalnızca temsilcinin aldığı teklif değerini değil, aynı zamanda rakibin teklif değerinide kullanan yeni bir ödül işlevi tanıtıldı. Bu tez kapsamında geliştirilen SAC ajanı ampirik olarak değerlendirildi. Bu amaçla, büyüklük ve zorluk bakımından farklı alanlarda seçilen çeşitli muhaliflere karşı çok sayıda pazarlık oturumları yürütüldü. Ajanın performansı rakipleriyle ve aynı rakiplerle pazarlık eden temel ajanların performansıyla karşılaştırıldı. Ampirik sonuçlar, temsilcimizin, rakip veya alan hakkında önceden herhangi bir bilgi gerektirmeden farklı pazarlık senaryolarında zorlu rakiplere karşı başarılı bir şekilde pazarlık ettiğini göstermektedir. Ayrıca, başarılı pazarlık sonunda alınan teklif değeri göz önünde bulundurulduğunda temel aracılardan daha iyi sonuçlar elde etmektedir.
Özet (Çeviri)
Designing an effective and intelligent bidding strategy is one of the most compelling research challenges in automated negotiation, where software agents negotiate with each other to find a mutual agreement when there is a conflict of interests. Instead of designing a hand-crafted decision-making module, this thesis proposes a novel bidding strategy adopting an actor-critic reinforcement learning approach, which learns what to offer in a bilateral negotiation. An entropy reinforcement learning framework called \acrfull{sac} is applied to the bidding problem, and a self-play approach is employed to train the model determining the target utility of the coming offer based on previous offer exchanges and remaining time. Furthermore, an imitation learning approach called behavior cloning is adopted to speed up the learning process. Also, a novel reward function is introduced that does not only take the agent's own utility, but also the opponent's utility at the end of the negotiation. The developed agent is empirically evaluated. Thus, a large number of negotiation sessions are run against a variety of opponents selected in different domains varying in size and opposition. The agent's performance is compared with its opponents and the performance of the baseline agents negotiating with the same opponents. The empirical results show that our agent successfully negotiates against challenging opponents in different negotiation scenarios without requiring any former information about the opponent or domain in advance. Furthermore, it achieves better results than the baseline agents regarding the received utility at the end of the successful negotiations.
Benzer Tezler
- Advantage actor-critic deep reinforcement learning approach for paint shop planning and scheduling
Boya atölyesi planlama ve zamanlama için avantajlı oyuncu-kritik derin pekiştirme öğrenme yaklaşımı
MERT CAN ÖZCAN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. METİN TÜRKAY
- A heuristic solution approach for dynamic mission abort problem based on deep reinforcement learning
Görev iptal problemi için derin pekiştirmeli öğrenmeye dayalı bir sezgisel çözüm yaklaşımı
DUYGU YEŞİLTEPE
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri MühendisliğiOrta Doğu Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ZEYNEP PELİN BAYINDIR
DOÇ. DR. ENGİN TOPAN
- Precise temperature control for refrigerators
Buzdolaplari için hassas sicaklik kontrolü
MEHMET KERİM PEKER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET TEOMAN NASKALİ
- A model based flight control system design approach for micro aerial vehicles using integrated flight testing and hil simulations
Küçük boyutlu insansız hava araçları üzerinde sistem tanılama, uçuş kontrol sistem tasarımı ve donanım ile benzetim uygulamaları
BURAK YÜKSEK
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÖKHAN İNALHAN
- Deep reinforcement learning approach in control of Stewart platform- simulation and control
Stewart platformunun kontrolünde derin pekistirmeli öğrenme yaklaşımıc- simülasyon ve kontrol
HADI YADAVARI
Doktora
İngilizce
2023
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAT İKİZOĞLU
DR. ÖĞR. ÜYESİ VAHİT BARIŞ TAVAKOL