An actor-critic reinforcement learning approach for bilateral negotiation

İki taraflı müzakere için aktör-kritik pekiştirmeli öğrenme yaklaşımı

PDF İndir

Tez No: 691184
Yazar: FURKAN ARSLAN
Danışmanlar: DR. ÖĞR. ÜYESİ REYHAN AYDOĞAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: Özyeğin Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 68

Özet

Bir çıkar çatışması olduğunda yazılım aracılarının karşılıklı bir anlaşma bulmak amacıyla birbirleriyle yaptığı pazarlık için etkili ve akıllı bir teklif stratejisi tasarlamak otomatik müzakeredeki en zorlayıcı araştırma zorluklarından biridir. Bu tez de, elle hazırlanmış bir karar verme modülü tasarlamak yerine, ikili bir müzakerede hangi teklifi sunulacağını öğrenen bir aktör-eleştirmen takviyeli öğrenme yaklaşımını benimseyen yeni bir teklif stratejisi önerilmiştir. Teklif verme yaklaşımı için Soft Actor-Critic (SAC) adı verilen bir entropi pekiştirmeli öğrenme yaklaşımı kullanılmıştır. Önceki teklif değişimlerine ve kalan süreye dayalı olarak gelecek teklifin hedef değerini belirleyen SAC modeli eğitmek için bir kendi kendine oynama yaklaşımı kullanılır. Ayrıca, öğrenme sürecini hızlandırmak için davranış klonlama adı verilen bir taklit öğrenme yaklaşımı benimsenmiştir. Bunlara ek olarak, müzakerenin sonunda yalnızca temsilcinin aldığı teklif değerini değil, aynı zamanda rakibin teklif değerinide kullanan yeni bir ödül işlevi tanıtıldı. Bu tez kapsamında geliştirilen SAC ajanı ampirik olarak değerlendirildi. Bu amaçla, büyüklük ve zorluk bakımından farklı alanlarda seçilen çeşitli muhaliflere karşı çok sayıda pazarlık oturumları yürütüldü. Ajanın performansı rakipleriyle ve aynı rakiplerle pazarlık eden temel ajanların performansıyla karşılaştırıldı. Ampirik sonuçlar, temsilcimizin, rakip veya alan hakkında önceden herhangi bir bilgi gerektirmeden farklı pazarlık senaryolarında zorlu rakiplere karşı başarılı bir şekilde pazarlık ettiğini göstermektedir. Ayrıca, başarılı pazarlık sonunda alınan teklif değeri göz önünde bulundurulduğunda temel aracılardan daha iyi sonuçlar elde etmektedir.

Özet (Çeviri)

Designing an effective and intelligent bidding strategy is one of the most compelling research challenges in automated negotiation, where software agents negotiate with each other to find a mutual agreement when there is a conflict of interests. Instead of designing a hand-crafted decision-making module, this thesis proposes a novel bidding strategy adopting an actor-critic reinforcement learning approach, which learns what to offer in a bilateral negotiation. An entropy reinforcement learning framework called \acrfull{sac} is applied to the bidding problem, and a self-play approach is employed to train the model determining the target utility of the coming offer based on previous offer exchanges and remaining time. Furthermore, an imitation learning approach called behavior cloning is adopted to speed up the learning process. Also, a novel reward function is introduced that does not only take the agent's own utility, but also the opponent's utility at the end of the negotiation. The developed agent is empirically evaluated. Thus, a large number of negotiation sessions are run against a variety of opponents selected in different domains varying in size and opposition. The agent's performance is compared with its opponents and the performance of the baseline agents negotiating with the same opponents. The empirical results show that our agent successfully negotiates against challenging opponents in different negotiation scenarios without requiring any former information about the opponent or domain in advance. Furthermore, it achieves better results than the baseline agents regarding the received utility at the end of the successful negotiations.

Benzer Tezler

Tez No
877547
Advantage actor-critic deep reinforcement learning approach for paint shop planning and scheduling
Boya atölyesi planlama ve zamanlama için avantajlı oyuncu-kritik derin pekiştirme öğrenme yaklaşımı
MERT CAN ÖZCAN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. METİN TÜRKAY
Tez No
912062
A heuristic solution approach for dynamic mission abort problem based on deep reinforcement learning
Görev iptal problemi için derin pekiştirmeli öğrenmeye dayalı bir sezgisel çözüm yaklaşımı
DUYGU YEŞİLTEPE
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliği Orta Doğu Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ZEYNEP PELİN BAYINDIR
DOÇ. DR. ENGİN TOPAN
Tez No
955617
Swarm fighter aircraft control with deep reinforcement learning approach
Derin pekiştirmeli öğrenme ile sürü savaş uçaklarının kontrolü
METİN SARI
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. FİKRET ÇALIŞKAN
Tez No
876824
Precise temperature control for refrigerators
Buzdolaplari için hassas sicaklik kontrolü
MEHMET KERİM PEKER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Galatasaray Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET TEOMAN NASKALİ
Tez No
605809
A model based flight control system design approach for micro aerial vehicles using integrated flight testing and hil simulations
Küçük boyutlu insansız hava araçları üzerinde sistem tanılama, uçuş kontrol sistem tasarımı ve donanım ile benzetim uygulamaları
BURAK YÜKSEK
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÖKHAN İNALHAN

Geri Dön