Evaluating performance of large language models in bluff-based card games: A comparative study

Blöf temelli kart oyunlarında büyük dil modeline ait performans değerlendirilmesi: Karşılaştırmalı bir çalışma

PDF İndir

Tez No: 959016
Yazar: İREM ŞALK
Danışmanlar: PROF. DR. SANEM SARIEL UZER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı
Bilim Dalı: Oyun ve Etkileşim Teknolojileri Bilim Dalı
Sayfa Sayısı: 141

Özet

Bu tez çalışmasının amacı, kısmi olarak gözlemlenebilen (partially observable) bir oyun ortamında çeşitli etmen stratejilerinin karar verme performanslarının incelenmesi ve karşılaştırılmasıdır. Özellikle, blöf unsurunun kritik rol oynadığı bir oyunda, bağlam içi öğrenme (in-context learning, ICL) yoluyla yönlendirilen büyük dil modellerinin (LLM) geleneksel kural tabanlı stratejiler ve pekiştirmeli öğrenme ile eğitilen etmenlere kıyasla etkili eylem önerileri üretip üretemediği araştırılmıştır. Bu kapsamda, temel hipotez olarak, oyunla ilgili özel bir ödül sinyali ile eğitilmemiş olmasına rağmen, yapılandırılmış bilgi kümelerinin yorumlanması yoluyla dil modeli tabanlı etmenlerin başarılı blöf veya itiraz eylemleri önerebildiği varsayılmıştır. Bu bağlamda, tezin araştırma sorusu“Blöf temelli bir kart oyununda, Büyük Dil Modeli bazlı bir stratejinin, rakipleri hakkında çıkarım yaparak en iyi eylemleri önerebilirliği”şeklinde ifade edilmiştir. Bu çalışma kapsamında, büyük dil modellerinin gerçek zamanlı karar verme alanlarındaki uygulanabilirliği analiz edilerek literatüre katkıda bulunulması hedeflenmiştir. Bu amaçla, etmenlerin blöf gerektiren eylemleri sergileme sıklıkları, diğer oyuncuların blöflerini tahmin edebilme sıklıkları, bu eylemlerin başarılı olma oranları ve oyun kazanma oranları üzerinden performansları değerlendirilmiştir. Değerlendirme aşamasında, modelin oyun durumları, oyuncu geçmişleri ve olasılıksal ipuçları üzerinden akıl yürüterek eylem seçme yeteneğine odaklanılmıştır. Geliştirilen oyun ortamı, geleneksel Blöf oyununun değiştirilmiş bir versiyonu olarak tasarlanmıştır. Bu versiyonda, altı farklı türde dörtlü kartlardan oluşan 24 kartlık özel bir deste kullanılmış ve üç oyuncu (etmen) tarafından oynanması sağlanmıştır. Oyun başında kartların oyuncular arasında eşit olarak dağıtılması ve ilk oyuncunun rastgele belirlenmesi sağlanmıştır; tur sırasının saat yönünde ilerlemesi kural olarak benimsenmiştir. Oyuncuların ellerindeki kartların diğer oyunculardan gizli tutulması sağlanmıştır. Oyun boyunca sabit bir masa rengi kullanılmış ve bu renk, kartların sahip olduğu renkler arasından rastgele seçilmiştir. Her turda oyuncular tarafından gerçekleştirilebilen iki eylem tanımlanmıştır: kart oynama (hamle) ve rakibin hamlesine itiraz etme. Hamle yapıldığında, kartların yüzü kapalı olarak ortaya bırakılması ve oynanan kartların masa rengi ile aynı olduğu iddia edilmesi zorunlu kılınmıştır. Bu iki hamle kuralı sayesinde, oyuncuların rakiplerine blöf yapmasına ve iddia ettikleri renkten farklı kartlar oynamasına olanak tanınmıştır. Bir blöf hamlesi, en az bir kartın ilan edilen kart rengi ile eşleşmemesi durumunda gerçekleştirilmiş sayılmıştır; gerçek bir hamlede ise tüm kartların bu masa rengi ile eşleşmesi gerekmektedir. Oyuncuların ellerinde masa rengi ile uyuşan kart bulunmasa dahi hamle yapmak zorunda olmaları, oyuncuların kazanmak için doğru şekilde blöf yapmaya itilmesi şeklinde kurgulanmıştır. İtiraz eylemi opsiyonel olarak tanımlanmış ve oyuncu rakibin blöf yaptığını düşündüğünde hamlesine itiraz edebilmiştir. İtiraz eylemi gerçekleştirildiğinde, son oynanan kartların içeriğine bakılmıştır. Eğer rakibin blöf yaptığı tespit edilirse, ortadaki kartlar ceza olarak rakip oyuncuya verilmiştir. Aksi halde, itiraz eden oyuncuya ceza verilmiştir. Oyun, bir oyuncunun elinde kart kalmadığında ve bu oyuncu rakibin itirazı ile ceza almadığında sonlandırılmıştır. Oyuncunun elindeki tüm kartları elinden çıkararak oyunu kazanması, diğer oyuncuların ise kaybetmesi ile sonuçlanmıştır. Bu tezde, oyun benzetim çerçevesi oluşturulabilmesi amacıyla öncelikle oyun kuralları ve oynanışı küme gösterimi ile matematiksel olarak modellenmiştir. Ardından, eylem seçimlerinin frekansları ve sonuçları türetilmiştir. Bunun için, her oynanan oyun için tur bazlı oyuncu eylem seçimlerini tutan ve bunları istatistiksel olarak hesaplayan bir model tasarlanmıştır. Benzetim kapsamında beş farklı etmen tipi modellenmiştir. Her bir etmenin strateji mantığına göre eylem kararı aldığı varsayılmıştır. Tanımlanan etmen türleri şunlardır: 1. Rastgele Etmen, oyun bağlamını dikkate almadan eylemleri rastgele seçen bir temel referans olarak kullanılmıştır. 2. Duruma Bağlı Etmen, o anki oyun durumuna (örneğin ortaya koyulan kart sayısı, kart dağılımı) göre rakiplerin ellerinde eşleşen kartların olasılıklarını değerlendirerek basit bağlamsal mantık uygulamıştır. 3. Bayesçi Etmen, eylem kararı alırken geçmiş oyun verilerinden elde edilen hiyerarşik öncülleri ve mevcut oyun durumunu kullanmıştır. 4. Pekiştirmeli Öğrenme Etmeni (Derin Q-Ağı etmeni, DQN), Q-öğrenme algoritması kullanılarak uzun vadeli ödülleri en üst düzeye çıkarmaya çalışan derin öğrenme tabanlı bir model olarak tasarlanmıştır. 5. Büyük Dil Modeli Bazlı Etmen ise, yapılandırılmış bilgi girdisi aracılığıyla kararlar üreten, kuralları, mevcut durumu, geçmiş davranışları ve olasılıksal özetleri kullanarak stratejik akıl yürütme yapan bir model olarak geliştirilmiştir. Derin Q-Ağı etmeni için iki farklı öğrenme yapılandırması tanımlanmıştır: baz stratejileri kullanan etmenlerle öğretilme yöntemi ve kendi kendine oynama yöntemi. Ek olarak, hem hamle hem de itiraz eylemleri için tur bazlı ve bölüm bazlı ödül tanımlamaları yapılmıştır. Böylece, Derin Q-Ağı etmeninin performansı farklı öğrenme senaryolarına göre değerlendirilmiş ve iyi performans gösteren etmenler diğer etmenlerle karşılaştırılmak üzere seçilmiştir. Dil modeli bazlı eylem seçimi yapan etmenin adil şekilde değerlendirilebilmesi için, yalnızca davranışları optimal olan ve oyunlar arasında başarılı sonuçlar elde eden etmenlerin seçildiği bir rakip havuzuna karşı test edilmesi sağlanmıştır. Böylelikle, yalnızca iyi performans gösteren etmenler kullanılarak yüksek varyans kaynaklı dengesizliğin önlenmesi ve akıl yürütme bazlı kararların daha sağlıklı ölçülmesi mümkün kılınmıştır. Bu filtrelemeden elde edilen en iyi performansa sahip etmenler üç gruba ayrılarak dil modeli etmeni ile oyun ortamında benzetimler gerçekleştirilmiştir. Bu oyuncu gruplamaları sırasıyla, yalnızca Derin Q-Ağı etmenleri ile dil modeli etmeni, yalnızca tanımlanan baz stratejileri kullanan etmenler ile dil modeli etmeni ve her iki benzetimde de en iyi performans gösteren etmenler ile dil modeli etmeni şeklinde tanımlanmıştır. Böylelikle, farklı oyun tarzlarında dil modeli tabanlı etmenin performansı analiz edilmiştir. Dil modeli etmeni olarak GPT-4o tabanlı model kullanılmıştır. Bu modele yapılandırılmış bir girdi aracılığıyla kurallar, mevcut durum, geçmiş davranışlar ve olasılıksal özetler sunulmuştur. Ayrıca, rakip davranışlarının analiz edilmesi, olası sonuçların tahmin edilmesi ve risk-ödül dengesinin değerlendirilmesi amacıyla stratejik yönergeler ve düşünce zinciri temsili sağlanarak adım adım akıl yürütme yapılması ve nihai kararın verilmesi sağlanmıştır. Benzetim sonuçları strateji türüne göre analiz edilmiştir. Analizler, blöf ve itiraz başarı oranları, tekrar eden denemelerde tutarlılık ve genel kazanma oranlarına odaklanır. Rastgele, kural tabanlı, öğrenme temelli ve akıl yürütme temelli etmenler karşılaştırılarak belirsizlik ve blöfün hakim olduğu ortamlarda, karar verme yetilerinin etkisi değerlendirilmiştir. Dil modeli etmeninin kararlarının diğer stratejilerle karşılaştırılması yoluyla, yapılandırılmış yönlendirme aracılığıyla dil modeli temelli stratejilerin etkinliği değerlendirilmiştir. Oluşturulan bu benzetim çerçevesi, büyük dil modellerinin stratejik karar verme ortamlarında nasıl performans gösterdiğine ve blöf içeren durumlara nasıl yanıt verdiğine dair bir analiz sunmaktadır. Bu çalışma, dil modeli ile eylem seçen etmenin eylem başarıları ve kazanma sıklığının yanı sıra, bu eylemleri seçme sıklığını da değerlendirmiştir. Bu sayede, yanıltıcı bir ortamda, oyuna dair verilen güncel ve geçmiş bilgileri analiz eden dil modelinin nasıl bir oyuncu davranışı sergilediği de gösterilmiştir. Sonuç olarak, modellediğimiz benzetim çerçevesi, belirsizlik ve blöfün temel bileşenler olduğu stratejik karar alma görevlerinde büyük dil modellerinin nasıl performans gösterdiğini anlamaya katkıda bulunur. Sonuçlar, dil modeli etmenlerinin, yeterli yönlendirme sağlandığında, en iyi eylemlere yakın sonuçlar üretebildiğini ve gelecek çalışmalarda oyun planlama, yönlendirme yapısı ve belirsizliğin modellenmesi gibi alanlarda daha ileri analizlerle bu performansın derinleştirilebileceğini göstermektedir.

Özet (Çeviri)

The aim of this study is to investigate and compare the decision-making performance of multiple agent strategies in a modified bluff-based card game under imperfect information. The study is focused on whether a large language model (LLM) that is prompted through in-context learning (ICL), can generate effective action recommendations when comparisons are made to other agents that use traditional rule-based strategies and reinforcement learning in a game where deception plays a critical role. The central hypothesis is that successful bluff or challenge actions can be adaptively recommended by reasoning-driven agents using LLM by interpreting structured sets of information despite having no training on game-specific reward signals. Our research question is“Can LLM-driven strategy suggest optimal actions by making predictions and inferences about opponents in a bluff-based card game?”This study is expected to contribute to growing research on the application of LLMs in real-time decision-making domains by analyzing the performance of the agents in terms of the success rate of actions and wins. To do that, the model's ability to reason over game states, player histories, and probabilistic cues to select actions in a bluff-based setting is focused on in the evaluation. The game environment is a modified version of the traditional Bluff (also known as Cheat or BS) card game. The modified version of the Bluff game uses a special 24-card deck which consists of 6 suits and 4 cards and is played by three players (agents). At the start of the game, cards are evenly distributed among all players, the first player is chosen randomly and turns continue in a clockwise direction in each game. Cards are kept hidden by players from others during the game. A fixed table rank is used throughout the game. During the gameplay, two actions can be performed by players: challenge and move. When a move is made by players, cards are piled face down in the middle and a certain amount of cards with the table rank and rank value is claimed to be played. This feature allows opponents to be bluffed by players. A bluff move is defined as one in which at least one card does not match the declared rank, while a truthful move is one in which all cards match the declared rank. To simplify the action selection, the challenge phase is limited to one player, as the challenge action may only be performed by the next-moving player. Therefore, the previous move may be challenged by a player if it is believed that it does not match the required rank. If the last played move is a bluff, then all cards in the pile are taken by the previous player; otherwise, all cards in the pile are taken by the player who performs the challenge. The first player who discards all the cards in their hand is defined as the winner of the game. The game is proceeded in turns until one player wins. To create a game simulation framework, the gameplay and rules are first modeled mathematically by using set notation based on our game design. Then, the frequency of action selections along with their corresponding outcomes is derived, and dynamic reward-penalty for each action and game conclusion is defined. Next, the game is modeled which is played by five different agents. Actions are selected by each agent based on its internal strategy logic, and rewards are distributed based on the success of bluffs and challenges. In this methodology, five distinct agents are implemented: Random Agent: This agent selects actions uniformly at random without considering game context. Serves as a performance baseline. State Dependent Agent: This agent uses handcrafted rules based on the current state, such as pile size, card distribution. The agent with minimal logic and contextual awareness as calculating the probability of occurrence of the matching cards in the opponent's hand is modeled. Bayesian Agent: Employs hierarchical priors from historical game data and current game state to evaluate best action for bluffing and challenging. Adapts action preferences based on prior success rates. DQN Agent: A deep reinforcement learning model trained to maximize long-term reward. It maps observed states to derive optimal actions using Q-learning, updating its policy across turns in episodes. To support reinforcement learning, we defined both episode-level rewards (e.g., winning or losing the game) and turn-based rewards for each action type (move and challenge) to guide the learning process of the agent effectively. We design two different learning configurations as Baseline-Oriented Training which is competing against baseline agents to learn stable behavior in known scenarios and self-play training which provides learning by playing against versions of itself to promote generalization and adaptability. LLM Agent: A GPT-based language model (GPT-4o) receives a structured prompt describing the rules and instructions, current state, past behaviors, and probabilistic game summaries such as winning rate. In addition, a simple chain of thoughts by instructions and strategy guidelines to analyze opponent behaviors, predict possible outcomes of possible action scenarios and evaluate risk-reward to select an action is design and implemented. It reasons step-by-step internally but outputs only the final action. To ensure fair evaluation of the LLM agent, an opponent filtering mechanism is implemented, where the LLM is only tested against a selected pool of agents with varied but stable behaviors. This prevents high variance due to opponent unpredictability and allows consistent measurement of reasoning-based performance. The conducted simulation results are analyzed by strategy type, focusing on bluff/challenge success, consistency, and win rate. Action success rates and cumulative performance are included in the metrics. The analysis is conducted by comparing static (Random, State-dependent, Bayesian), learning-based (DQN), and reasoning-based (LLM) agents to determine how performance in uncertain, deceptive environments is influenced by adaptive decision-making. By comparing action decisions of the LLM agent with those of the other strategies, the effectiveness of LLM-driven recommendations is evaluated in the study. The simulation framework is contributed to for understanding how LLMs perform in strategic decision-making tasks where uncertainty and deception are key components.

Benzer Tezler

Tez No
896448
Evaluating zero-shot learning capabilities of vision-language models
Görme-dil modellerinin sıfır-örnekle öğrenme yeteneklerinin değerlendirilmesi
MUSTAFA DOĞAN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ERKUT ERDEM
Tez No
961756
Benchmarking generative ai in structured domains: A critical evaluation of LLM–RAG architectures for flight recommendations
Yapılandırılmış alanlarda üretken yapay zekanın kıyaslanması: Uçuş tavsiyeleri için LLM–RAG mimarilerinin eleştirel bir değerlendirmesi
TUQA RAHMAN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Büyük Veri ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ IBRAHEEM SHAYEA
DR. ÖĞR. ÜYESİ MERYEM UZUN-PER
Tez No
618417
Evaluating the performance of different continous vector representation methods for turkish words
Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi
GÖKHAN GÜLER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
948058
Üniversitelerin idari süreçlerini iyileştirmek için akıllı konuşma aracı geliştirme: Sakarya Üniversitesi vaka çalışması
Developing an intelligent conversational agent to improve administrative processes at universities: A case study of Sakarya University
KANAAN AL JAF
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEMİL ÖZ
Tez No
864136
Açık uçlu eşeksenel prob ile dielektrik spektroskopi için makine öğrenmesi temelli kestirim yöntemleri
Machine learning based estimation methods for dielectric spectroscopy with open-ended coaxial probe
MUSA ALPEREN YILMAZ
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ÇAYÖREN

Geri Dön