Optimizing medical dialogue systems with reinforcement learning from human feedback architectures
İnsan geri bildiriminden öğrenme mimarileriyle tıbbi diyalog sistemlerinin optimizasyonu
- Tez No: 934004
- Danışmanlar: PROF. ALİ OKATAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Pekiştirmeli Öğrenme, RLHF, GPT-2, Llama, Roberta, Tıbbi Diyalog Sistemleri, Proksimal Politika Optimizasyonu, LoRa, Kuantizasyon, Reinforcement Learning, RLHF, GPT-2, Llama, Roberta, Medical Dialogue Systems, Proximal Policy Optimization, LoRa, Quantization
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Aydın Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 62
Özet
İnsan Geri Bildiriminden Öğrenme (Reinforcement Learning from Human Feedback- RLHF), büyük dil modellerini (LLM'ler) geliştirmek için temel bir yöntem haline gelmiştir ve özellikle tıbbi konuşma sistemleri gibi alanlara özgü ve kritik konularda insan tarafından tanımlanan tercihlerle uyum sağlamayı kolaylaştırmaktadır. Bu çalışma, tıbbi konuşma sistemlerini geliştirmek için İnsan Geri Bildiriminden Öğrenme (RLHF) kullanımını incelemekte ve iki belirli yapılandırmaya odaklanmaktadır: bir sınıflandırma tabanlı Roberta ödül modeli ile GPT-2 üretken modeli rehberliği ve daha küçük bir Llama3.2-1B üretken modeli ile birleştirilmiş Llama3.1-8B tabanlı ödül modeli. Çalışma ayrıca, sınıflandırma görevleri için tasarlanmış olan Roberta ile bağlamsal farkındalıkta üstün olan Llama3'ün RLHF aracılığıyla üretken çıktılar sağlama konusundaki karşılaştırmalı etkinliğini analiz etmektedir. Kabul edilen ve reddedilen yanıtları içeren çift yönlü konuşma veri seti, konuşma bütünlüğünü artırmak için ön işleme tabi tutulmuştur. Üstün eğitim veri kalitesini garanti etmek için konuşma dağılımı ve yanıt modelleri analiz edilmiştir. Her iki ödül modeli de 512 token sınırı ile eğitilmiştir. Bu nedenle, veri seti, 512-token sınırı uygulandığında hiçbir mesajın kesilmeyeceğinden emin olmak için filtrelenmiştir. Her iki ödül modeli de kabul edilen ve reddedilen yanıtların sınıflandırılmasında başarılı olmuştur. Ardından, RLHF hattı, ince ayar yapılmış ödül modelleriyle birleştirilerek Proksimal Politika Optimizasyonu (Proximal Policy Optimization - PPO) kullanılarak eğitilmiştir. RLHF hattındaki üretken modeller de 512 token bağlam sınırıyla yapılandırılmıştır, bu da her iki yapılandırmanın insan tercihleriyle daha iyi uyum sağlamasını sağlamıştır. Ödül ortalaması, politika kaybı, entropi azalması ve yanıt uzunluğu dağılımı gibi metrikler incelenmiştir. Eğitim sürecinin önemli kaynak gereksinimlerini hafifletmek için, parametre-verimli ince ayar (LoRA) ve kuantizasyon Llama hattına uygulanmıştır. Bulgular, Roberta'nın sınıflandırma yeteneğinin ödül sinyalini artırmasına rağmen, sınırlı bağlamsal farkındalığının GPT-2'nin ince ayarını olumsuz etkilediğini göstermektedir. Öte yandan, Llama tabanlı hat daha yüksek performans sergileyerek daha güvenilir ve bağlama uygun sonuçlar sunmaktadır. Bu çalışma, Proksimal Politika Optimizasyonu ile sınıflandırma tabanlı ödül modeli RLHF hatları ile bağlamsal farkındalık tabanlı ödül modeli RLHF hatları arasındaki ödünleşimleri vurgulamakta ve RLHF performansı üzerindeki etkilerine ilişkin içgörüler sunmaktadır. Bulgular, alanlara özgü LLM uygulamalarını geliştirmede mimari uyumun, veri seti bütünlüğünün ve etkili eğitim tekniklerinin önemini vurgulamaktadır.
Özet (Çeviri)
A method known as Reinforcement Learning from Human Feedback (RLHF) has been the widely adopted approach in improving large language models (LLMs) to achieve better alignment with human-specified values especially in special and sensitive fields including medical conversational application. This study examines the use of Reinforcement Learning from Human Feedback (RLHF) to enhance medical conversation systems, concentrating on two specific configurations: a classification-based Roberta reward model with a GPT-2 as the generative model counterpart as well as Llama3.1-8B as the reward model matched up with a Llama3.2-1B generative model. The study also compares the efficiency of Roberta, which is developed primarily for classification problems, and Llama3 with higher contextual understanding, in assisting in generative outcomes of RLHF. The accepted and rejected responses of the pair-wise dialogue dataset was further cleaned up in order to maintain the flow of the conversation. To ensure high quality training data, analyses of dialogue distribution and response patterns were made. We trained both reward models with the number of tokens not exceeding 512 in value. For this reason, we restricted the dataset so that no message could be cut off at 512 tokens when the limit was applied. Both reward models had high accuracy in discriminating between accepted and rejected responses in class. Then, both the RLHF pipeline along with the fine-tuned reward models were trained using Proximal Policy Optimization (PPO). The generative models used in the RLHF pipeline were also set to have a context size of 512 tokens, allowing both of these settings to be brought closer to human directions. Thus, analysis of behavior involved reward mean, policy loss, entropy shown in Fig 3, and response length distribution. To reduce the amount of resources needed for training, two techniques were implemented in the Llama pipeline: LoRA – parameter-efficient fine-tuning, and quantization. The studies show that while Roberta's categorization capacity improves the reward signal, a limited awareness of its context hinders the refinement of GPT-2. On the other hand, in the proposed framework based on Llamas, we can observe better scores which produce more accurate and semantically similar outputs. This work also presents the comparison between pipelines adopting classification-based reward model RLHF and pipelines adopting context-aware reward model RLHF with PPO to understand its performance effect on RLHF. The findings emphasize that architectural correlation, dataset purity, and effective training methodologies are indispensable to improving domain-focused LLM applications.
Benzer Tezler
- Optimizing automated medical dispensing cases through voice of customer
Otomatik medikal saklama depolarının müşterinin sesi yoluyla optimizasyonu
JÜLİDE NALLIOĞLU
Yüksek Lisans
İngilizce
2014
HastanelerDokuz Eylül Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
DOÇ. DR. SABRİ ERDEM
- Veri madenciliği yöntemlerini kullanarak anemi sınıflandırılmasına yönelik bir uygulama
Classification of anemia using data mining methods: An application
BETÜL MERVE FAKI
Yüksek Lisans
Türkçe
2015
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. BAŞAR ÖZTAYŞİ
- Optimizing the COVID-19 cold chain vaccine distribution network with medical waste management: A robust optimization approach
COVID-19 soğuk zincir aşı dağıtım ağının tıbbi atık yönetimi ile optimize edilmesi: Bir sağlam optimizasyon yaklaşımı
EYÜP ENSAR IŞIK
Yüksek Lisans
İngilizce
2021
Endüstri ve Endüstri MühendisliğiDokuz Eylül ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEYDA AYŞE TOPALOĞLU
- Optimizing the accuracy of tumor segmentation in PET for radiotherapy planning using blind deconvolution method
Radyoterapi planlaması için PET tümör segmentasyon doğruluğunun kör dekonvolüsyon metodu ile optimize edilmesi
ALPASLAN KOÇ
Doktora
İngilizce
2019
Mühendislik BilimleriBoğaziçi ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALBERT GÜVENİŞ
- Normal ve oligospermik örneklerde belirli histokimyasal sıvıların sperm morfolojisi değerlendirmesi için optimize dozlarının floresan görüntüleme yoluyla araştırılması
Optimizing the dosage of specific histochemical solutions of normal and oligospermic samples for sperm morphology evaluation under fleurasance imaging
ÖZLEM ŞAHİN
Yüksek Lisans
Türkçe
2013
Histoloji ve EmbriyolojiNecmettin Erbakan ÜniversitesiHistoloji ve Embriyoloji Ana Bilim Dalı
PROF. DR. T. MURAD AKTAN