Geri Dön

Optimizing medical dialogue systems with reinforcement learning from human feedback architectures

İnsan geri bildiriminden öğrenme mimarileriyle tıbbi diyalog sistemlerinin optimizasyonu

  1. Tez No: 934004
  2. Yazar: ABDUL REHMAN
  3. Danışmanlar: PROF. ALİ OKATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Pekiştirmeli Öğrenme, RLHF, GPT-2, Llama, Roberta, Tıbbi Diyalog Sistemleri, Proksimal Politika Optimizasyonu, LoRa, Kuantizasyon, Reinforcement Learning, RLHF, GPT-2, Llama, Roberta, Medical Dialogue Systems, Proximal Policy Optimization, LoRa, Quantization
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka ve Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 62

Özet

İnsan Geri Bildiriminden Öğrenme (Reinforcement Learning from Human Feedback- RLHF), büyük dil modellerini (LLM'ler) geliştirmek için temel bir yöntem haline gelmiştir ve özellikle tıbbi konuşma sistemleri gibi alanlara özgü ve kritik konularda insan tarafından tanımlanan tercihlerle uyum sağlamayı kolaylaştırmaktadır. Bu çalışma, tıbbi konuşma sistemlerini geliştirmek için İnsan Geri Bildiriminden Öğrenme (RLHF) kullanımını incelemekte ve iki belirli yapılandırmaya odaklanmaktadır: bir sınıflandırma tabanlı Roberta ödül modeli ile GPT-2 üretken modeli rehberliği ve daha küçük bir Llama3.2-1B üretken modeli ile birleştirilmiş Llama3.1-8B tabanlı ödül modeli. Çalışma ayrıca, sınıflandırma görevleri için tasarlanmış olan Roberta ile bağlamsal farkındalıkta üstün olan Llama3'ün RLHF aracılığıyla üretken çıktılar sağlama konusundaki karşılaştırmalı etkinliğini analiz etmektedir. Kabul edilen ve reddedilen yanıtları içeren çift yönlü konuşma veri seti, konuşma bütünlüğünü artırmak için ön işleme tabi tutulmuştur. Üstün eğitim veri kalitesini garanti etmek için konuşma dağılımı ve yanıt modelleri analiz edilmiştir. Her iki ödül modeli de 512 token sınırı ile eğitilmiştir. Bu nedenle, veri seti, 512-token sınırı uygulandığında hiçbir mesajın kesilmeyeceğinden emin olmak için filtrelenmiştir. Her iki ödül modeli de kabul edilen ve reddedilen yanıtların sınıflandırılmasında başarılı olmuştur. Ardından, RLHF hattı, ince ayar yapılmış ödül modelleriyle birleştirilerek Proksimal Politika Optimizasyonu (Proximal Policy Optimization - PPO) kullanılarak eğitilmiştir. RLHF hattındaki üretken modeller de 512 token bağlam sınırıyla yapılandırılmıştır, bu da her iki yapılandırmanın insan tercihleriyle daha iyi uyum sağlamasını sağlamıştır. Ödül ortalaması, politika kaybı, entropi azalması ve yanıt uzunluğu dağılımı gibi metrikler incelenmiştir. Eğitim sürecinin önemli kaynak gereksinimlerini hafifletmek için, parametre-verimli ince ayar (LoRA) ve kuantizasyon Llama hattına uygulanmıştır. Bulgular, Roberta'nın sınıflandırma yeteneğinin ödül sinyalini artırmasına rağmen, sınırlı bağlamsal farkındalığının GPT-2'nin ince ayarını olumsuz etkilediğini göstermektedir. Öte yandan, Llama tabanlı hat daha yüksek performans sergileyerek daha güvenilir ve bağlama uygun sonuçlar sunmaktadır. Bu çalışma, Proksimal Politika Optimizasyonu ile sınıflandırma tabanlı ödül modeli RLHF hatları ile bağlamsal farkındalık tabanlı ödül modeli RLHF hatları arasındaki ödünleşimleri vurgulamakta ve RLHF performansı üzerindeki etkilerine ilişkin içgörüler sunmaktadır. Bulgular, alanlara özgü LLM uygulamalarını geliştirmede mimari uyumun, veri seti bütünlüğünün ve etkili eğitim tekniklerinin önemini vurgulamaktadır.

Özet (Çeviri)

A method known as Reinforcement Learning from Human Feedback (RLHF) has been the widely adopted approach in improving large language models (LLMs) to achieve better alignment with human-specified values especially in special and sensitive fields including medical conversational application. This study examines the use of Reinforcement Learning from Human Feedback (RLHF) to enhance medical conversation systems, concentrating on two specific configurations: a classification-based Roberta reward model with a GPT-2 as the generative model counterpart as well as Llama3.1-8B as the reward model matched up with a Llama3.2-1B generative model. The study also compares the efficiency of Roberta, which is developed primarily for classification problems, and Llama3 with higher contextual understanding, in assisting in generative outcomes of RLHF. The accepted and rejected responses of the pair-wise dialogue dataset was further cleaned up in order to maintain the flow of the conversation. To ensure high quality training data, analyses of dialogue distribution and response patterns were made. We trained both reward models with the number of tokens not exceeding 512 in value. For this reason, we restricted the dataset so that no message could be cut off at 512 tokens when the limit was applied. Both reward models had high accuracy in discriminating between accepted and rejected responses in class. Then, both the RLHF pipeline along with the fine-tuned reward models were trained using Proximal Policy Optimization (PPO). The generative models used in the RLHF pipeline were also set to have a context size of 512 tokens, allowing both of these settings to be brought closer to human directions. Thus, analysis of behavior involved reward mean, policy loss, entropy shown in Fig 3, and response length distribution. To reduce the amount of resources needed for training, two techniques were implemented in the Llama pipeline: LoRA – parameter-efficient fine-tuning, and quantization. The studies show that while Roberta's categorization capacity improves the reward signal, a limited awareness of its context hinders the refinement of GPT-2. On the other hand, in the proposed framework based on Llamas, we can observe better scores which produce more accurate and semantically similar outputs. This work also presents the comparison between pipelines adopting classification-based reward model RLHF and pipelines adopting context-aware reward model RLHF with PPO to understand its performance effect on RLHF. The findings emphasize that architectural correlation, dataset purity, and effective training methodologies are indispensable to improving domain-focused LLM applications.

Benzer Tezler

  1. Optimizing automated medical dispensing cases through voice of customer

    Otomatik medikal saklama depolarının müşterinin sesi yoluyla optimizasyonu

    JÜLİDE NALLIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    HastanelerDokuz Eylül Üniversitesi

    İşletme (İngilizce) Ana Bilim Dalı

    DOÇ. DR. SABRİ ERDEM

  2. Veri madenciliği yöntemlerini kullanarak anemi sınıflandırılmasına yönelik bir uygulama

    Classification of anemia using data mining methods: An application

    BETÜL MERVE FAKI

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. BAŞAR ÖZTAYŞİ

  3. Optimizing the COVID-19 cold chain vaccine distribution network with medical waste management: A robust optimization approach

    COVID-19 soğuk zincir aşı dağıtım ağının tıbbi atık yönetimi ile optimize edilmesi: Bir sağlam optimizasyon yaklaşımı

    EYÜP ENSAR IŞIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Endüstri ve Endüstri MühendisliğiDokuz Eylül Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEYDA AYŞE TOPALOĞLU

  4. Optimizing the accuracy of tumor segmentation in PET for radiotherapy planning using blind deconvolution method

    Radyoterapi planlaması için PET tümör segmentasyon doğruluğunun kör dekonvolüsyon metodu ile optimize edilmesi

    ALPASLAN KOÇ

    Doktora

    İngilizce

    İngilizce

    2019

    Mühendislik BilimleriBoğaziçi Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALBERT GÜVENİŞ

  5. Normal ve oligospermik örneklerde belirli histokimyasal sıvıların sperm morfolojisi değerlendirmesi için optimize dozlarının floresan görüntüleme yoluyla araştırılması

    Optimizing the dosage of specific histochemical solutions of normal and oligospermic samples for sperm morphology evaluation under fleurasance imaging

    ÖZLEM ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Histoloji ve EmbriyolojiNecmettin Erbakan Üniversitesi

    Histoloji ve Embriyoloji Ana Bilim Dalı

    PROF. DR. T. MURAD AKTAN