Geri Dön

Multimodal medical visual question answering: Knowledge spaces and semantic segmentation for improved and explainable AI

Çok-kipli tıbbi görsel soru cevaplama: Bilgi uzayları ve anlamsal bölütleme ile gelişmiş ve açıklanabilir yapay zekâ

  1. Tez No: 946030
  2. Yazar: ZİYA ATA YAZICI
  3. Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Bu tez çalışması, tıbbi görüntüler üzerinden doğal dilde sorulan sorulara yanıt üretebilen yapay zekâ sistemlerinin doğruluğunu ve açıklanabilirliğini artırmak amacıyla geliştirilmiş çok bileşenli bir yapay zekâ mimarisi sunmaktadır. Tıbbi Görsel Soru Cevaplama (VQA), özellikle radyoloji ve patoloji gibi uzmanlık gerektiren alanlarda, klinik karar süreçlerini desteklemek amacıyla kullanılabilecek güçlü bir teknolojidir, ancak bu alandaki mevcut yöntemler genellikle iki temel zayıflığa sahiptir: tıbbi bilgiler ile yeterince donatılmamış olmaları ve yanıtların nedenlerini kullanıcıya açıklayamamaları. Bu çalışma, söz konusu eksiklikleri gidermek adına bilgi temelli bir yapıyı, açıklanabilirliği sağlayan bir bölütleme modeliyle birlikte entegre eden yeni bir yaklaşım geliştirmiştir. Bu amaç doğrultusunda geliştirilen sistem üç ana bileşenden oluşmaktadır. İlk olarak, tıbbi terimler, tanımlar ve ilişkiler üzerine kurulu, çok kipli (metin ve görsel) bir bilgi uzayı oluşturulmuştur. Bu bilgi uzayı, Slake, VQA-RAD ve PathVQA adlı üç tıbbi VQA veri kümesi kullanılarak yapılandırılmıştır; veri kümelerinde bulunan her bir örnekte soru, cevap ve bu sorunun sorulduğu bir tıbbi görüntü yer almaktadır. Bu örneklerin eğitim veri kümesinde olanları üzerinden birkaç aşamalı bir işlem gerçekleştirilmiştir. Sorulan soruların yanıtının“evet”olması durumunda, soru cümlesinde bulunan terimler; açık uçlu bir yanıt olması durumunda ise yanıt üzerindeki terimler, ScispaCy aracıyla ayrıştırılmıştır. Bu terimlerin detaylandırılması ve bir bilgi ağının oluşturulması amacıyla Birleşik Tıbbi Dil Sistemi (UMLS) kullanılarak, tanımlar ve terimler arasındaki ilişkiler eklenmiştir. Metin temsilleri (terimler, ilişkiler ve tanımlar) PubMedBERT modeli ile, görsel temsiller ise BiomedCLIP ve GLIMS aracılığıyla elde edilmiştir. GLIMS modeli, sınıf içi görsellere ait ortak özniteliklerin çıkarılması aşamasında kullanılmıştır. Bilgi uzayı, sınıf dengesizliğini minimize eden ve çok kipli verilerin hizalanmasını sağlayan yeni bir yöntem olan BaMCo (Balanced Multimodal Contrastive Learning) ile ön-eğitilmiştir. BaMCo, görüntü ve metin çiftlerini aynı semantik sınıfa yakınsarken, farklı sınıfları birbirinden uzaklaştıran bir kayıp fonksiyonu kullanır; aynı zamanda sınıf içi örneklerin daha iyi temsil edilebilmesi için sınıf merkezlerini dikkate alan bir sınıflandırma dalı da içermektedir. Kullanılan veri türleri olarak, bilgi kümesindeki terimler, tanımlar ve terimler arasındaki ilişkiler, her bir terim ile bağlantılı olan görseller ve terimlere ait farklı görüntülerden elde edilen bir sınıf için öznitelikler bulunmaktadır. Yazı verisi, eğitim sırasında rastgele olacak şekilde terimin kendisi, terimlerin ilişkili olduğu diğer terimler ve tanımlar arasından seçilmektedir ve görüntü ile birlikte kullanılmaktadır. Ek olarak, sınıf içi görüntüler de kullanılarak, belirli bir terime ait olan görüntüler arasındaki ortak özniteliklerin de bilgi uzayının geliştirilmesine katkı sağlaması hedeflenmiştir. İkinci bileşen, bu bilgi uzayının entegre edildiği bilgi destekli bir VQA sistemidir. Sisteme bir tıbbi görüntü ve soru verildiğinde, önce bilgi uzayı üzerinden bu örneğe en uygun terim ve ilişkili sınıf içi görüntüler belirlenmektedir. Bu yöntem için, öznitelikleri çıkarılan girdi görüntüsünün en benzer olduğu terim belirlenir ve bu terime ait olan bir sınıf içi görüntü grubu seçilir. Daha sonra, görsel özellikler (BiomedCLIP, ViT), metinsel özellikler (PubMedBERT) ve sınıf içi örnek temsilleri (GLIMS) ile birlikte kodlanarak, bu bilgiler bir dil modeline, yapılandırılmış istem (prompt) aracılığıyla sunulmaktadır. Kullanılan dil modelleri arasında GPT-2 XL ve LLaMA 3.2'nin 1B ve 3B sürümleri yer almaktadır. Bu yapı sayesinde, model yalnızca soruyu yanıtlamakla kalmayıp, ilgili bilgi ve benzer örnekleri de dikkate alarak daha bağlamsal ve klinik olarak anlamlı sonuçlar üretebilmektedir. Üçüncü bileşen olarak, modelin açıklanabilirliğini artırmak için bölütleme tabanlı bir yardımcı görev entegre edilmiştir. MedSAM adı verilen bir bölütleme modeli, verilen cevaba karşılık gelen görüntü bölgesini tespit etmek amacıyla kullanılmıştır. Bu süreçte, geliştirilen VQA modelinin, verilen isteme göre yanıt oluşturması ve bölütleme probleminde kullanılmak üzere özel bir [SEG]“token”inin tahmin etmesi gerekmektedir. Tahmin edilen bölütleme“token”ine ait olan öznitelikler kullanılarak, MedSAM modelinde bulunan maske tahmini için kullanılan mimarinin yönlendirilmesi ve modelin hangi görsel bölgeleri dikkate alarak yanıt ürettiği belirlenmesi üzerinde çalışılmıştır. Bu sayede, kullanıcıya sadece yanıt verilmekle kalmayıp, aynı zamanda bu yanıtın görsel üzerinde hangi bölgeye ile bağlantısı olduğu da görsel olarak gösterilebilmiştir. Bu yaklaşım, özellikle klinik ortamlarda modelin güvenilirliğini artırmak adına önemli bir katkı sağlamaktadır. Geliştirilen sistem, üç farklı tıbbi VQA veri kümesi üzerinde kapsamlı biçimde test edilmiştir. Slake veri kümesinde model, %85.8 tam eşleşme doğruluk oranına ulaşmış ve bu sonuç alanına özgü ön-eğitilmiş büyük modellerle karşılaştırılabilir düzeyde performans göstermiştir. VQA-RAD veri kümesinde %76.7, PathVQA'da ise %60.0 doğruluk oranına ulaşılmıştır. Özellikle LLaMA 1B gibi küçük boyutlu modellerin bile bilgi destekli yapı sayesinde karşılaştırılabilir sonuçlar üretmesi, bilgi uzayı mimarisinin etkili olduğunu kanıtlamıştır. Bu sonuçlar, modelin yalnızca dil modelinin eğitildiği veri seti ile değil, bilgi entegrasyonu sayesinde performans artışı sağladığını göstermektedir. Tez kapsamında geliştirilen ve sınıf içi görüntülerin işlenmesinde kullanılan GLIMS modeli ise, hacimsel bölütleme problemi üzerinde olacak şekilde, BraTS2021 ve BTCV gibi hacimsel tıbbi görüntü veri kümelerinde değerlendirilmiştir. GLIMS mimarisi, bölütleme doğruluğunu artırırken aynı zamanda hesaplama maliyetini düşük tutmak üzere özel olarak tasarlanmıştır. Mimari, üç temel bileşen etrafında yapılandırılmıştır: evrişimsel ön işleme modülü, dönüştürücü tabanlı katmanlar ve çok ölçekli dikkat (multi-scale attention) mekanizması. İlk olarak, başlangıç seviyelerinde, özelliklerin çıkarımı için ayrık (dilated) evrişimli sinir ağı (CNN) katmanlarını kullanan bir modül ile girdi hacim üzerinde konumsal örüntüleri öğrenir. Ardından gelen dönüştürücü katman modülü, her bir ayrık CNN katmandan gelen çıktıları Swin Dönüştürücü bloklarıyla işleyerek modelin küresel bağlamsal ilişkileri modelin öğrenmesine olanak tanır. Bu bloklar, konumsal pencere tabanlı dikkat mekanizmaları ile çoklu ölçeklerde bilgi akışı sağlar. Son aşamada ise, çok ölçekli dikkat mekanizması, farklı seviyelerdeki özellik haritalarını birleştirerek sınırlı veri koşullarında bile bölütlemenin güçlü kalmasını sağlar. Bu bileşen, özellikle tıbbi görüntülerde sınıf ayrımı zor olan dokuların daha net ayrılmasını mümkün kılar. Modelin tüm bu yapısı, hem düşük parametre sayısıyla hızlı çalışmasını hem de klinik düzeyde güvenilir sonuçlar üretmesini sağlamaktadır. GLIMS'e uygulanan deneylerde, modelin her bir bileşeninin katkısı detaylı şekilde analiz edilmiştir. Swin Dönüştürücü katmanları çıkarıldığında genel performansta %2.3, çok ölçekli dikkat katmanları çıkarıldığında %1.9 oranında düşüş gözlemlenmiştir. Bu sonuçlara göre, modelin başarısı sadece temel yapıya değil, dikkat mekanizmalarının bütünsel olarak çalışmasına dayanmaktadır. Oluşturulan mimariler ile birlikte eğitimleri gerçekleştirilen Tıbbi VQA modelimizin, yapılan deneyler aracılığıyla her bileşenin katkısı detaylı olarak incelenmiştir. BaMCo kayıp fonksiyonunu kullanan modeller, BiomedCLIP gibi mevcut ön-eğitimli modellerle kıyaslandığında BLEU-1 skorunda %3.11, ROUGE-1 skorunda %3.65, BERTScore'da %0.16 ve genel VQA doğruluğunda %2.16 artış sağlamıştır. Bu artışlar, sadece yüzeysel doğru cevapların değil, aynı zamanda daha anlamsal ve bağlamsal olarak tutarlı cevapların da elde edildiğini göstermektedir. Ayrıca, bölütleme modülünün dahil edilmesi ile birlikte elde edilen görsel açıklamalar, klinisyenler için modelin karar mekanizmasını anlama açısından önemli faydalar sunmuştur. Bu bağlamda gerçekleştirilen bölütleme deneylerinde ise, MedSAM mimarisinin maske oluşturacak katmanlarına yönelik ince ayar gerçekleştirilmesi, verilen yanıtlara ek olarak tahmini gerçekleştirilen maskelerin ortalama olarak %62 Dice sonucuna ulaştığı görülmüştür. Görsel açıdan da tahmin ve beklenen çıktılar tez içeriğinde karşılaştırılmıştır. Sonuç olarak, bu tez çalışması, tıbbi VQA sistemlerinde bilgi temsili, açıklanabilirlik ve doğruluk açısından önemli katkılar sunan bütünleşik bir yapay zekâ mimarisi önermektedir. Geliştirilen sistem, yalnızca bilgi destekli yapı sayesinde dil modelinin performansını artırmakla kalmayıp, aynı zamanda açıklanabilirliğe odaklanarak modelin klinik güvenilirliğini de artırmaktadır. Tek bir A100 GPU üzerinde eğitilebilen bu yapı, ölçeklenebilirlik açısından da pratik faydalar sağlamaktadır. Geliştirilen sistem, ileriye dönük olarak, bilgi uzayının ek veri türleri ile daha gelişmiş bir şekilde optimizasyonu ile geliştirilebilir. Bu veriler hastalara ait klinik raporlar, laboratuvar sonuçları, zamansal bağlantısı bulunan veriler ile sağlanabilir. Son olarak, sistemin klinik kullanıcılar tarafından değerlendirilmesi amacıyla uzman hekimlerle iş birliği içinde yapılacak kullanıcı testleri, modelin pratikteki etkisini daha detaylı bir şekilde ortaya koyacaktır. Bu çalışma, yapay zekânın tıbbi alanda güvenilir, açıklanabilir ve etkili şekilde nasıl uygulanabileceğini gösteren güçlü bir örnek teşkil etmektedir.

Özet (Çeviri)

This thesis introduces a comprehensive framework aimed at advancing the performance and interpretability of Medical Visual Question Answering (VQA) systems. These systems are designed to automatically respond to clinically relevant questions based on medical images. Despite notable developments in the field, existing models often suffer from two critical limitations: a lack of structured, domain-specific knowledge for Large Language Models (LLMs) and limited explainability in the generated answers. To address these challenges, this research proposes a novel architecture that integrates multimodal knowledge space pretraining with a semantic segmentation-guided explainability module, offering improvements in both answer accuracy and interpretability. The proposed work comprises three core contributions. First, a multimodal knowledge space is constructed using data from the Slake, VQA-RAD, and PathVQA datasets. Biomedical entities and their interrelations are extracted using ScispaCy and the Unified Medical Language System (UMLS). These entities are embedded using PubMedBERT for textual features and BiomedCLIP alongside a custom-built volumetric image encoder (GLIMS) for visual features. A new Balanced Multimodal Contrastive (BaMCo) learning strategy is introduced to pretrain this knowledge space. BaMCo simultaneously optimizes a contrastive learning objective and a classification objective, promoting better alignment of semantically similar multimodal features while mitigating the impact of class imbalance, which is a common issue in medical datasets. Second, an intra-class image encoder, GLIMS, is proposed. It integrates dilated convolutions, Swin Transformer bottlenecks, and multi-scale attention mechanisms. Since volumetric image encoders are widely used on semantic segmentation tasks, GLIMS is tested on the BraTS2021 and BTCV datasets for glioblastoma and multi-organ segmentation, respectively. In both cases, the model outperforms existing architectures, including Swin UNETR, TransBTS, and nnU-Net, particularly in Dice score metrics by 92.14% and 84.50% in terms of datasets, respectively. Third, a knowledge-enhanced Medical VQA system is developed. This system retrieves relevant entities and intra-class image features, by GLIMS, from the pretrained knowledge space and integrates them into the input prompt for a transformer-based language model, such as LLaMA 3.2 or GPT-2 XL. This enriched prompt allows the language model to generate answers that are more contextually informed and clinically relevant, without requiring extensive in-domain pretraining. The use of intra-class images further enhances the model's ability to generalize across similar cases, providing additional visual grounding during inference. Finally, an explainability mechanism is introduced through a semantic segmentation task. The MedSAM model is employed to produce segmentation maps that highlight the regions of the input image most relevant to the generated answer. This auxiliary task, guided by a dedicated segmentation token ([SEG]), enables the model to provide spatial explanations alongside textual responses, offering transparency that is vital for clinical acceptance. The proposed methods are validated on three benchmark Medical VQA datasets. The model achieves an exact match accuracy of 85.8% on the Slake dataset, outperforming or matching several state-of-the-art models that rely on extensive domain-specific pretraining. On VQA-RAD and PathVQA, the model achieves 76.7% and 60.0% accuracy, respectively. These results demonstrate the effectiveness of the knowledge space and its ability to enhance performance across diverse medical imaging domains. Smaller models, such as LLaMA 1B, also perform competitively, emphasizing the value of the knowledge-driven approach even when computational resources are limited. Furthermore, the qualitative assessments indicate that the segmentation maps generated during VQA inference accurately highlight clinically significant regions, enhancing the interpretability of the model's decisions. The quantitative results indicate that when the LLaMA 3B model is trained together with the VQA and segmentation tasks, the segmentation branch achieves a Dice Score of 62%. In terms of the ablation studies, it is shown that the BaMCo loss significantly improves both alignment and answer quality. Compared to baseline methods, the proposed system achieves improvements of 3.11% in BLEU-1, 3.65% in ROUGE-1, 0.16% in BERTScore, and 2.16% in overall VQA accuracy. These findings validate the architectural design and the complementary roles of knowledge space pretraining and segmentation-based explanation. In conclusion, the thesis demonstrates that the integration of structured multimodal knowledge and explainability mechanisms leads to substantial improvements in both the accuracy and transparency of Medical VQA systems. The proposed architecture enables general-purpose language models to perform specialized medical reasoning tasks without heavy reliance on domain-specific pretraining, and the addition of segmentation maps provides visual justifications essential for clinical use. Future studies can work on developing better models with patient clinical reports, laboratory results, and temporally related data. Finally, user tests to be conducted in collaboration with specialist physicians to evaluate the system by clinical users will reveal the practical impact of the model in more detail.

Benzer Tezler

  1. Akıl ve akıl dışılık dikotomisinde damgalamanın görünümleri: 2000 ve sonrası popüler Türk sinemasında delilik temsilleri

    Views of stigmatization in mind and out of mind dichotomy: Madness representations in popular Turkish cinema in and after 2000

    YEŞİM ARGIN

    Doktora

    Türkçe

    Türkçe

    2023

    Sahne ve Görüntü SanatlarıFırat Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEVAHİR SİNAN ALTUNDAĞ

  2. Fırat Üniversitesi Hastanesi Algoloji Kliniğine başvuran hastaların demografik özellikleri, tanı ve tedavilerinin değerlendirilmesi

    Evaluation of demographic characteristics, diagnosis and treatment of patients admitted to Fırat University Hospital Algology Clinic

    NECAT ELPEZE

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Anestezi ve ReanimasyonFırat Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    DOÇ. DR. SİBEL ÖZCAN

  3. Investigation of vision transformers in medical image captioning using deep learning

    Derin öğrenme kullanarak medikal görüntü açıklamada görüntü dönüştürücülerinin incelenmesi

    WISAM RAMADAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BAHRİYE AKAY

  4. Laparoskopik kolesistektomilerde çok yönlü analjezi uygulamasının postoperatif ağrı, kan gazları ve bulantı kusma üzerine etkileri

    Effects of multimodal analgesia application on postoperative pain blood gas analysis and nausea and vomiting in laparoscopic cholecystectomies

    ALİ KORDİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2001

    Anestezi ve Reanimasyonİstanbul Üniversitesi

    Anesteziyoloji ve Reanimasyon Ana Bilim Dalı

    DOÇ.DR. YALIM DİKMEN