Geri Dön

Investigation of vision transformers in medical image captioning using deep learning

Derin öğrenme kullanarak medikal görüntü açıklamada görüntü dönüştürücülerinin incelenmesi

  1. Tez No: 966180
  2. Yazar: WISAM RAMADAN
  3. Danışmanlar: PROF. DR. BAHRİYE AKAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Konvolüsyonel görsel dönüştürücü, Hibrit derin öğrenme, Tıbbi görüntü açıklama, Çok modlu öğrenme, Convolutional vision transformer, Hybrid deep learning, Medical image captioning, Multimodal learning
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

Derin Öğrenme tekniklerinin, özellikle bilgisayarla görme (CV) ve doğal dil işleme alanlarının kullanımı, büyük ölçekli tıbbi verilerin analizinde önemli ilerlemelere yol açmış; tanı, tedavi planlaması ve yönetim verimliliğini artırmıştır. Bu bağlamda, tıbbi görüntü açıklama (MIC), tıbbi görüntülerden klinik olarak doğru raporların otomatik olarak üretilmesini amaçlayan kritik bir araştırma alanı olarak ortaya çıkmıştır. MIC modellerinde, görsel kodlayıcı tarafında konvolüsyonel sinir ağları (CNN) ve dil çözücü tarafında transformer tabanlı modeller yaygın şekilde kullanılmakta olsa da, görsel özellik çıkarımı için Görsel Dönüştürücülerin (ViT) kullanımı sınırlı kalmıştır. Ayrıca, mevcut MIC çalışmalarının çoğu, konvolüsyonları görsel dönüştürücü mimarisine entegre eden hibrit yapıları büyük ölçüde göz ardı etmiştir. Bu çalışma, Konvolüsyonel Görsel Dönüştürücü (CvT) mimarisinin MIC görevlerine entegrasyonunu önermekte; konvolüsyonların yerel özellik çıkarım gücü ile transformer'ların küresel bağlam modelleme yeteneğini birleştirmeyi amaçlamaktadır. Amaç, CvT'nin üretilen tıbbi raporların kalitesini ve klinik anlamlılığını artırmadaki etkinliğini, çok modlu uyumluluğu ve ölçeklenebilirliği doğrultusunda değerlendirmektir. Bildiğimiz kadarıyla, bu çalışma tıbbi görüntü açıklama alanında konvolüsyon-transformer hibrit yöntemlerini inceleyen ilk girişimlerden biridir. Önerilen yaklaşım, IU X-Ray ve MIMIC-CXR adlı iki açık erişimli akciğer röntgeni veri kümesi üzerinde doğal dil işleme ve klinik etkinlik (CE) metrikleri kullanılarak değerlendirilmiştir. Sonuçlar, MIMIC-CXR üzerinde F1-skorda %7.9 ve Doğruluk (Precision) değerinde %8.3 artış ile CE performansında anlamlı iyileşmeler göstermektedir; bu da X-Ray görüntülerinden daha güçlü klinik özellik temsilinin elde edildiğini ortaya koymaktadır.

Özet (Çeviri)

The utilization of Deep Learning techniques, particularly computer vision (CV) and natural language processing, has led to significant advancements in the analysis of large-scale medical data, enhancing diagnosis, treatment planning, and management efficiency. In this context, medical image captioning (MIC) has emerged as a critical research area aimed at the automatic generation of clinically accurate reports from medical images. While convolutional neural networks (CNNs) and language transformers have been widely used in MIC models at the encoder and decoder sides respectively, the adoption of vision transformers (ViTs) for visual feature extraction remains limited. Moreover, existing MIC studies have largely overlooked hybrid architectures that introduce convolutions into the vision transformer architecture. This study proposes the integration of convolutional vision transformer (CvT) into MIC tasks, leveraging the local feature extraction strength of convolutions with the global context modeling capabilities of transformers. The objective is to evaluate the effectiveness of CvT in improving the quality and clinical relevance of generated medical reports through its multimodal compatibility and scalability. To the best of our knowledge, this represents one of the first attempts to explore convolution-transformer hybrid methods for medical image captioning. The proposed approach is evaluated on two public chest X-ray benchmark datasets, IU X-Ray and MIMIC-CXR, using natural language processing and clinical efficacy metrics (CE). The results demonstrate significantly improved CE results, with 7.9% and 8.3% increase in F1-score and Precision respectively on MIMIC-CXR, indicating better clinical feature representation from X-Ray images.

Benzer Tezler

  1. Otomatik avuç içi bölütlenmesinin gerçekleştirilmesinde farklı derin öğrenme modellerinin performanslarının incelenmesi

    Investigation of the performances of different deep learning models in the implementation of automatic palm print segmentation

    KADİR YALÇIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGümüşhane Üniversitesi

    Yapay Zeka ve Akıllı Sistemler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN ÖZGÜR DOĞAN

  2. Prediction of building resistance based on cracks and deficiencies using machine learning algorithms

    Makine öğrenmesi algoritmaları kullanarak çatlaklar ve eksikliklere dayalı bina dayanımının tahmini

    HESSAM KAVEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medipol Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. REDA ALHAJJ

  3. On real-world face super-resolution and face image synthesis evaluation

    Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine

    ERDİ SARITAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  4. Investigation of infrared phosphorescence properties of chromium doped lanthanum gallogermanate phosphors sythesized by sol-gel method

    Sol-gel yöntemi ile sentezlenen krom katkılı lantan galogermanat fosforlarının kızılötesi fosforesans özelliklerinin incelenmesi

    BURCU CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Metalurji Mühendisliğiİstanbul Teknik Üniversitesi

    Metalurji ve Malzeme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NURİ SOLAK

  5. Chenille ipliğinin bozukluklarının optoelektronik yöntemle incelenmesi

    The investigation of the defects of chenille yarn by optoelectronic method

    İHSAN SÜLE

    Doktora

    Türkçe

    Türkçe

    2007

    Elektrik ve Elektronik MühendisliğiUludağ Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ELDAR MUSAYEV