Investigation of vision transformers in medical image captioning using deep learning
Derin öğrenme kullanarak medikal görüntü açıklamada görüntü dönüştürücülerinin incelenmesi
- Tez No: 966180
- Danışmanlar: PROF. DR. BAHRİYE AKAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Konvolüsyonel görsel dönüştürücü, Hibrit derin öğrenme, Tıbbi görüntü açıklama, Çok modlu öğrenme, Convolutional vision transformer, Hybrid deep learning, Medical image captioning, Multimodal learning
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Derin Öğrenme tekniklerinin, özellikle bilgisayarla görme (CV) ve doğal dil işleme alanlarının kullanımı, büyük ölçekli tıbbi verilerin analizinde önemli ilerlemelere yol açmış; tanı, tedavi planlaması ve yönetim verimliliğini artırmıştır. Bu bağlamda, tıbbi görüntü açıklama (MIC), tıbbi görüntülerden klinik olarak doğru raporların otomatik olarak üretilmesini amaçlayan kritik bir araştırma alanı olarak ortaya çıkmıştır. MIC modellerinde, görsel kodlayıcı tarafında konvolüsyonel sinir ağları (CNN) ve dil çözücü tarafında transformer tabanlı modeller yaygın şekilde kullanılmakta olsa da, görsel özellik çıkarımı için Görsel Dönüştürücülerin (ViT) kullanımı sınırlı kalmıştır. Ayrıca, mevcut MIC çalışmalarının çoğu, konvolüsyonları görsel dönüştürücü mimarisine entegre eden hibrit yapıları büyük ölçüde göz ardı etmiştir. Bu çalışma, Konvolüsyonel Görsel Dönüştürücü (CvT) mimarisinin MIC görevlerine entegrasyonunu önermekte; konvolüsyonların yerel özellik çıkarım gücü ile transformer'ların küresel bağlam modelleme yeteneğini birleştirmeyi amaçlamaktadır. Amaç, CvT'nin üretilen tıbbi raporların kalitesini ve klinik anlamlılığını artırmadaki etkinliğini, çok modlu uyumluluğu ve ölçeklenebilirliği doğrultusunda değerlendirmektir. Bildiğimiz kadarıyla, bu çalışma tıbbi görüntü açıklama alanında konvolüsyon-transformer hibrit yöntemlerini inceleyen ilk girişimlerden biridir. Önerilen yaklaşım, IU X-Ray ve MIMIC-CXR adlı iki açık erişimli akciğer röntgeni veri kümesi üzerinde doğal dil işleme ve klinik etkinlik (CE) metrikleri kullanılarak değerlendirilmiştir. Sonuçlar, MIMIC-CXR üzerinde F1-skorda %7.9 ve Doğruluk (Precision) değerinde %8.3 artış ile CE performansında anlamlı iyileşmeler göstermektedir; bu da X-Ray görüntülerinden daha güçlü klinik özellik temsilinin elde edildiğini ortaya koymaktadır.
Özet (Çeviri)
The utilization of Deep Learning techniques, particularly computer vision (CV) and natural language processing, has led to significant advancements in the analysis of large-scale medical data, enhancing diagnosis, treatment planning, and management efficiency. In this context, medical image captioning (MIC) has emerged as a critical research area aimed at the automatic generation of clinically accurate reports from medical images. While convolutional neural networks (CNNs) and language transformers have been widely used in MIC models at the encoder and decoder sides respectively, the adoption of vision transformers (ViTs) for visual feature extraction remains limited. Moreover, existing MIC studies have largely overlooked hybrid architectures that introduce convolutions into the vision transformer architecture. This study proposes the integration of convolutional vision transformer (CvT) into MIC tasks, leveraging the local feature extraction strength of convolutions with the global context modeling capabilities of transformers. The objective is to evaluate the effectiveness of CvT in improving the quality and clinical relevance of generated medical reports through its multimodal compatibility and scalability. To the best of our knowledge, this represents one of the first attempts to explore convolution-transformer hybrid methods for medical image captioning. The proposed approach is evaluated on two public chest X-ray benchmark datasets, IU X-Ray and MIMIC-CXR, using natural language processing and clinical efficacy metrics (CE). The results demonstrate significantly improved CE results, with 7.9% and 8.3% increase in F1-score and Precision respectively on MIMIC-CXR, indicating better clinical feature representation from X-Ray images.
Benzer Tezler
- Otomatik avuç içi bölütlenmesinin gerçekleştirilmesinde farklı derin öğrenme modellerinin performanslarının incelenmesi
Investigation of the performances of different deep learning models in the implementation of automatic palm print segmentation
KADİR YALÇIN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGümüşhane ÜniversitesiYapay Zeka ve Akıllı Sistemler Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RAMAZAN ÖZGÜR DOĞAN
- Prediction of building resistance based on cracks and deficiencies using machine learning algorithms
Makine öğrenmesi algoritmaları kullanarak çatlaklar ve eksikliklere dayalı bina dayanımının tahmini
HESSAM KAVEH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medipol ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. REDA ALHAJJ
- On real-world face super-resolution and face image synthesis evaluation
Gerçek dünya yüz süper çözünürlüğü ve yüz görüntüsü sentezi değerlendirmesi üzerine
ERDİ SARITAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
- Investigation of infrared phosphorescence properties of chromium doped lanthanum gallogermanate phosphors sythesized by sol-gel method
Sol-gel yöntemi ile sentezlenen krom katkılı lantan galogermanat fosforlarının kızılötesi fosforesans özelliklerinin incelenmesi
BURCU CAN
Yüksek Lisans
İngilizce
2020
Metalurji Mühendisliğiİstanbul Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NURİ SOLAK
- Chenille ipliğinin bozukluklarının optoelektronik yöntemle incelenmesi
The investigation of the defects of chenille yarn by optoelectronic method
İHSAN SÜLE
Doktora
Türkçe
2007
Elektrik ve Elektronik MühendisliğiUludağ ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ELDAR MUSAYEV