Geri Dön

Tıbbi görüntülerde otomatik alt yazı üretimi

Automatic caption generation in medical images

  1. Tez No: 905937
  2. Yazar: SEVDENUR KÜTÜK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR, DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Tıbbi görüntülerde otomatik alt yazılama, sağlık sektöründe kritik bir rol oynayan ve görüntülerin içeriğini açıklayan metinlerin otomatik olarak oluşturulması işlemidir. Bu teknoloji, erken teşhis, doğru tanı ve etkili tedavi, tıbbi eğitim, araştırma ve raporlama süreçleri için temel bir araç olarak kabul edilir. Ancak, cerrahi görüntülerde alt yazılama daha da karmaşıktır çünkü cerrahi prosedürlerin teknik detayları ve çeşitliliği, alt yazılama modellerinin daha hassas olmasını gerektirir. Bu alandaki araştırmalar sınırlı olup mevcut modellerin karmaşıklığı ve ağırlığı, pratik uygulamalarda zorluklar yaratmaktadır. Cerrahi görüntülerde alt yazılama alanındaki araştırmalar ve gelişmeler, daha etkili ve hafif modellerin geliştirilmesini mümkün kılarak teşhis ve tedavi süreçlerinin iyileştirilmesinde önemli bir adım olabilir. Bu tez çalışması, nefrektomi ameliyat görüntülerine otomatik altyazı eklemek için ilk olarak Dikkat Kodlayıcı-Kod Çözücü modeli geliştirmiştir. Farklı kodlayıcı (Inception, VGG, ResNet), kod çözücü (Uzun Kısa Süreli Bellek - LSTM, Geçitli Tekrarlayan Birimler - GRU) ve dikkat mekanizmalarının (Bahdanau ve Luong) modele etkisi incelenmiştir. Inception-v3 – Bahdanau dikkat - GRU tabanlı modelin 0.597 Bleu-1, 0.483 Bleu-4 ve 0.622 Rouge-L ile en iyi sonucu elde etmiş olsa da genel başarı düzeyi istenilen seviyede olmamış ve bazı kısıtlamaları bulunmuştur. Bu kısıtlamaları aşmak için daha etkili bir çözüm arayışıyla, özelleştirilmiş bir Karşılaştırmalı Dil-Görüntü Ön Eğitim (Contrastive Language-Image Pre-Training, CLIP) modeli geliştirilmiştir.“SurgicalClip”adını verdiğimiz modelimiz, görüntü kodlayıcı olarak VGG-19 ön eğitimli modelini ve metin kodlayıcı olarak ClinicalBert dil modelini kullanmaktadır. Ayrıca, SurgicBerta dil modeli ve ResNet, Inception ve VGG gibi çeşitli versiyonlar ve türevleriyle karşılaştırma yapılmış ve en iyi sonuçlar seçilmiştir. SurgicalClip modeli, Bleu-1'de 0.705, Bleu-4'te 0.512, CideR'de 3.62, Meteor'da 0.385 ve Rouge'da 0.66 değerlerine sahiptir. Bu değerler, literatürdeki mevcut çalışmalarla karşılaştırıldığında, daha hafif bir yapıya sahip olmasına rağmen benzer sonuçlar elde edildiğini göstermektedir. Bu model, cerrahi müdahalelerin daha iyi anlaşılmasını ve doktorların teşhis ve tedavi süreçlerini desteklemeyi hedefler. Ayrıca, modelin geliştirilmesi, tıp eğitiminde ve araştırmalarında kullanılan dijital araçların etkinliğini artırarak sağlık hizmetlerinin kalitesini artırabilir.

Özet (Çeviri)

Automatic captioning of medical images plays a critical role in the healthcare sector by automatically generating text that explains the content of the images. This technology is considered a fundamental tool for early diagnosis, accurate diagnosis, and effective treatment, medical education, research, and reporting. However, subtitling surgical images is even more complex because the technical details and variety of surgical procedures require more precise subtitling models. Research in this field is limited, and the complexity and weight of existing models pose challenges in practical applications. Advancements in research and development in subtitling surgical images can lead to the creation of more effective and lightweight models, which could significantly improve diagnostic and treatment processes. This thesis initially developed an attention encoder-decoder model to automatically subtitle nephrectomy surgery images. The impact of different encoders (Inception, VGG, and ResNet), decoders (Long Short-Term Memory (LSTM), Gated Recurrent Units (GRU)), and attention mechanisms (Bahdanau and Luong) on the model was examined. Although the Inception-v3 - Bahdanau attention - GRU-based model achieved the best results with 0.597 Bleu-1, 0.483 Bleu-4, and 0.622 Rouge-L, the overall success level was not as desired, and some limitations were identified. To overcome these limitations and in search of a more effective solution, a customized Contrastive Language-Image Pre-Training (CLIP) model was developed. Named“SurgicalClip,”our model uses the VGG-19 pre-trained model as the image encoder and the ClinicalBert language model as the text encoder. Additionally, comparisons were made with the SurgicBerta language model and various versions and derivatives such as ResNet, Inception, and VGG, and the best results were selected. The SurgicalClip model achieved 0.705 in Bleu-1, 0.512 in Bleu-4, 3.62 in CideR, 0.385 in Meteor, and 0.66 in Rouge. Compared to existing studies in the literature, these values indicate that similar results were obtained despite having a lighter structure. This model aims to improve the understanding of surgical interventions and support doctors in their diagnostic and treatment processes. Furthermore, the development of the model can enhance the effectiveness of digital tools used in medical education and research, thereby improving the quality of healthcare services.

Benzer Tezler

  1. Automatic bayesian segmentation of human facial tissue using 3D MR-CT fusion by incorporating models of measurement blurring, noise and partial volume

    İnsan yüz dokularının bulanıklaşma, gürültü ve kismı hacim modelleri içeren bayesçi 3D MR-CT görüntü birleşmesi yöntemi kullanılarak otomatik bölütlenmesi

    EMRE ŞENER

    Doktora

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Mühendislik Bilimleri Ana Bilim Dalı

    DOÇ. DR. ERKAN MUMCUOĞLU

    DOÇ. DR. UTKU KANOĞLU

  2. Automated processing and classification of medical thermal images

    Medikal termal görüntülerin otomatik olarak işlenmesi ve sınıflandırılması

    AHMET ÖZDİL

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BÜLENT YILMAZ

  3. Tıbbi görüntülerin uyarlanabilir bölge genişletme algoritması ile analizi

    Analysis of medical images with adaptive region growing algorithm

    MÜRSEL OZAN İNCETAŞ

    Doktora

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Endüstriyel Teknoloji Eğitimi Ana Bilim Dalı

    PROF. DR. HÜSEYİN GÜÇLÜ YAVUZCAN

    DOÇ. DR. RECEP DEMİRCİ

  4. Detection and classification of brain tumors in MRI images using deep convolutional neural network

    Başlık çevirisi yok

    HUSSEIN ALISMAEELI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    PROF. DR. OSMAN NURİ UÇAN

  5. Skin lesion classification with machine learning

    Makine öğrenmesi ile cilt lezyonu sınıflandırması

    ESRA SENDEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSA YILDIRIM