Tıbbi görüntülerde otomatik alt yazı üretimi
Automatic caption generation in medical images
- Tez No: 905937
- Danışmanlar: DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR, DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 90
Özet
Tıbbi görüntülerde otomatik alt yazılama, sağlık sektöründe kritik bir rol oynayan ve görüntülerin içeriğini açıklayan metinlerin otomatik olarak oluşturulması işlemidir. Bu teknoloji, erken teşhis, doğru tanı ve etkili tedavi, tıbbi eğitim, araştırma ve raporlama süreçleri için temel bir araç olarak kabul edilir. Ancak, cerrahi görüntülerde alt yazılama daha da karmaşıktır çünkü cerrahi prosedürlerin teknik detayları ve çeşitliliği, alt yazılama modellerinin daha hassas olmasını gerektirir. Bu alandaki araştırmalar sınırlı olup mevcut modellerin karmaşıklığı ve ağırlığı, pratik uygulamalarda zorluklar yaratmaktadır. Cerrahi görüntülerde alt yazılama alanındaki araştırmalar ve gelişmeler, daha etkili ve hafif modellerin geliştirilmesini mümkün kılarak teşhis ve tedavi süreçlerinin iyileştirilmesinde önemli bir adım olabilir. Bu tez çalışması, nefrektomi ameliyat görüntülerine otomatik altyazı eklemek için ilk olarak Dikkat Kodlayıcı-Kod Çözücü modeli geliştirmiştir. Farklı kodlayıcı (Inception, VGG, ResNet), kod çözücü (Uzun Kısa Süreli Bellek - LSTM, Geçitli Tekrarlayan Birimler - GRU) ve dikkat mekanizmalarının (Bahdanau ve Luong) modele etkisi incelenmiştir. Inception-v3 – Bahdanau dikkat - GRU tabanlı modelin 0.597 Bleu-1, 0.483 Bleu-4 ve 0.622 Rouge-L ile en iyi sonucu elde etmiş olsa da genel başarı düzeyi istenilen seviyede olmamış ve bazı kısıtlamaları bulunmuştur. Bu kısıtlamaları aşmak için daha etkili bir çözüm arayışıyla, özelleştirilmiş bir Karşılaştırmalı Dil-Görüntü Ön Eğitim (Contrastive Language-Image Pre-Training, CLIP) modeli geliştirilmiştir.“SurgicalClip”adını verdiğimiz modelimiz, görüntü kodlayıcı olarak VGG-19 ön eğitimli modelini ve metin kodlayıcı olarak ClinicalBert dil modelini kullanmaktadır. Ayrıca, SurgicBerta dil modeli ve ResNet, Inception ve VGG gibi çeşitli versiyonlar ve türevleriyle karşılaştırma yapılmış ve en iyi sonuçlar seçilmiştir. SurgicalClip modeli, Bleu-1'de 0.705, Bleu-4'te 0.512, CideR'de 3.62, Meteor'da 0.385 ve Rouge'da 0.66 değerlerine sahiptir. Bu değerler, literatürdeki mevcut çalışmalarla karşılaştırıldığında, daha hafif bir yapıya sahip olmasına rağmen benzer sonuçlar elde edildiğini göstermektedir. Bu model, cerrahi müdahalelerin daha iyi anlaşılmasını ve doktorların teşhis ve tedavi süreçlerini desteklemeyi hedefler. Ayrıca, modelin geliştirilmesi, tıp eğitiminde ve araştırmalarında kullanılan dijital araçların etkinliğini artırarak sağlık hizmetlerinin kalitesini artırabilir.
Özet (Çeviri)
Automatic captioning of medical images plays a critical role in the healthcare sector by automatically generating text that explains the content of the images. This technology is considered a fundamental tool for early diagnosis, accurate diagnosis, and effective treatment, medical education, research, and reporting. However, subtitling surgical images is even more complex because the technical details and variety of surgical procedures require more precise subtitling models. Research in this field is limited, and the complexity and weight of existing models pose challenges in practical applications. Advancements in research and development in subtitling surgical images can lead to the creation of more effective and lightweight models, which could significantly improve diagnostic and treatment processes. This thesis initially developed an attention encoder-decoder model to automatically subtitle nephrectomy surgery images. The impact of different encoders (Inception, VGG, and ResNet), decoders (Long Short-Term Memory (LSTM), Gated Recurrent Units (GRU)), and attention mechanisms (Bahdanau and Luong) on the model was examined. Although the Inception-v3 - Bahdanau attention - GRU-based model achieved the best results with 0.597 Bleu-1, 0.483 Bleu-4, and 0.622 Rouge-L, the overall success level was not as desired, and some limitations were identified. To overcome these limitations and in search of a more effective solution, a customized Contrastive Language-Image Pre-Training (CLIP) model was developed. Named“SurgicalClip,”our model uses the VGG-19 pre-trained model as the image encoder and the ClinicalBert language model as the text encoder. Additionally, comparisons were made with the SurgicBerta language model and various versions and derivatives such as ResNet, Inception, and VGG, and the best results were selected. The SurgicalClip model achieved 0.705 in Bleu-1, 0.512 in Bleu-4, 3.62 in CideR, 0.385 in Meteor, and 0.66 in Rouge. Compared to existing studies in the literature, these values indicate that similar results were obtained despite having a lighter structure. This model aims to improve the understanding of surgical interventions and support doctors in their diagnostic and treatment processes. Furthermore, the development of the model can enhance the effectiveness of digital tools used in medical education and research, thereby improving the quality of healthcare services.
Benzer Tezler
- Automatic bayesian segmentation of human facial tissue using 3D MR-CT fusion by incorporating models of measurement blurring, noise and partial volume
İnsan yüz dokularının bulanıklaşma, gürültü ve kismı hacim modelleri içeren bayesçi 3D MR-CT görüntü birleşmesi yöntemi kullanılarak otomatik bölütlenmesi
EMRE ŞENER
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiMühendislik Bilimleri Ana Bilim Dalı
DOÇ. DR. ERKAN MUMCUOĞLU
DOÇ. DR. UTKU KANOĞLU
- Automated processing and classification of medical thermal images
Medikal termal görüntülerin otomatik olarak işlenmesi ve sınıflandırılması
AHMET ÖZDİL
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BÜLENT YILMAZ
- Tıbbi görüntülerin uyarlanabilir bölge genişletme algoritması ile analizi
Analysis of medical images with adaptive region growing algorithm
MÜRSEL OZAN İNCETAŞ
Doktora
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiEndüstriyel Teknoloji Eğitimi Ana Bilim Dalı
PROF. DR. HÜSEYİN GÜÇLÜ YAVUZCAN
DOÇ. DR. RECEP DEMİRCİ
- Detection and classification of brain tumors in MRI images using deep convolutional neural network
Başlık çevirisi yok
HUSSEIN ALISMAEELI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
- Skin lesion classification with machine learning
Makine öğrenmesi ile cilt lezyonu sınıflandırması
ESRA SENDEL
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSA YILDIRIM