Tıbbi görüntülerde otomatik alt yazı üretimi

Automatic caption generation in medical images

PDF İndir

Tez No: 905937
Yazar: SEVDENUR KÜTÜK
Danışmanlar: DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR, DR. ÖĞR. ÜYESİ DUYGU SARIKAYA
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 90

Özet

Tıbbi görüntülerde otomatik alt yazılama, sağlık sektöründe kritik bir rol oynayan ve görüntülerin içeriğini açıklayan metinlerin otomatik olarak oluşturulması işlemidir. Bu teknoloji, erken teşhis, doğru tanı ve etkili tedavi, tıbbi eğitim, araştırma ve raporlama süreçleri için temel bir araç olarak kabul edilir. Ancak, cerrahi görüntülerde alt yazılama daha da karmaşıktır çünkü cerrahi prosedürlerin teknik detayları ve çeşitliliği, alt yazılama modellerinin daha hassas olmasını gerektirir. Bu alandaki araştırmalar sınırlı olup mevcut modellerin karmaşıklığı ve ağırlığı, pratik uygulamalarda zorluklar yaratmaktadır. Cerrahi görüntülerde alt yazılama alanındaki araştırmalar ve gelişmeler, daha etkili ve hafif modellerin geliştirilmesini mümkün kılarak teşhis ve tedavi süreçlerinin iyileştirilmesinde önemli bir adım olabilir. Bu tez çalışması, nefrektomi ameliyat görüntülerine otomatik altyazı eklemek için ilk olarak Dikkat Kodlayıcı-Kod Çözücü modeli geliştirmiştir. Farklı kodlayıcı (Inception, VGG, ResNet), kod çözücü (Uzun Kısa Süreli Bellek - LSTM, Geçitli Tekrarlayan Birimler - GRU) ve dikkat mekanizmalarının (Bahdanau ve Luong) modele etkisi incelenmiştir. Inception-v3 – Bahdanau dikkat - GRU tabanlı modelin 0.597 Bleu-1, 0.483 Bleu-4 ve 0.622 Rouge-L ile en iyi sonucu elde etmiş olsa da genel başarı düzeyi istenilen seviyede olmamış ve bazı kısıtlamaları bulunmuştur. Bu kısıtlamaları aşmak için daha etkili bir çözüm arayışıyla, özelleştirilmiş bir Karşılaştırmalı Dil-Görüntü Ön Eğitim (Contrastive Language-Image Pre-Training, CLIP) modeli geliştirilmiştir.“SurgicalClip”adını verdiğimiz modelimiz, görüntü kodlayıcı olarak VGG-19 ön eğitimli modelini ve metin kodlayıcı olarak ClinicalBert dil modelini kullanmaktadır. Ayrıca, SurgicBerta dil modeli ve ResNet, Inception ve VGG gibi çeşitli versiyonlar ve türevleriyle karşılaştırma yapılmış ve en iyi sonuçlar seçilmiştir. SurgicalClip modeli, Bleu-1'de 0.705, Bleu-4'te 0.512, CideR'de 3.62, Meteor'da 0.385 ve Rouge'da 0.66 değerlerine sahiptir. Bu değerler, literatürdeki mevcut çalışmalarla karşılaştırıldığında, daha hafif bir yapıya sahip olmasına rağmen benzer sonuçlar elde edildiğini göstermektedir. Bu model, cerrahi müdahalelerin daha iyi anlaşılmasını ve doktorların teşhis ve tedavi süreçlerini desteklemeyi hedefler. Ayrıca, modelin geliştirilmesi, tıp eğitiminde ve araştırmalarında kullanılan dijital araçların etkinliğini artırarak sağlık hizmetlerinin kalitesini artırabilir.

Özet (Çeviri)

Automatic captioning of medical images plays a critical role in the healthcare sector by automatically generating text that explains the content of the images. This technology is considered a fundamental tool for early diagnosis, accurate diagnosis, and effective treatment, medical education, research, and reporting. However, subtitling surgical images is even more complex because the technical details and variety of surgical procedures require more precise subtitling models. Research in this field is limited, and the complexity and weight of existing models pose challenges in practical applications. Advancements in research and development in subtitling surgical images can lead to the creation of more effective and lightweight models, which could significantly improve diagnostic and treatment processes. This thesis initially developed an attention encoder-decoder model to automatically subtitle nephrectomy surgery images. The impact of different encoders (Inception, VGG, and ResNet), decoders (Long Short-Term Memory (LSTM), Gated Recurrent Units (GRU)), and attention mechanisms (Bahdanau and Luong) on the model was examined. Although the Inception-v3 - Bahdanau attention - GRU-based model achieved the best results with 0.597 Bleu-1, 0.483 Bleu-4, and 0.622 Rouge-L, the overall success level was not as desired, and some limitations were identified. To overcome these limitations and in search of a more effective solution, a customized Contrastive Language-Image Pre-Training (CLIP) model was developed. Named“SurgicalClip,”our model uses the VGG-19 pre-trained model as the image encoder and the ClinicalBert language model as the text encoder. Additionally, comparisons were made with the SurgicBerta language model and various versions and derivatives such as ResNet, Inception, and VGG, and the best results were selected. The SurgicalClip model achieved 0.705 in Bleu-1, 0.512 in Bleu-4, 3.62 in CideR, 0.385 in Meteor, and 0.66 in Rouge. Compared to existing studies in the literature, these values indicate that similar results were obtained despite having a lighter structure. This model aims to improve the understanding of surgical interventions and support doctors in their diagnostic and treatment processes. Furthermore, the development of the model can enhance the effectiveness of digital tools used in medical education and research, thereby improving the quality of healthcare services.

Benzer Tezler

Tez No
313784
Automatic bayesian segmentation of human facial tissue using 3D MR-CT fusion by incorporating models of measurement blurring, noise and partial volume
İnsan yüz dokularının bulanıklaşma, gürültü ve kismı hacim modelleri içeren bayesçi 3D MR-CT görüntü birleşmesi yöntemi kullanılarak otomatik bölütlenmesi
EMRE ŞENER
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Mühendislik Bilimleri Ana Bilim Dalı
DOÇ. DR. ERKAN MUMCUOĞLU
DOÇ. DR. UTKU KANOĞLU
Tez No
734647
Automated processing and classification of medical thermal images
Medikal termal görüntülerin otomatik olarak işlenmesi ve sınıflandırılması
AHMET ÖZDİL
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Abdullah Gül Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BÜLENT YILMAZ
Tez No
371593
Tıbbi görüntülerin uyarlanabilir bölge genişletme algoritması ile analizi
Analysis of medical images with adaptive region growing algorithm
MÜRSEL OZAN İNCETAŞ
Doktora
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Endüstriyel Teknoloji Eğitimi Ana Bilim Dalı
PROF. DR. HÜSEYİN GÜÇLÜ YAVUZCAN
DOÇ. DR. RECEP DEMİRCİ
Tez No
798419
Detection and classification of brain tumors in MRI images using deep convolutional neural network
Başlık çevirisi yok
HUSSEIN ALISMAEELI
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Bilişim Teknolojileri Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
Tez No
885432
1H-MRSI of the deep gray matter structures in patients with amyotrophic lateral sclerosis
Amyotrofik lateral skleroz hastalarında derin gri madde yapılarının multi voksel proton manyetik rezonans spektroskopisi
MERYEM TORLAK
Yüksek Lisans
İngilizce
2024
Biyomühendislik İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. İSA YILDIRIM
PROF. DR. ESİN ÖZTÜRK IŞIK

Geri Dön