Görüntü dönüştürücüler kullanılarak retina hastalıklarının tespiti için federe öğrenme
Federated learning for retinal disease detection using vision transformers
- Tez No: 893463
- Danışmanlar: DOÇ. DR. ZEYNEP GARİP, DOÇ. DR. EKİN EKİNCİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Sakarya Uygulamalı Bilimler Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 87
Özet
Medikal verilerde gizlilik büyük bir önem taşımaktadır. Bu tez çalışmasında, optik koherens tomografi (OKT) görüntülerini sınıflandırmak için Federe Öğrenme (FL) teknikleri ve Görüntü Dönüştürücüler (ViTs) kullanılmıştır. Retina hastalıklarının erken teşhisi ve tedaviye hızlı yanıt verilmesi oftalmoloji alanında büyük önem taşır. OKT, retina hastalıklarının tanı ve takibinde kritik bir rol oynar, ancak medikal verilerin gizliliği ve güvenliği nedeniyle bu verilerin paylaşılması zor olabilir. Veri kümesi dört sınıfa ayrılmıştır: CNV, DRUSEN, DME ve NORMAL. Federe öğrenme modeli, iki istemci üzerinde lokal olarak eğitilmiş ve model güncellemeleri merkezi sunucuya FedAvg ve FedMedian stratejileriyle birlikte gönderilmiştir. Bu süreçte, veriler yerel cihazlarda kalmış ve sadece model ağırlıkları merkezi sunucuya aktarılmıştır, böylece veri gizliliği korunmuştur. Federe öğrenme, verilerin gizliliğini koruyarak merkezi olmayan bir makine öğrenimi yaklaşımı sunar. Bu yöntemde, veriler cihazlarda yerel olarak tutulur ve her cihaz kendi modelini eğitir. Eğitim süreci boyunca sadece model güncellemeleri (ağırlıklar) merkezi sunucuya gönderilir. Merkezi sunucu, bu güncellemeleri toplayarak belirlenen stratejiye göre global modeli oluşturur ve oluşturulan bu model global model daha sonra istemcilere geri gönderilir. Böylece, verilerin merkezi bir depoda toplanmasına gerek kalmadan büyük ve genelleştirilebilir modeller geliştirilebilir. Görüntü dönüştürücü (transformatörleri), doğal dil işleme alanında kullanılan dönüştürücü (transformer) mimarisinin görüntü işleme görevlerine uyarlanmış bir versiyonudur. Kullanılan modeller arasında Görüntü dönüştürücü (ViT), Token-to-Token ViT ve MobileViT bulunmaktadır. ViTs, görüntüleri küçük yamalara (patches) ayırarak her bir yamayı işlemek için kendine özgü dikkat (attention) mekanizmalarını kullanır. Bu yapı, evrişimli sinir ağlarına (CNN) kıyasla daha esnek ve güçlü bir model yapısı sunarak, görüntü işleme performansını artırır. Sonuç olarak, bu çalışma MobileViT modelinin FedAvg stratejisi altında %97,4 F1-skoru ve yüksek doğruluk oranı elde ederek, OKT görüntülerinin sınıflandırılmasında etkili olduğunu göstermiştir. Federe öğrenme ve Görüntü dönüştürücüleri kombinasyonu, medikal verilerin gizliliğini korurken yüksek performans sağlayarak, oftalmolojide erken teşhis ve hızlı tedavi yanıtlarını desteklemektedir. Çalışmamızda FedAvg ve FedMedian stratejileri kullanılmıştır. Ancak, en yüksek doğruluk FedAvg stratejisi ile elde edilmiştir
Özet (Çeviri)
Privacy of medical data is of utmost importance. In this thesis, Federated Learning (FL) techniques and Vision Transformers (ViTs) have been used to classify optical coherence tomography (OCT) images. Early diagnosis of retinal diseases and rapid response to treatment are crucial in the field of ophthalmology. OCT plays a critical role in the diagnosis and follow-up of retinal diseases, but the sharing of medical data can be challenging due to privacy and security concerns. The dataset is divided into four classes: CNV, DRUSEN, DME, and NORMAL. The federated learning model is trained locally on two clients, and model updates are sent to a central server using FedAvg and FedMedian strategies. During this process, the data remains on local devices, and only model weights are transferred to the central server, thereby preserving data privacy. Federated learning provides a decentralized machine learning approach while maintaining data privacy. In this method, data is kept locally on devices, and each device trains its own model. Throughout the training process, only model updates (weights) are sent to the central server. The central server aggregates these updates to form a global model, which is then sent back to the clients. This approach allows the development of large and generalizable models without the need to centralize the data. Vision transformers (ViTs) are an adaptation of the transformer architecture used in natural language processing for image processing tasks. The models used include Vision Transformer (ViT), Token-to-Token ViT, and MobileViT. ViTs divide images into small patches and use unique attention mechanisms to process each patch. This structure offers a more flexible and powerful model compared to convolutional neural networks (CNNs), enhancing image processing performance.As a result, this study demonstrated the effectiveness of the MobileViT model in classifying OCT images, achieving an F1-score of 97.4% and high accuracy under the FedAvg strategy. The combination of federated learning and vision transformers supports early diagnosis and rapid treatment responses in ophthalmology while ensuring the privacy of medical data. In our study, both FedAvg and FedMedian strategies were used. However, the highest accuracy was achieved with the FedAvg strategy.
Benzer Tezler
- Experimental investigation of the behavior of buried pipes under vertical loads
Gömülü boruların dikey yükler altında davranışlarının deneysel olarak incelenmesi
BARAN TULAN
Yüksek Lisans
İngilizce
2024
İnşaat MühendisliğiBoğaziçi Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZER ÇİNİCİOĞLU
DR. ÖĞR. ÜYESİ SELÇUK BİLDİK
- Application of image-based sensing methods in shake table experiments
Görüntü temelli ölçüm yöntemlerinin sarsma masası deneylerinde uygulamaları
FERİT YARDIMCI
Yüksek Lisans
İngilizce
2018
İnşaat MühendisliğiBoğaziçi Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET CEM YALÇIN
- Görüntü sınıflandırmada yineleyen derin ağ ve görü dönüştürücü modellerinin karşılaştırılması
Comparison of recurrent deep network and vision transformer models in image classification
OĞUZHAN BUBO
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURHAN BARAKLI
- Efficient deep learning approaches for signal and image analysis applications
Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları
ONUR CAN KOYUN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Çok düzeyli statik bellek gözesi ve kohonen türü yapay sinir ağına uygulanması
Multiple valued static storage cell and its application to kohonen type neural network
NURETTİN YAMAN ÖZELÇİ
Doktora
Türkçe
1999
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. UĞUR ÇİLİNGİROĞLU