Geri Dön

Göğüs kanseri sınıflandırmasında yenidenboyutlandırma ve aşırı örneklemenin etkisi

Effect of resize and oversampling on breast cancerclassification

  1. Tez No: 962941
  2. Yazar: ATAKAN GÖÇER
  3. Danışmanlar: DOÇ. DR. MUSTAFA ÖZGÜR CİNGİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Bursa Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Meme kanseri, kadınlarda yaygın bir hastalık olup erken evrede tanı konulduğunda sağkalımı anlamlı biçimde arttırmaktadır. Tanı süreci, biyopsiyle alınan doku kesitlerinin boyalarla renklendirilerek ışık mikroskobu altında incelenmesine dayanır. İncelenen kesit alanlarının, slayt tarayıcıları sayesinde dijital ortama aktarılması mümkündür: Cam lam, yüksek çözünürlüklü bir sensör tarafından satır taranır; tarama yazılımı bu satırları mozaikleyerek görüntüleri oluşturur ve patoloğun ekranda yakınlaştırma–kaydırma yapmasına olanak tanır. Bununla birlikte, tümör odaklarının mikrometre ölçeğinde dağılmış olması ve taranan alanın çok genişliği, manuel incelemeyi hem zaman alıcı kılar hem de gözden kaçırma riskini arttırmaktadır. Bu nedenle, patoloğu destekleyen, şüpheli odakları otomatik olarak tespit edip işaretleyebilen bilgisayar destekli tanı sistemlerine ihtiyaç doğmuştur. Günümüzde bu tanı sistemleri kullanılmakta ve sürekli gelişmektedir. Bu sistemlerin başarısı, veriye dayalı yöntemlerin, özellikle derin öğrenmenin, doğru biçimde eğitilmesine bağlıdır. Ancak histopatolojik görüntü kümelerinde genellikle kanser dışı örnekler kanserli örneklere göre çok daha fazla olduğu görülmektedir. Bu sınıf dengesizliği, derin modelleri çoğunluk sınıfını ezberlemeye yöneltmektedir; azınlık durumundaki tümör örneklerinin öğrenilmesi güçleşir ve yanlış kanserli hücre veri tespiti durumu artmış olur. Dahası, bu ham görüntüler giga piksel mertebesinde olabildiğinden, doğrudan model eğitiminde kullanıldıklarında bellek tüketimini yükseltir, işlem zamanını uzatır ve pratikte kullanımı güçleştirir. Dengesizliği azaltmak için aşırı yeniden örnekleme (Oversampling) yöntemleri, kanserli örnekleri yapay (sentetik) olarak çoğaltarak veri dağılımını dengelerken; yeniden boyutlandırma yöntemleri görüntüleri daha küçük ölçeklere indirerek eğitim süresini ve donanım gereksinimini makul düzeye çekmektedir. Ancak, aşırı örnekleme yanlış desenler ekleyebilir, yeniden boyutlandırma ise dokusal ayrıntıları yumuşatarak tanısal bilgide kayba yol açabilir. Bu tez kapsamında, söz konusu iki tekniği birlikte ele alarak bunların uygun kombinasyonlarla ne derece uyumlu çalıştığını ve doğru yapılandırıldığında model doğruluğunu ne ölçüde iyileştirebileceğini sistematik olarak araştırmayı amaçlamaktadır. Çalışma kapsamında açık erişimli göğüs kanseri (IDC) histopatolojik görüntü veri seti kullanılmıştır. Uzman patologlarca etiketlenmiş 50 × 50 piksellik görüntüler, altı farklı aşırı örnekleme stratejisi ve altı ayrı yeniden boyutlandırma tekniği kullanılarak dengeli alt kümeler oluşturulmuştur. Ek olarak, yalnızca yeniden boyutlandırma uygulanmış alt kümeler eklenerek toplamda 42 adet alt küme kullanılmıştır. Oluşturulan alt kümeler, bilindik olarak kullanılan evrişimsel sinir ağı mimarileri ile görüntü dönüştürücü tabanlı yaklaşımların uyarlanmış sürümleri aracılığıyla değerlendirilmiştir. Elde edilen bulgular, kanserli sınıfı sentetik olarak zenginleştirmenin modellerin doğruyu tespitleri öğrenme yeteneğini somut biçimde artırdığını; ayrıntıyı iyi koruyan pürüzsüz yeniden boyutlandırma çekirdekleriyle birleştiğinde bu kazanımın daha da güçlendiğini göstermiştir. Böylece, uygun veri dengeleme ve ölçekleme stratejilerinin bir arada uygulanmasıyla hem evrişimli ağlar hem de dönüştürücü tabanlı yaklaşımlar güvenilir ve pratik bir yardımcı tanı aracı sunma potansiyeline ulaşmıştır.

Özet (Çeviri)

Breast cancer is a common disease in women and when diagnosed at an early stage, survival increases significantly. The diagnostic process is based on the examination of tissue sections taken by biopsy by coloring them with dyes under a light microscope. It is possible to transfer the examined cross-sectional areas to a digital environment thanks to slide scanners: The glass slide is scanned line by line by a high-resolution sensor; the scanning software creates images by mosaicing these lines and allows the pathologist to zoom and scroll on the screen. However, the fact that tumor foci are distributed on a micrometer scale and the wide area scanned makes manual examination both time-consuming and increases the risk of missing. Therefore, there is a need for computer-aided diagnostic systems that can automatically detect and mark suspicious species, supporting the pathologist. Today, these diagnostic systems are used and are constantly evolving. The success of these systems depends on the correct training of data-based methods, especially deep learning. However, it is generally seen that non-cancerous samples are much more than cancerous samples in histopathological image sets. This class imbalance leads deep models to memorize the majority class; learning minority tumor samples becomes difficult and the possibility of incorrect cancer cell data detection increases. Moreover, since these raw images can be in the order of gigapixels, they increase memory consumption, increase processing time and make it difficult to use in practice when used directly in model training. To reduce the imbalance, oversampling methods balance the data distribution by artificially multiplying cancerous samples; while resizing methods reduce the training time and hardware requirements to a reasonable level by reducing the images to smaller scales. However, oversampling can add false patterns, and resizing can soften textural details, leading to loss of diagnostic information. This thesis aims to systematically investigate how compatible these two techniques are with each other and to what extent they can improve model accuracy when configured correctly. The open access breast cancer (IDC) histopathology dataset was used in the study. Balanced subsets were created using 50 × 50 pixel images labeled by expert pathologists, six different oversampling strategies, and six different resizing techniques. In addition, only resizing subsets were added, making a total of 42 subsets. The generated subsets were evaluated using widely adopted convolutional neural network architectures and adapted versions of the Vision Transformer-based models. The findings show that synthetically enriching the cancer class significantly increases the ability of the models to learn the correct detections; this gain is further strengthened when combined with smooth resizing kernels that preserve detail well. Thus, by applying appropriate data balancing and scaling strategies together, both convolutional networks and transform-based approaches have the potential to provide reliable and practical diagnostic aid.

Benzer Tezler

  1. Ağırlıklı çoklu sınıflandırıcı kullanarak biyolojik verilerin tahmini

    Prediction of biological data by using weighted ensemble classifiers

    TAYLAN İYİDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. TANSEL ÖZYER

  2. Küçük hücreli dışı akciğer kanseri nedeniyle pnömonektomi yapılan hastalarda gelişen postoperatif komplikasyonlarda preoperatif predispozan faktörlerin değerlendirilmesi

    Evaluation of preoperative predisposing factors in postoperative complications developing in patients undergoing pneumonectomy for non-small cell lung cancer

    MERAL SELİN ONAY MAHMUTİ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2025

    Göğüs CerrahisiSağlık Bilimleri Üniversitesi

    Göğüs Cerrahisi Ana Bilim Dalı

    PROF. DR. MUZAFFER METİN

  3. Identification of breast cancer sub-types by using machine learning techniques

    Makine öğrenmesi teknikleri kullanarak göğüs kanseri alt türlerinin tespit edilmesi

    YUNUS BURAKGAZİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    BiyoistatistikDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ZERRİN IŞIK

  4. T1 ve T2 akciğer adenokanserlerde prognostik faktörler

    The prognostic factors of T1 and T2 lung adenocarcinoma

    HUSEYIN MESTAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2020

    Göğüs Kalp ve Damar CerrahisiSağlık Bilimleri Üniversitesi

    Göğüs Cerrahisi Ana Bilim Dalı

    DOÇ. DR. ŞEYDA ÖRS KAYA