Geri Dön

An efficient multi-neural network ensemble model for image classification

Görüntü sınıflandırması için verimli bir çoklu-sinir ağ topluluğu modeli

  1. Tez No: 961113
  2. Yazar: VELİ NAKÇİ
  3. Danışmanlar: PROF. DR. MUSTAFA ALTUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

Görüntü sınıflandırması, bir görüntünün içerdiği nesne ya da desenleri analiz ederek önceden tanımlanmış sınıflardan birine atanması sürecini ifade eder. Bu işlem, yapay zekâ ve özellikle derin öğrenme alanındaki gelişmelerin etkisiyle son yıllarda önemli bir ivme kazanmıştır. Görüntü sınıflandırma, bilgisayarlı görü disiplininin en temel problemlerinden biri olup, hem akademik araştırmalar hem de endüstriyel uygulamalar açısından kritik bir öneme sahiptir. Sağlık sektöründe hastalıkların otomatik teşhisi, güvenlik alanında yüz tanıma sistemleri, tarımda bitki hastalıklarının tespiti, otomotiv sektöründe otonom sürüş sistemleri ve üretim hatlarında kalite kontrol sistemleri gibi pek çok alanda görüntü sınıflandırma çözümlerine ihtiyaç duyulmaktadır. Derin öğrenme tabanlı yaklaşımlar sayesinde radyolojik görüntüler, patoloji slaytları ve diğer medikal görseller otomatik olarak analiz edilerek, insan uzmanlara kıyasla daha hızlı ve yüksek doğrulukla yorumlanabilmektedir. Böylece hekimlerin karar verme süreci desteklenmekte, tanısal hatalar azaltılmakta ve genel sağlık hizmeti kalitesi artırılmaktadır. Görüntü sınıflandırma problemlerinin çözümünde en çok tercih edilen mimarilerden biri, Evrişimsel Sinir Ağları (Convolutional Neural Networks – CNN) olmuştur. CNN'ler, görüntülerdeki öznitelikleri (örneğin kenarlar, köşeler, doku örüntüleri) hiyerarşik olarak öğrenerek sınıflandırma performansını önemli ölçüde artırmaktadır. Bu mimariler; filtreleme, havuzlama ve tam bağlantılı katmanlar gibi bileşenleri sayesinde görüntüden anlamlı özellik haritaları (feature maps) çıkartarak etkili bir öğrenme süreci sağlar. Ancak, her ne kadar CNN'ler güçlü öğrenme kapasitesine sahip olsalar da, tek bir CNN mimarisine dayalı modellerin genellenebilirliği çoğu zaman sınırlı kalabilmektedir. Özellikle farklı veri kümeleri arasında yapısal veya içeriksel farklılıklar bulunduğunda, bu modellerin doğruluk oranları önemli ölçüde düşebilmektedir. Ayrıca, yüksek doğruluk elde etmek için bu modellerin çok sayıda parametre içermesi, büyük miktarda eğitim verisi gerektirmesi ve uzun eğitim süreleri gibi bazı dezavantajları da bulunmaktadır. Bu zorlukların üstesinden gelmek için iki temel yaklaşım ön plana çıkmaktadır: topluluk (ensemble) öğrenme ve transfer öğrenmesi (transfer learning). Topluluk öğrenme, farklı mimari ve parametre yapılarına sahip birden fazla modelin çıktılarının birleştirilmesi yoluyla sınıflandırma performansının artırılmasını hedefler. Bu yöntem, bireysel modellerin hatalarını telafi ederek daha kararlı ve güvenilir sonuçlar elde edilmesine imkan sağlar. Transfer öğrenmesi ise, daha önce büyük ve kapsamlı veri kümelerinde eğitilmiş modellerin, benzer özellikler taşıyan başka görevlerde yeniden kullanılmasını sağlar. Bu yaklaşım, hem model eğitimi için gereken süreyi azaltır hem de sınırlı veriyle tatmin edici doğruluk seviyelerine ulaşılmasını mümkün kılar. Özellikle AlexNet, VGG16 ve DenseNet121 gibi önceden eğitilmiş CNN modelleri, transfer öğrenme süreçlerinde sıklıkla tercih edilmektedir. Bu modeller, ImageNet gibi büyük çaplı ve çeşitli veri kümelerinde eğitildikleri için, çok sayıda temel özniteliği öğrenmiş durumda olup, yeni görevlerde bu bilgiyi başarılı şekilde transfer edebilmektedirler. Özellikle AlexNet, VGG16 ve DenseNet121 gibi önceden eğitilmiş CNN modelleri, transfer öğrenme için sıkça tercih edilen modellerdir. Ancak bu modeller yüksek doğruluklara ulaşsa bile, bazı durumlarda eğitim süresi uzun ve donanım kaynakları açısından maliyetli olabilmektedir. Bu bağlamda, bu tez çalışmasının temel amacı yalnızca yüksek sınıflandırma doğruluğu elde etmek değil, aynı zamanda daha kısa sürede bu başarıya ulaşarak eğitim verimliliğini en yüksek seviyeye çıkarmaktır. Bu doğrultuda, görüntü sınıflandırma görevleri için beş farklı derin öğrenme mimarisini entegre eden topluluk temelli özgün bir model önerilmiştir. Önerilen modelde dört adet CNN tabanlı mimarinin yanı sıra bir adet çok katmanlı algılayıcı (Multilayer Perceptron – MLP) yer almaktadır. CNN mimarileri görüntüden öznitelik çıkarımı sağlarken, MLP tabanlı yapı sınıflandırma sürecine katkıda bulunmaktadır. Bu modellerin yanı sıra, sistemde bir de“yardımcı ağ”(auxiliary network) tanımlanmıştır. Yardımcı ağın temel amacı, modelin hatalı tahmin ettiği örnekleri tespit etmek ve sınıflandırma doğruluğunu artırmaya yönelik düzeltici geri bildirimler sunmaktır. Bu ağ, sistemin genel kararlılığını artırarak karar verme sürecinin daha sağlam ve güvenilir hale gelmesine katkı sağlar. Önerilen modelin performansı, görüntü sınıflandırma alanında yaygın olarak kullanılan CIFAR-10 veri kümesi üzerinde test edilmiştir. CIFAR-10, her biri 10 farklı sınıfa ait 32x32 boyutlarında toplam 60.000 renkli görüntüden oluşmaktadır. Eğitim ve test setleri dengeli şekilde düzenlenmiş olup, görüntü sınıflandırma algoritmalarının kıyaslanması için yaygın bir şekilde kullanılan veri kümesidir. Bu çalışmada önerilen modelin başarımı; sınıflandırma doğruluğu, eğitim süresi ve toplam parametre sayısı gibi temel ölçütler üzerinden değerlendirilmiştir. Elde edilen bulgular, önerilen modelin AlexNet, VGG16 ve DenseNet121 gibi önceden eğitilmiş modellerle karşılaştırıldığında daha üstün bir performans sergilediğini ortaya koymuştur. Örneğin, %80 doğruluk oranına ulaşmak için önerilen modelin ihtiyaç duyduğu eğitim süresi; AlexNet'in yalnızca %15,38'i, VGG16'nın %10'u ve DenseNet121'in %87,78'i kadardır. Ayrıca, önerilen model %85 ve %90 doğruluk seviyelerine ulaşabilirken, AlexNet ve VGG16 bu doğrulukları sağlayamamıştır. DenseNet121 modeli ise %87 doğruluk elde etmek için üç saatten fazla bir eğitim süresine ihtiyaç duyarken, önerilen model yalnızca 38,23 dakikada %90 doğruluk düzeyine erişebilmiştir. Bu veriler, önerilen modelin eğitim süresi açısından önemli ölçüde daha verimli olduğunu ve daha kısa sürede daha yüksek doğruluk elde edebildiğini göstermektedir. Sonuç olarak, bu tezde geliştirilen topluluk temelli derin öğrenme modeli, geleneksel transfer öğrenme yöntemlerine göre hem eğitim süresi açısından daha avantajlı hem de doğruluk açısından daha tatmin edici bir çözüm sunmaktadır. Modelin modüler yapısı, farklı mimarilerin bir arada çalışmasına imkan tanırken, yardımcı ağ bileşeni sayesinde modelin hata toleransı düşürülmüş ve genel sınıflandırma başarımı iyileştirilmiştir. Bu yönüyle önerilen yaklaşım, literatürdeki mevcut derin öğrenme tabanlı görüntü sınıflandırma çalışmalarına yenilikçi ve pratik bir katkı sunmaktadır. Ayrıca, bu model yapısı farklı veri kümelerine veya problem türlerine adapte edilebilecek esneklikte tasarlanmıştır ve gelecekte çeşitli alanlarda uygulanabilirliği yüksek bir çözüm olarak değerlendirilebilir.

Özet (Çeviri)

Image classification is an artificial intelligence (especially deep learning) technique used to classify an image into specific categories or classes. Today, it is one of the cornerstones of computer vision and is of vital importance in many fields. For example, categorizing with high accuracy medical images into disease classes enables more efficient and accurate diagnosis. To achieve high accuracy in image classification tasks has encouraged the development of methods such as CNN. In addition, some methods such as ensemble technique and Transfer Learning etc. are commonly used for this objective. However, while trying to achieve high accuracy, other important parameters such as training time must also be considered. Therefore, especially Transfer Learning method is widely applied in image classification to reduce training time and enhance model efficiency. Even though transfer learning with pre-trained models such as AlexNet, VGG16, and DenseNet121 is widely used, when using these models for some image dataset, it demands a great amount of training time to reach high accuracy. The objective in this thesis is not only to increase accuracy but also to reduce training time for image classication tasks. Hence, it is proposed a model for image classification that incorporates five deep learning architectures with an ensemble technique. The proposed model consists of one MLP-based network and four CNN-based networks where one of them is a network that we call the auxiliary network. The auxiliary network is designed to recognize misclassified images in order to increase the accuracy of the model. The proposed model is tested on an image dataset called CIFAR-10. Then, it is compared the performance of the proposed model with pre-trained structures such as AlexNet, VGG16, and DenseNet121 on taking into account training time, the number of parameters, and accuracy. The results show that the proposed model outperforms pre-trained models in terms of achieving high accuracies and requiring less training time on CIFAR-10 dataset. The proposed model requires 15,38%, %10, and %87.78 of the training time of Alexnet, VGG16 and DenseNet121 to achieve %80 accuracy., respectively. While the proposed model achieves 85% and 90% accuracy, AlexNet and VGG16 cannot. In addition, it achieves 90% accuracy in 38.23 min, whereas DenseNet121 – more efficient than the other two pre-trained models - only reaches 87% accuracy in over three hours.

Benzer Tezler

  1. Yapay zekâ-tabanlı hibrit anomali tespit ve klinik karar destek teknikleri ile kardiyovasküler hastalıkların ve COVİD-19'un otomatik tespiti

    Artificial intelligence-based hybrid anomaly detection and clinical decision support techniques for automated detection of cardiovascular diseases and COVİD-19

    MERVE BEGÜM TERZİ

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ORHAN ARIKAN

  2. CFRP plakalarda delaminasyon hasarının makina öğrenmesi ile tahmin edilmesi

    Predicting delamination failure in CFRP composite plates with machine learning algorithms

    AMMAR TARIK DİNÇER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA BAKKAL

  3. Multi-object tracking by associations on temporal window

    Geçici pencerede çağrışımlara dayalı çoklu nesne takibi

    GÜLTEKİN GÜNDÜZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TANKUT ACARMAN

  4. Forecasting of produced output electricity in photovoltaic power plants

    Foto-voltaik güç santrallarında elektrik üretim tahmini

    TARANEH SAADATI

    Doktora

    İngilizce

    İngilizce

    2025

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    DOÇ. DR. BURAK BARUTÇU

  5. Multi-product, multi-stage production planning model and decision support system suggestion for F&B industry

    Yiyecek içecek sektörü için çok ürünlü, çok aşamalı üretim planlamasına yönelik model ve karar destek sistemi önerisi

    GÜZİN TİRKEŞ

    Doktora

    İngilizce

    İngilizce

    2016

    Endüstri ve Endüstri MühendisliğiAtılım Üniversitesi

    Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı

    PROF. DR. NEŞE ÇELEBİ

    DOÇ. DR. MURAT KOYUNCU