A study in the implementation of convolutional neural network for image classification in frequency domain
Frekans alanında görüntü sınıflandırma için konvolüsyonel sinir ağlarının uygulanması
- Tez No: 894406
- Danışmanlar: DR. ÖĞR. ÜYESİ ERHAN GÖKÇAY, DR. ÖĞR. ÜYESİ HAKAN TORA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Atılım Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 59
Özet
Bu tezde, Evrişimsel Sinir Ağları (CNN'ler) son yıllarda çeşitli görüntü işleme ve bilgisayarlı görme görevlerinde dikkate değer başarılar elde etmiştir. Geleneksel CNN'ler doğrudan uzaysal alan görüntüleri üzerinde çalışır. Bununla birlikte, Hızlı Fourier Dönüşümü (FFT) yoluyla elde edilen görüntülerin frekans alanı gösterimi, piksel değerlerinin ilişkisizleştirilmesi ve hesaplama karmaşıklığında potansiyel azalma gibi benzersiz avantajlar sunar. Bu tez, görüntü sınıflandırmasını ve tanıma doğruluğunu artırmak için FFT ile dönüştürülmüş görüntülerin CNN algoritmalarına girdi olarak kullanılmasının etkilerini araştırmayı amaçlamaktadır. Araştırma, FFT'nin teorik temellerinin ve özelliklerinin kapsamlı bir incelemesiyle başlıyor. Daha sonra CNN'ler için ön işleme ardışık düzenlerinde FFT'nin entegrasyonunu araştırıyor. Giriş görüntülerini uzamsal alandan frekans alanına dönüştürerek, CNN'lerin en önemli frekans bileşenlerine odaklanarak daha verimli öğrenebileceğini, dolayısıyla yakınsama oranlarını ve genel performansı potansiyel olarak iyileştirebileceğini varsayıyoruz. Bunun etkinliğini değerlendirmek için CIFAR-10 (Kanada İleri Araştırma Enstitüsü), MNIST (Modifiye Ulusal Standartlar ve Teknoloji Enstitüsü)-Digits ve MNIST-Fashion dahil olmak üzere çeşitli kıyaslama veri setleri kullanılarak deneyler gerçekleştirildi. yaklaşmak. FFT ile dönüştürülmüş görüntüler çeşitli CNN mimarilerine beslendi ve sonuçlar, geleneksel uzaysal alan girdileri kullanılarak elde edilenlerle karşılaştırıldı. Sınıflandırma doğruluğu, eğitim süresi ve hesaplamalı kaynak kullanımı gibi ölçümler titizlikle analiz edildi. Sonuçlar, FFT tabanlı ön işlemenin, özellikle veri kümelerinin yüksek frekanslı gürültü veya gereksiz bilgi içerdiği senaryolarda, sınıflandırma doğruluğunda iyileştirmelere yol açabileceğini göstermektedir. Ancak faydaların farklı veri kümeleri ve ağ mimarileri arasında farklılık göstermesi, FFT ön işlemenin etkililiğinin bağlama bağlı olabileceğini düşündürmektedir. Sonuç olarak bu tez, FFT ön işlemesinin CNN iş akışlarına dahil edilmesinin görüntü işleme görevlerini geliştirme konusunda umut vaat ettiğini göstermektedir. Bulgular, hem uzaysal hem de frekans alanı bilgisinden yararlanan hibrit modellerin geliştirilmesi ve FFT tabanlı tekniklerin diğer sinir ağı türlerine ve makine öğrenimi algoritmalarına uygulanması da dahil olmak üzere gelecekteki araştırmalar için yollar önermektedir. Bu çalışma, bilgisayarlı görme alanını geliştirmek için frekans alanı analizinin derin öğrenme metodolojileriyle nasıl sinerjik olarak entegre edilebileceğinin daha geniş bir şekilde anlaşılmasına katkıda bulunmaktadır.
Özet (Çeviri)
In recent years, Convolutional Neural Networks (CNNs) have achieved remarkable success in various image processing and computer vision tasks. Traditional CNNs operate directly on spatial domain images. However, the frequency domain representation of images obtained through Fast Fourier Transform (FFT) offers unique advantages, such as decorrelation of pixel values and potential reduction in computational complexity. This thesis aims to investigate the effects of using FFT-transformed images as input to CNN algorithms to enhance image classification and recognition accuracy. The research begins with a comprehensive examination of the theoretical foundations and properties of FFT. It then explores the integration of FFT in preprocessing pipelines for CNNs. By converting input images from the spatial domain to the frequency domain, we hypothesize that CNNs can learn more efficiently by focusing on the most significant frequency components, thereby potentially improving convergence rates and overall performance. Experiments were con- ducted using various benchmark datasets, including CIFAR-10(Canadian Institute For Advanced Research), MNIST(Modified National Institute of Standards and Technology)-Digits, and MNIST-Fashion, to evaluate the efficacy of this approach. FFT-transformed images were fed into various CNN architectures, and the results were compared with those obtained using traditional spatial domain inputs. Metrics such as classification accuracy, training time, and computational resource utilization were meticulously analyzed. The results indicate that FFT-based preprocessing can lead to improvements in classification accuracy, particularly in scenarios where the datasets contain high-frequency noise or redundant information. However, the benefits varied across different datasets and network architectures, suggesting that the effectiveness of FFT preprocessing may be context dependent. In conclusion, this thesis demonstrates that incorporating FFT preprocessing into CNN work- flows holds promise for enhancing image processing tasks. The findings suggest avenues for future research, including the development of hybrid models that leverage both spatial and frequency domain information and the application of FFT-based techniques to other types of neural networks and machine learning algorithms. This study contributes to a broader understanding of how frequency domain analysis can be synergistically integrated with deep learning methodologies to advance the field of computer vision.
Benzer Tezler
- Medical image reasoning with the convolutional neural network - based fuzzy logic
Bulanık mantık temelli evrişimli sinir ağları ile medikal görüntü yorumlama
ESE AK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖNDER TUTSOY
- Görüntü sınıflandırması için evrişimsel sinir ağlarında parametrelerin sınıflandırma performansına etkisi
Effect of parameters on classification performance in convolutional neural networks for image classification
İBRAHİM AKSOY
Yüksek Lisans
Türkçe
2023
Yönetim Bilişim SistemleriAksaray ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. KEMAL ADEM
- Derin öğrenme algoritmaları kullanarak bir konuşma tanıma uygulaması
Speech recognition application using deep learning algorithms
HARUN KUTUCU
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH FERİKOĞLU
- Yapay zeka algoritmaları kullanılarak panoramik radyograflar üzerinden bireylerin diş yaşlarının tespiti
The determination of individuals' dental ages through panoramic radiographs using artificial intelligence algorithms
GÜLFEM ÖZLÜ UÇAN
Diş Hekimliği Uzmanlık
Türkçe
2023
Diş HekimliğiPamukkale ÜniversitesiAğız, Diş ve Çene Radyolojisi Ana Bilim Dalı
DOÇ. DR. BURAK KEREM APAYDIN
- Makine öğrenmesi yöntemleri kullanılarak diyarbakır içme suyu şebekesindeki yatay milli su pompası sesinden arıza tahmini
Fault prediction from horizontal national water pump sound in dyarbakir drinking water network using machine learning methods
İDRİS SAÇAKLIDIR
Yüksek Lisans
Türkçe
2024
Makine MühendisliğiBatman ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SAVAŞ KOÇ