Comparative analysis of deep learning components on compressed domain action recogniton framework

Derin öğrenme bileşenlerinin sıkıştırılmış domen aktivite tanıma sistemi üzerinde karşılaştırmalı analizi

PDF İndir

Tez No: 730276
Yazar: HÜSEYİN ONUR YAĞAR
Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 69

Özet

Geride kalan 20 yıl içerisinde gelişen teknolojilerle birlikte dijital bilgilerin boyutları gittikçe artmaktadır. Günümüzde insanların dijital araçlar kullanarak elde ettikleri veri boyutu oldukça yüksektir. Bu bilgiler içerisinde farklı tipte veriler bulunmaktadır: Metin belgesi, görüntü, ses vb. Elde edilen verilerin elle işlenmesi şu an oldukça zor olsa da gelecekte imkansız hale gelmesi olasıdır. Bu sebeplerden ötürü verilerin işlenmesi sırasında otomatize edilmiş sistemlerin kullanımı gerekmektedir. Yapay zeka sistemleri, birçok veri türünün işlenmesi ve anlamlı kılınması için önemli bir otomatize araçtır. Görüntüler üzerinde farklı işlemler gerçekleştirilerek içerisindeki bilginin ortaya çıkartılmasına görüntü işleme denir. Görüntü işleme tek bir görüntü üzerinde yapılabileceği gibi video görüntüleri üzerinde de yapılabilir. Video görüntülerinde, tekli görüntülere ek olarak zaman bilgisi de bulunmaktadır. Zaman bilgisinden yola çıkarak görüntüler içerisinde bulunan nesnelerin hareket bilgileri hakkında bilgi sahibi olunabilir. Görüntüler üstünde işlem yaparak çözüm aranan hareket tanıma problemine aktivite tanıma denir. Aktivite tanıma, bilgisayarlı görü alanın önemli bir uğraş alanıdır. Aktivite tanıma sırasında kullanılan işlemler kullanılan yöntemlere göre farklılık göstermektedir. Geleneksel öznitelik çıkarma yöntemlerinin yanı sıra son zamanlarda Evrişimsel Sinir Ağları sıkça kullanılmaktadır. Evrişimsel Sinir Ağları, bilgisayarlı görü alanındaki görüntülerin sınıflandırılması, nesnelerin takibi, aktivite tanıma gibi problemlerin çözümü için oldukça etkilidir. Öznitelik çıkarma işlemi sırasında herhangi bir elle işlem yapılmamaktadır. Bütün işlem evrişimsel katman tarafından otomatize olarak gerçekleştirilmektedir. Ancak Evrişimsel Sinir Ağlarının çalışması sırasında gerçekleştirilen işlem sayısı oldukça yüksektir. Ayrıca bu sistemlerin düzgün sonuç verebilmesi için gereken eğitim yüksek sayıda ve etiketli veri gerektirmektedir. Veri işleme ham verilerin üzerinde yapılabileceği gibi sıkıştırılmış veriler üzerinde de gerçekleştirilebilir. Veri sıkıştırma yöntemlerinin en başarılı örneklerine video sıkıştırma tekniklerinde rastlanmaktadır. Video sıkıştırma işlemleri sonucunda videoların içerisinde bulunan tekrarlı bilgilerin ayıklanması ve videodan uzaklaştırılması sağlanır. Böylece sıkıştırma işlemi sonucunda yalın ve gerekli bilgi elde edilir. Aktivite tanıma problemi için ham videolar ve sıkıştırılmış videolar kullanılabilir. Sıkıştırılmış videolardan elde edilen veriler üzerinde aktivite tanıma işlemi daha hızlı ve etkili gerçekleşmektedir. Yukarıda bahsedilen bilgiler ve yöntemler ışığında sıkıştırılmış domen aktivite tanıma sistemi üzerinde aktivasyon fonksiyonları ve sinir ağların karşılaştırılması üzerine bir çalışma gerçekleştirilmiştir. Bu çalışmaya göre sistem üzerinde kullanılan temel sinir ağı yerine düşük maliyetli ve efektif çalışan bir sinir ağı arayışında bulunulmuştur. Farklı sinir ağları ile eğitimler gerçekleştirilmiştir. Elde edilen sonuçlar incelendiğinde sinir ağlarının birbirlerine göre üstünlükleri ve zayıflıkları görülür. ResNext sinir ağının parametre sayısı – eğitim başarısı verileri, temel sinir ağı ResNet'e göre yeterli seviyededir. Analiz çalışmalarının aktivasyon fonksiyonları üzerinde genişletilmesiyle farklı bir çalışma gerçekleştirilmiştir. Analiz sırasında 5 farklı aktivasyon fonksiyonu ile eğitim sağlanmış ve sonuçlar raporlanmıştır. Aktivasyon fonksiyonları arasında ReLU fonksiyon ailesine ait olanlar daha başarılı bir sonuç ortaya koymuştur.

Özet (Çeviri)

Size of digital information have been increasing with developing technologies in last two decades. Today, the size of data that people obtain by using digital tools is quite high. This data can be categorized to different branches: Text, sound, image etc. Although it was quite difficult to process the obtained data manually at the past, it becomes almost impossible at the moment. For these reasons, it is necessary to use automated systems during the processing of data. Artificial intelligence systems are important automated tools for processing data and extracting meaning from it. Extraction of the information in images by performing different operations on images is called image processing. Processing can be done on a single image or on video images. Video images contain time information in addition to single image. Based on the time information, it is possible to have knowledge about the motion information of the objects in the images. Understanding of a movement, motion in images by using some image processing operators is called activity recognition in computer vision field. The operators used during activity recognition differ according to the methods used. In addition to traditional feature extraction methods, Convolutional Neural Networks are frequently used recently. Convolutional Neural Networks are very effective for solving problems such as classification of images, tracking objects and activity recognition in computer vision. No manual operation is performed during the feature extraction process. The whole process is automated by the CNN. However, the number of operations performed during the process of CNN is quite high. In addition, the training required for these systems to give proper results requires a high number of labeled data. Data processing can be performed on raw data as well as on compressed data. The most successful examples of data compression methods can be found in video compression techniques. As a result of video compression processes, it is ensured that the repetitive information in the videos is extracted and removed from the video. Thus, as a result of the compression process, only necessary and simple information is obtained. Raw videos and compressed videos can be used for the activity recognition problem. Activity recognition on data obtained from compressed videos is faster and more effective. In the light of the information and methods mentioned above, a study was carried out on the comparison of activation functions and neural network types on the compressed domain activity recognition system. According to this study, a low cost but effective neural network was sought instead of the backbone neural network used on the system. Trainings were carried out with different neural networks. When the results were examined, the advantages and weaknesses of the neural networks relative to each other were seen. ResNeXt neural network's number of parameter - training success data was sufficient according to the backbone neural network ResNet. A different study was carried out by expanding the analysis studies on activation functions. During the analysis, trainings were conducted with 5 different activation functions and the results were reported. Among the activation functions, those belonging to the ReLU family of functions showed a more successful result.

Benzer Tezler

Tez No
831498
Comparative analysis of deep convolutional neural network models for classification of brain tumors
Beyin tümörlerinin sınıflandırılmasında derin evrişimli sinir ağı modellerinin karşılaştırmalı analizi.
OZAN AKHAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstinye Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞENOL PİŞKİN
Tez No
864101
A comparative study of deep learning approaches for autonomous vehicle control
Otonom araç kontrolü için ̇derin öğrenme yaklaşımlarının karşılaştırılması
EMRE ŞAHİN
Yüksek Lisans
İngilizce
2024
Mekatronik Mühendisliği İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLAY ÖKE GÜNEL
Tez No
959302
X-ray görüntülerinde gizlenmiş devre tespiti için yolo algoritmalarının karşılaştırmalı analizi
Comparative analysis of yolo algorithms for detecting hidden circuits in x-ray images
AYŞE AYBİLGE MURAT
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Konya Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA SERVET KIRAN
Tez No
956426
Dijital karbon ayak izinin optimizasyonu için uç cihazlarda yapay zeka ve makine öğrenmesi uygulamaları
Artificial intelligence and machine learning applications on edge devices for digital carbon footprint optimization
ÇAĞLAR ŞİMŞEK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATİH ÇALLI
Tez No
953724
Ağ trafiği tahmininde makine öğrenmesi algoritmalarının karşılaştırmalı analizi
A comparative analysis of machine learning algorithms on network traffic forecasting
BUSE DİLAN USLAN
Yüksek Lisans
Türkçe
2025
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ

Geri Dön