Comparative analysis of deep learning components on compressed domain action recogniton framework
Derin öğrenme bileşenlerinin sıkıştırılmış domen aktivite tanıma sistemi üzerinde karşılaştırmalı analizi
- Tez No: 730276
- Danışmanlar: PROF. DR. BEHÇET UĞUR TÖREYİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 69
Özet
Geride kalan 20 yıl içerisinde gelişen teknolojilerle birlikte dijital bilgilerin boyutları gittikçe artmaktadır. Günümüzde insanların dijital araçlar kullanarak elde ettikleri veri boyutu oldukça yüksektir. Bu bilgiler içerisinde farklı tipte veriler bulunmaktadır: Metin belgesi, görüntü, ses vb. Elde edilen verilerin elle işlenmesi şu an oldukça zor olsa da gelecekte imkansız hale gelmesi olasıdır. Bu sebeplerden ötürü verilerin işlenmesi sırasında otomatize edilmiş sistemlerin kullanımı gerekmektedir. Yapay zeka sistemleri, birçok veri türünün işlenmesi ve anlamlı kılınması için önemli bir otomatize araçtır. Görüntüler üzerinde farklı işlemler gerçekleştirilerek içerisindeki bilginin ortaya çıkartılmasına görüntü işleme denir. Görüntü işleme tek bir görüntü üzerinde yapılabileceği gibi video görüntüleri üzerinde de yapılabilir. Video görüntülerinde, tekli görüntülere ek olarak zaman bilgisi de bulunmaktadır. Zaman bilgisinden yola çıkarak görüntüler içerisinde bulunan nesnelerin hareket bilgileri hakkında bilgi sahibi olunabilir. Görüntüler üstünde işlem yaparak çözüm aranan hareket tanıma problemine aktivite tanıma denir. Aktivite tanıma, bilgisayarlı görü alanın önemli bir uğraş alanıdır. Aktivite tanıma sırasında kullanılan işlemler kullanılan yöntemlere göre farklılık göstermektedir. Geleneksel öznitelik çıkarma yöntemlerinin yanı sıra son zamanlarda Evrişimsel Sinir Ağları sıkça kullanılmaktadır. Evrişimsel Sinir Ağları, bilgisayarlı görü alanındaki görüntülerin sınıflandırılması, nesnelerin takibi, aktivite tanıma gibi problemlerin çözümü için oldukça etkilidir. Öznitelik çıkarma işlemi sırasında herhangi bir elle işlem yapılmamaktadır. Bütün işlem evrişimsel katman tarafından otomatize olarak gerçekleştirilmektedir. Ancak Evrişimsel Sinir Ağlarının çalışması sırasında gerçekleştirilen işlem sayısı oldukça yüksektir. Ayrıca bu sistemlerin düzgün sonuç verebilmesi için gereken eğitim yüksek sayıda ve etiketli veri gerektirmektedir. Veri işleme ham verilerin üzerinde yapılabileceği gibi sıkıştırılmış veriler üzerinde de gerçekleştirilebilir. Veri sıkıştırma yöntemlerinin en başarılı örneklerine video sıkıştırma tekniklerinde rastlanmaktadır. Video sıkıştırma işlemleri sonucunda videoların içerisinde bulunan tekrarlı bilgilerin ayıklanması ve videodan uzaklaştırılması sağlanır. Böylece sıkıştırma işlemi sonucunda yalın ve gerekli bilgi elde edilir. Aktivite tanıma problemi için ham videolar ve sıkıştırılmış videolar kullanılabilir. Sıkıştırılmış videolardan elde edilen veriler üzerinde aktivite tanıma işlemi daha hızlı ve etkili gerçekleşmektedir. Yukarıda bahsedilen bilgiler ve yöntemler ışığında sıkıştırılmış domen aktivite tanıma sistemi üzerinde aktivasyon fonksiyonları ve sinir ağların karşılaştırılması üzerine bir çalışma gerçekleştirilmiştir. Bu çalışmaya göre sistem üzerinde kullanılan temel sinir ağı yerine düşük maliyetli ve efektif çalışan bir sinir ağı arayışında bulunulmuştur. Farklı sinir ağları ile eğitimler gerçekleştirilmiştir. Elde edilen sonuçlar incelendiğinde sinir ağlarının birbirlerine göre üstünlükleri ve zayıflıkları görülür. ResNext sinir ağının parametre sayısı – eğitim başarısı verileri, temel sinir ağı ResNet'e göre yeterli seviyededir. Analiz çalışmalarının aktivasyon fonksiyonları üzerinde genişletilmesiyle farklı bir çalışma gerçekleştirilmiştir. Analiz sırasında 5 farklı aktivasyon fonksiyonu ile eğitim sağlanmış ve sonuçlar raporlanmıştır. Aktivasyon fonksiyonları arasında ReLU fonksiyon ailesine ait olanlar daha başarılı bir sonuç ortaya koymuştur.
Özet (Çeviri)
Size of digital information have been increasing with developing technologies in last two decades. Today, the size of data that people obtain by using digital tools is quite high. This data can be categorized to different branches: Text, sound, image etc. Although it was quite difficult to process the obtained data manually at the past, it becomes almost impossible at the moment. For these reasons, it is necessary to use automated systems during the processing of data. Artificial intelligence systems are important automated tools for processing data and extracting meaning from it. Extraction of the information in images by performing different operations on images is called image processing. Processing can be done on a single image or on video images. Video images contain time information in addition to single image. Based on the time information, it is possible to have knowledge about the motion information of the objects in the images. Understanding of a movement, motion in images by using some image processing operators is called activity recognition in computer vision field. The operators used during activity recognition differ according to the methods used. In addition to traditional feature extraction methods, Convolutional Neural Networks are frequently used recently. Convolutional Neural Networks are very effective for solving problems such as classification of images, tracking objects and activity recognition in computer vision. No manual operation is performed during the feature extraction process. The whole process is automated by the CNN. However, the number of operations performed during the process of CNN is quite high. In addition, the training required for these systems to give proper results requires a high number of labeled data. Data processing can be performed on raw data as well as on compressed data. The most successful examples of data compression methods can be found in video compression techniques. As a result of video compression processes, it is ensured that the repetitive information in the videos is extracted and removed from the video. Thus, as a result of the compression process, only necessary and simple information is obtained. Raw videos and compressed videos can be used for the activity recognition problem. Activity recognition on data obtained from compressed videos is faster and more effective. In the light of the information and methods mentioned above, a study was carried out on the comparison of activation functions and neural network types on the compressed domain activity recognition system. According to this study, a low cost but effective neural network was sought instead of the backbone neural network used on the system. Trainings were carried out with different neural networks. When the results were examined, the advantages and weaknesses of the neural networks relative to each other were seen. ResNeXt neural network's number of parameter - training success data was sufficient according to the backbone neural network ResNet. A different study was carried out by expanding the analysis studies on activation functions. During the analysis, trainings were conducted with 5 different activation functions and the results were reported. Among the activation functions, those belonging to the ReLU family of functions showed a more successful result.
Benzer Tezler
- Comparative analysis of deep convolutional neural network models for classification of brain tumors
Beyin tümörlerinin sınıflandırılmasında derin evrişimli sinir ağı modellerinin karşılaştırmalı analizi.
OZAN AKHAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstinye ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞENOL PİŞKİN
- A comparative study of deep learning approaches for autonomous vehicle control
Otonom araç kontrolü için ̇derin öğrenme yaklaşımlarının karşılaştırılması
EMRE ŞAHİN
Yüksek Lisans
İngilizce
2024
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLAY ÖKE GÜNEL
- Makine öğrenmesi tabanlı iç ortam sıcaklık kontrolü için bir simülatör yazılımı tasarımı
Design of a simulator software for machine learning-based indoor temperature control
AYDIN BOSTANCI
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
- Derin öğrenme ile elektronik bileşen tespiti
Electronic component detection with deep learning
İBRAHİM KAYA
Yüksek Lisans
Türkçe
2024
Bilim ve TeknolojiSamsun ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMEL SOYLU
- Design and deployment of deep learning based fuzzy logicsystems
Derin öğrenme tabanlı bulanık sistemlerin geliştirilmesi ve uygulanması
AYKUT BEKE
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR