Deep learning based Turkish video indexing and retrieval system
Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi
- Tez No: 767413
- Danışmanlar: DR. ÖĞR. ÜYESİ AKHTAR JAMIL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: İstanbul Sabahattin Zaim Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 162
Özet
Son zamanlarda el cihazlarının ve kişisel bilgisayarların teknolojik gelişimi, insanların ve robotların görüntüler ve videoları yakalayıp büyük ölçüde dijitalleştirilmiş biçimde paylaşılmasını sağlayarak dünyanın iletişim sistemini yeninden şekillendirmiştir. Pratikte, açıklama tabanlı video indeksleme ve bilgi erişim sistemleri günümüzde büyüyen multimedya içeriklerinin sürdürebilirliğini devam ettirmek amacıyla kullanılmaktadırlar. İlgili sistemler, metin notlarını kullanarak multimedya içeriğinin elde edilmesini sağlamaktadırlar, ancak ek açıklamaları tanımlamada sınırlıdırlar. Çevrimiçi multimedya içerikli kütüphanelerde, video yükleme işleminde videonun açıklaması manuel olarak gerçekleşmesi gerekmektedir. Bu durum, zaman gerektiren bir işlem olduğu gibi bazı durumlarda video açıklaması görsel içerik ile uyuşmamaktadır. Aynı zamanda, videolarda oluşacak eksik açıklamalar nedeniyle kullanıcıların arama yapma kapasitelerini sınırlamaktadır. Bu nedenle, verimli ve sofistike bir video indeksleme ve erişim sistemi gereklidir. Bu problemi çözüme kavuşturmak için, videolarda mevcut olan metinleri tespit ederek içerik tabanlı video indeksleme sistemi geliştirmek en uygun bir çözümdür. Bu tez çalışmasında, Türkçe videolar için otomatik ve verimli içerik tabanlı video indeksleme ve bilgi erişim sistemi oluşturmak amaçlı derin öğrenmeye dayalı yeni bir metin algılama sistemi geliştirilmektedir. Videolarda görünen metin, otomatik video indeksleme ve bilgi erişim sistemini geliştirmek için kullanılabilecek faydalı bilgiler sağlamaktadır. Dolayısıyla, bu çalışma otomatik metin algılama ve çıkarma işlemlerini gerçekleştirmek için Evrişimsel Sinir Ağlarından yararlanarak, sezgisel ve Derin Öğrenmeye dayalı yaklaşımları bütünleştirmektedir. Önerilen Evrişimsel Sinir Ağı tabanlı modeli eğitmek için, Haberler, finans ve iş, spor ve çizgi ile ilgili çeşitli Türk televizyon kanallarından videolar toplanarak yeni bir veri kümesi oluşturulmuştur. Oluşturulan veri seti, ilk aşamada önerilen modele özellik haritalarının elde edilmesi amacıyla beslenmektedir, devamında önerilen model görüntüyü metinsel veya metinsel olmayan sınıf olarak sınıflandırmaktadır. Evrişimsel katmanların farklı yapısal kombinasyonları ile kapsamlı deneyler yapıldıktan sonra önerilen üç modelden metni en doğru bir şekilde algılayabilen model elde edildi. Devamında, çıkarılan (elde edilen) metnin tanınması için Tesseract OCR'a beslenir, ve dosya depolama konumu gibi video bilgileri ile birlikte veri tabanında indekslenir. Son olarak, sorgulama amacıyla web tabanlı bir kullanıcı arayüzü geliştirilir. Her kullanıcı sorgusu için, önerilen sistem görüntü içinde görünen metin içeriğine göre en alakalı videoları kullanıcıya sunmaktadır. Buna ek olarak, sistem kullanıcın sorguladığı kelimeleri videonun hangi süreleri arasında geçtiğine dair bilgi vermektedir, dolayısıyla kullanıcı arama çubuğunu kullanarak doğrudan ilgi alanına gidebilir. Sunulan videoyu oynatmak, duraklatmak, büyütmek, küçültmek ve indirmek için ek ses ve kontrol çubuğu kontrolleriyle birlikte tüm temel işlevler sağlanmıştır. Ayrıca, Destek Vektör Makineleri ve Lojistik Regresyon gibi çeşitli geleneksel makine öğrenimi algoritmaları ve birkaç son teknoloji görüntü sınıflandırma modeli (VGG16, ResNet50 ve DenseNet121) aynı veri setiyle uygulanır ve eğitilir. Önerilen modeller, son teknoloji derin öğrenme modeleri ve makine öğrenimi sınıflandırıcılarından daha iyi performans göstermiştir.
Özet (Çeviri)
The continual technological advancement of handheld devices and personal computers over past few decades has reshaped the world's communication system by enabling the humans and robots to capture and share images and videos in digitized form at large. Practically, annotation-based video indexing and retrieval systems are widely being used to maintain the ongoing growth of multimedia content. These systems grant multimedia content retrieval using textual annotations, but are limited to predefined annotation/keywords. The online multimedia content libraries require manual annotation of video while uploading, which is a hectic and time-consuming assignment that sometimes even does not align with the visual content. This limits the searching capacity, as user may be unable to retrieve video because of incomplete video description at the time of annotation. Therefore, it strongly requires an efficient and sophisticated video indexing and retrieval system. To accomplish it, content-based video indexing is an optimal solution by detecting text appearing in videos. This dissertation demonstrates a new text detection system based on advance deep learning approach to bridge the gap by building an automatic and efficient content-based video indexing and retrieval system for Turkish videos. The text appearing in videos provides useful information that can be exploited for developing automatic video indexing and retrieval system. Therefore, this study integrates heuristic and deep learning-based approaches that utilizes CNN for automatic text detection and extraction. To train the proposed CNN-based model, a new dataset is generated by collecting videos from various Turkish channels related to News, financial and business, sports and cartoon channels. The dataset is fed to proposed model that first generates features maps and then classifies the image as textual or non-textual class. Extensive trails and experiments are carried out with different structural combination of convolutional layers, thus ended up with a best model out of three proposed models that can accurately detect the text. Next, the extracted text is fed to publicly available Tesseract OCR for recognition, which is then indexed in database along with video information such as file storage location. Lastly, a web-based user interface is provided for querying purposes. For each user query, the proposed system retrieved the most relevant videos based on its textual content appearing inside. Besides displaying the retrieved videos in provided user interface, the system also informs the user about the appearance time of queried words inside each retrieved video so that user can directly jump to the point of interest by using sleek bar. All basic functionalities are provided to play, pause, maximize, minimize, and download the retrieved video with additional controls for volume and sleek bar. Moreover, various conventional machine-learning algorithms such as SVM and LR, and few state-of-the-art image classification models (including VGG16, ResNet50 and DenseNet121) are also implemented and trained with identical datasets. The proposed models outperformed the prior state-of-the-art deep learning frameworks and machine learning classifiers.
Benzer Tezler
- Content-based image retrieval using deep learning and multidimensional indexing
Derin öğrenme ve çok boyutlu indeksleme kullanılarak içerik tabanlı görüntü alma
ÖMER UZEL
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERDAR ARSLAN
- Videolarda sahne geçişinin belirlenmesi ve sahne duygu analizi
Determination scene transition in videos and scene emotion analysis
NİHAL ÇETİN
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BURHAN ERGEN
- Mobil cihazlar ile derin öğrenme mimarisi kullanarak gerçek zamanlı video nesne izleme
Deep learning architectures for real-time video object tracking by mobile devices
ULAŞ TOSUN
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- Deep learning based dynamic turkish sign language recognition with leap motion
Derin öğrenme tabanlı leap motıon ile dinamik türk işaret dili tanıma
BURÇAK DEMİRCİOĞLU KAM
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HATİCE KÖSE
- Videodan derin öğrenme tabanlı duygu tanıma
Deep learning-based emotion recognition on video
ORHAN ATİLA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiElektrik-Elektronik Mühendisliği Teknolojileri Ana Bilim Dalı
PROF. DR. ABDULKADİR ŞENGÜR