Geri Dön

Otomatik görüntü tabanlı dudak okuma yöntemi ile acil durum kelimelerinin tespiti

Detection of emergency words with automatic image-based lip reading method

  1. Tez No: 851461
  2. Yazar: BEYZA ÜLKÜMEN
  3. Danışmanlar: DOÇ. DR. ALİ ÖZTÜRK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: KTO Karatay Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 67

Özet

Dudak okuma otomasyonu, konserler, mitingler, halk toplantıları gibi gürültülü ve büyük ölçekli etkinliklerde güvenliği sağlama veya artırma konusunda acil durum kelimelerini tespit ederek önemli bir rol oynayabilir. Bu çalışmada, kişinin dudak hareketlerinden acil durum kelimelerini otomatik olarak tespit etmek amaçlanmıştır. Bu hedefe ulaşmak için farklı 14 konuşmacı tarafından söylenen 8 acil durum kelimesinin bulunduğu sessiz video karelerinden çıkarılan görüntüler kullanılarak oluşturulmuş orijinal bir veri kümesi kullanıldı. Araştırma, 6 kadın ve 8 erkek konuşmacının katılımıyla gerçekleştirilmiş ve farklı cinsiyetlere, demografik özelliklere, yaş gruplarına ve kültürel arka planlara sahip konuşmacıları içermektedir. Veri kümesindeki videolardan elde edilen görüntülerin dudak bölgeleri ilgili bölge tespiti yoluyla etiketlendi. Etiketli veriler daha sonra SSD (Tek Vuruşlu Çoklu Kutu Dedektörü) derin öğrenme yöntemi kullanılarak değerlendirildi. Daha sonra, 8, 6 ve 4 sınıf içeren etiketli veri alt kümeleri oluşturuldu. SSD algoritması her bir alt küme için ayrı ayrı değerlendirildi. SSD algoritmasının eğitimi sırasında 'he,' 'glorot' ve 'narrow-normal' gibi ağırlık başlatma yöntemleri kullanıldı ve performansları karşılaştırıldı. Ayrıca, SSD algoritması için 20 ve 30 olmak üzere iki farklı maxepochs parametre değeri ile eğitildi. Sonuçlara göre, en yüksek doğruluk değeri 4 sınıf içeren alt küme için, 30 eğitim dönemi ve 'glorot' ağırlık başlatma yöntemi kullanılarak %76 doğruluk, %74 hassasiyet, %74.5 duyarlılık ve %74 F1 skoru elde edildi.

Özet (Çeviri)

The aim of this study is to automatically detect emergency words from lip movements of individuals in silent video frames, with a focus on enhancing security in noisy and large-scale events such as concerts, rallies, and public meetings. To achieve this goal, an original dataset was created using images extracted from silent video frames containing eight emergency words spoken by 14 different speakers. The research involved the participation of 6 female and 8 male speakers, encompassing diverse genders, demographic characteristics, age groups, and cultural backgrounds. Images obtained from the videos in the dataset were labeled with the relevant lip regions through a region-of-interest detection method. The labeled data was then evaluated using the Single Shot Multibox Detector (SSD) deep learning method. Subsequently, labeled subsets of data containing 8, 6, and 4 classes were created, and the SSD algorithm was assessed separately for each subset. During the training of the SSD algorithm, weight initialization methods such as 'he,' 'glorot,' and 'narrow-normal' were employed, and their performances were compared. Additionally, the SSD algorithm was trained with two different maxepochs parameter values, namely 20 and 30. According to the results, the highest accuracy value for the subset containing 4 classes was achieved with 30 training epochs and the 'glorot' weight initialization method, yielding 76% accuracy, 74% precision, 74.5% recall, and a 74% F1 score.

Benzer Tezler

  1. Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları

    New feature approaches based on spatial lip points in visual-based lip reading applications

    HAMDULLAH TUNG

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiBatman Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN TEKİN

  2. Otomatik Türkçe dudak okuma için bilgisayarlı görü ve derin öğrenme modellerinin geliştirilmesi

    Development of computer vision and deep learning models for automatic Turkish lip reading

    FURKAN SABAZ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT ATİLA

  3. İHA'lar için çok amaçlı android tabanlı yer kontrol istasyonu yazılımı geliştirme ve görüntü iyileştirme

    Multipurpose Android Based Ground Control Station Software for UAVs and Image Enhancement

    ZİYA ÖZÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Sivil HavacılıkErciyes Üniversitesi

    Sivil Havacılık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT ONAY

  4. Video based detection of driver fatigue

    Görüntü aracılığıyla sürücüde yorgunluğun sezimi

    ESRA VURAL

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    PROF. DR. AYTUL ERCİL

    YRD. DOÇ. DR. MUJDAT CETİN

  5. Modifiye edilmiş karınca aslanı optimizasyon algoritması kullanılarak bölge büyütme yöntemi ile gri seviye görüntü segmentasyonu

    Gray level image segmentation with region growing method using modified ant lion optimization algorithm

    BASHIR SHEIKH ABDULLAHI JAMA

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NURDAN BAYKAN