Geri Dön

The Turkish lip reading using deep learning method

Derin öğrenme yöntemi ile Türkçe dudak okuma

  1. Tez No: 823892
  2. Yazar: ALİ BERKOL
  3. Danışmanlar: PROF. DR. HAMİT ERDEM
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

Otomatik dudak okuma, son yıllarda önemli ölçüde gelişen bir araştırma problemidir. Dudak okuma bazen görsel olarak, bazen de işitsel olarak değerlendirilmektedir. Güvenlik kamerasından istenmeyen bir kelimenin tespiti, görsel dudak okuma problemine bir örnektir. İlgili birimler sadece görüntü verilerinin olduğu durumlarda işitme-görsel veri setlerinden yararlanamazlar. Bu nedenle, tüm durumlarda ses girdisine sahip olmak mümkün değildir. Telaffuz edilen kelimenin ses girişini her zaman elde etmek mümkün değildir. Bu çalışmada yalnızca görüntü kullanılarak yeni bir Türkçe veri seti toplandı. Yeni veri seti, kontrolsüz bir ortam olan Youtube videoları kullanılarak oluşturulmuştur. Bu nedenle, görüntüler ışık, açı, renk ve yüzün kişisel özellikleri gibi çevresel faktörler açısından zor parametrelere sahiptir. Bıyık, sakal ve makyaj gibi farklı yüz özelliklerine rağmen, görsel konuşma tanıma problemi, veri üzerinde herhangi bir müdahale olmadan Konvolüsyonel Sinir Ağları (CNN) kullanılarak tek kelime ve iki kelime öbeklerini içeren 100 sınıfta geliştirilmiştir. Öte yandan çalışma geliştirilirken LSTM, BGRU ve Dilated CNN ile karşılaştırmalar yapılmıştır. Yalnızca görsel veri kullanılarak yapılan önerilen çalışma, derin öğrenme yaklaşımıyla otomatik görsel konuşma tanıma modeli elde etmiştir. Ayrıca, bu çalışma yalnızca görsel veri kullandığından çoklu modalite çalışmalarına göre hesaplama maliyeti ve kaynak kullanımı daha azdır. Ayrıca, Birleşik İmajlar Yönetimiyle, görüntü çerçevelerini tek bir büyük çerçeveye birleştirme işlemine dayandırarak klasik kesik yöntemle karşılaştırma yaptık. Ayrıca, bu çalışma, Ural-Altay dillerine ait yeni bir veri seti kullanarak derin öğrenme algoritmasıyla dudak okuma problemine yönelik yapılan ilk bilinen çalışmadır.

Özet (Çeviri)

Automated lip reading is a research problem that has developed considerably in recent years. Lip reading is evaluated both visually and audibly in some cases. Detecting an unwanted word from a security camera is an example of a visual lip-reading problem. Audio-visual datasets are not applicable where such image-only data is involved. Therefore, we may not have audio input in all cases. In certain cases, it is not feasible to obtain the audio input of the spoken word. In this study, we have gathered a novel Turkish dataset consisting solely of images. The dataset was generated using YouTube videos, which constitute an uncontrolled environment. Consequently, the images present challenging parameters with respect to environmental factors such as lighting conditions, angles, colors, and individual facial characteristics. Despite the variations in facial attributes like mustaches, beards, and makeup, the visual speech recognition problem was addressed using Convolutional Neural Networks (CNN) without making any modifications to the data. The problem was formulated with 10 classes, comprising single words and two-word phrases. While developing the study, comparisons were made with LSTM, BGRU, and Dilated CNN. The proposed study using only-visual data obtained a model which is automated visual speech recognition with a deep learning approach. In addition, since this study uses only-visual data, the computational cost and resource usage is less than in multi-modal studies. Also, we introduce introduced a novel approach called Concatenated Frame Images, which involved combining image frames into a single large frame. It is also the first known study to address the lip reading problem with a deep learning algorithm using a new dataset belonging to the Ural-Altaic languages.

Benzer Tezler

  1. Otomatik Türkçe dudak okuma için bilgisayarlı görü ve derin öğrenme modellerinin geliştirilmesi

    Development of computer vision and deep learning models for automatic Turkish lip reading

    FURKAN SABAZ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT ATİLA

  2. Derin öğrenme ile insan edimlerinin tanınması

    Human action recognition using deep learning

    TAYYİP ÖZCAN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER BAŞTÜRK

  3. Otomatik görüntü tabanlı dudak okuma yöntemi ile acil durum kelimelerinin tespiti

    Detection of emergency words with automatic image-based lip reading method

    BEYZA ÜLKÜMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKTO Karatay Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÖZTÜRK

  4. Dudak hareket özellikleri kullanılarak Türkçe kelimelerin sınıflandırılması.

    Classification of Turkish words by using lip motion features.

    ALPER YARGIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnadolu Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MUZAFFER DOĞAN

  5. Kaskad nesne algılama ve yapay sinir ağları yöntemleri ile dudak okuma

    Lip reading with cascade object detection and artificial neural networks methods

    MUHAMMED HALICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mekatronik MühendisliğiFırat Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CAFER BAL