Geri Dön

Derin öğrenme mimarileri kullanılarak dudak okuma ile konuşma tanıma sistemi tasarlanması

Designing a speech recognition system with lip reading using deep learning architectures

  1. Tez No: 917093
  2. Yazar: ALİ ERBEY
  3. Danışmanlar: PROF. DR. NECAATTİN BARIŞÇI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 108

Özet

Dudak okuma, konuşmacının dudak hareketlerini izleyerek söylenen kelimelerin anlaşılmasını sağlayan önemli bir iletişim yöntemidir. Yüksek düzeyde görsel algı ve dikkat gerektirdiğinden karmaşık bir beceri olarak kabul edilmektedir. Bu çalışma, derin öğrenme yöntemlerini kullanarak Türkçe dudak okuma sistemi geliştirmeyi ve dilin yapısal özelliklerine uygun modeller tasarlamayı amaçlamaktadır. Bu amaç doğrultusunda iki farklı veri seti toplanmıştır. İlk veri seti rakamları içermekte ikinci veri seti kelimeleri içermektedir. Deneysel çalışmalarda ESA (Evrişimsel Sinir Ağları), UKSB (Uzun Kısa Süreli Bellek), 3BESA (3 Boyutlu Evrişimsel Sinir Ağları) yapılarından I3D (Inflated 3D CNN), C3D (Convolutional 3DCNN) ve P3D (Pseudo-3D Residual Network) ile topluluk öğrenmesi modelleri üzerinde eğitimler gerçekleştirilmiştir. UKSB modelleri zamansal veriyi işlemekte etkili olsa da hem mekânsal hem de zamansal bilgiyi işleyebilen 3BESA tabanlı modeller daha yüksek doğruluk oranlarına ulaşmıştır. Rakam veri seti üzerinde yapılan deneysel çalışmalarda ESA, UKSB, C3D ve I3D modelleri sırasıyla %67,12, %75,53, %86,32 ve %93,24 doğruluk oranlarına ulaşmıştır. Ayrıca, topluluk öğrenme yoluyla %1,23 ek bir iyileşme sağlanarak en iyi sonucu alarak %94,53 doğruluk oranına ulaşılmıştır. Ayrıca, Dönüştürücü (Transformer) mimarisinin dudak okuma çalışmalarındaki başarıları incelenmiş VGG, ResNET, EfficientNet ve 3BESA ile dönüştürücü (Tansformer) modelleri ile üzerinde eğitimler gerçekleştirerek 3DEffiCNN modeli önerilmiştir. Deneysel sonuçlara göre, VGG + Dönüştürücü, ResNet + Dönüştürücü, EfficientNet + Dönüştürücü ve 3BESA + Dönüştürücü modelleri sırasıyla %81,93, %84,81, %88,87 ve %84,91 doğruluk oranlarına ulaşmıştır. En yüksek doğruluğa sahip iki modeli birleştiren hibrit 3DEffiCNN modeli ile %89,92 doğruluk oranına ulaşmıştır. Bu model, EfficientNet' in güçlü özellik çıkarma yeteneklerini 3BESA'nin mekânsal çıkarımı ile entegre ederek başarı oranında %1,05 artış sağlamıştır. Sonuçlar, hiperparametre seçiminin ve optimizasyon algoritması tercihinin dudak okuma performansı üzerinde kritik bir etkiye sahip olduğunu ve hibrit modellerin performansı artırabileceğini göstermektedir.

Özet (Çeviri)

Lip reading is an important communication method that enables the comprehension of spoken words by following the speaker's lip movements. It is considered to be a complex skill as it requires a high level of visual perception and attention. This study aims to develop a Turkish lip-reading system using deep learning methods and to design models suitable for the structural features of the language. Two different data sets were collected for this purpose. The first data set contains numbers and the second data set contains words. Experimental studies were conducted on ensemble learning models using CNN (Convolutional Neural Network), LSTM (Long-Short Term Memory), and 3DCNN (3-Dimensional Convolutional Neural Network) architectures, such as I3D (Inflated 3D CNN), C3D (Convolutional 3D CNN) and P3D (Pseudo-3D Residual Network). Although LSTM models effectively process temporal data, 3DCNN-based models, which process both spatial and temporal information, achieved higher accuracy rates. In experimental studies conducted on the numeric dataset, CNN, LSTM, C3D, and I3D models achieved accuracy rates of 67.12%, 75.53%, 86.32%, and 93.24%, respectively. Additionally, through ensemble learning, an additional 1.23% improvement was achieved, reaching the best result with an accuracy rate of 94.53%. Furthermore, the success of the Transformer architecture in lip-reading studies was examined, and training was conducted on Transformer models integrated with VGG, ResNET, EfficientNet, and 3BESA, resulting in the proposed 3DEffiESA model. According to experimental results, the VGG + Transformer, ResNet + Transformer, EfficientNet + Transformer, and 3BESA + Transformer models achieved accuracy rates of 81.93%, 84.81%, 88.87%, and 84.91%, respectively. The hybrid 3DEffiCNN model, combining the two highest accuracy models, reached an accuracy rate of 89.92%. This model achieved a 1.05% improvement in success rate by integrating EfficientNet' s powerful feature extraction capabilities with 3DCNN's spatial extraction. The results indicate that hyperparameter selection and optimization algorithm preference have a critical impact on lip-reading performance, and hybrid models can enhance performance.

Benzer Tezler

  1. Derin öğrenme mimarileri kullanılarak drone ile askeri araç ve silahların sınıflandırılması

    Classification of military vehicles and weapons with drones using deep learning architectures with drones

    DOĞAN EROL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSivas Bilim ve Teknoloji Üniversitesi

    Savunma Teknolojileri Ana Bilim Dalı

    DOÇ. DR. KEMAL ADEM

  2. Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma

    Isolated sign language recognition using deep learning architectures

    CEMİL GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN POLAT

  3. Deep fake image detection based on deep learning using a hybrid CNN-LSTM with machine learning architectures as classifier

    Makine öğrenme mimarileri kullanılarak hibrid CNN-LSTM ile derin öğrenmeye dayalı deep fake görüntü tespiti

    OMAR ALFAROUK AL-DULAIMI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEFER KURNAZ

  4. Derin öğrenme yöntemleri kullanılarak deepfake medya dosyalarının tespiti

    Detection of deepfake media files using deep learning methods

    RIFAT KÖSE

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKastamonu Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MURAT MERİÇELLİ

  5. Derin öğrenme yöntemleri kullanılarak konik ışınlı bilgisayarlı tomografi görüntülerinden diş ve çene kemiğinin tespiti

    Detection of teeth and jaw bone from cone-beam computed tomography images using deep learning methods

    OSAMAH KHALED MUSLEH SALMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Mekatronik MühendisliğiIsparta Uygulamalı Bilimler Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BEKİR AKSOY

    DR. ÖĞR. ÜYESİ NURULLAH TÜRKER