Derin öğrenme mimarileri kullanılarak dudak okuma ile konuşma tanıma sistemi tasarlanması

Designing a speech recognition system with lip reading using deep learning architectures

PDF İndir

Tez No: 917093
Yazar: ALİ ERBEY
Danışmanlar: PROF. DR. NECAATTİN BARIŞÇI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 108

Özet

Dudak okuma, konuşmacının dudak hareketlerini izleyerek söylenen kelimelerin anlaşılmasını sağlayan önemli bir iletişim yöntemidir. Yüksek düzeyde görsel algı ve dikkat gerektirdiğinden karmaşık bir beceri olarak kabul edilmektedir. Bu çalışma, derin öğrenme yöntemlerini kullanarak Türkçe dudak okuma sistemi geliştirmeyi ve dilin yapısal özelliklerine uygun modeller tasarlamayı amaçlamaktadır. Bu amaç doğrultusunda iki farklı veri seti toplanmıştır. İlk veri seti rakamları içermekte ikinci veri seti kelimeleri içermektedir. Deneysel çalışmalarda ESA (Evrişimsel Sinir Ağları), UKSB (Uzun Kısa Süreli Bellek), 3BESA (3 Boyutlu Evrişimsel Sinir Ağları) yapılarından I3D (Inflated 3D CNN), C3D (Convolutional 3DCNN) ve P3D (Pseudo-3D Residual Network) ile topluluk öğrenmesi modelleri üzerinde eğitimler gerçekleştirilmiştir. UKSB modelleri zamansal veriyi işlemekte etkili olsa da hem mekânsal hem de zamansal bilgiyi işleyebilen 3BESA tabanlı modeller daha yüksek doğruluk oranlarına ulaşmıştır. Rakam veri seti üzerinde yapılan deneysel çalışmalarda ESA, UKSB, C3D ve I3D modelleri sırasıyla %67,12, %75,53, %86,32 ve %93,24 doğruluk oranlarına ulaşmıştır. Ayrıca, topluluk öğrenme yoluyla %1,23 ek bir iyileşme sağlanarak en iyi sonucu alarak %94,53 doğruluk oranına ulaşılmıştır. Ayrıca, Dönüştürücü (Transformer) mimarisinin dudak okuma çalışmalarındaki başarıları incelenmiş VGG, ResNET, EfficientNet ve 3BESA ile dönüştürücü (Tansformer) modelleri ile üzerinde eğitimler gerçekleştirerek 3DEffiCNN modeli önerilmiştir. Deneysel sonuçlara göre, VGG + Dönüştürücü, ResNet + Dönüştürücü, EfficientNet + Dönüştürücü ve 3BESA + Dönüştürücü modelleri sırasıyla %81,93, %84,81, %88,87 ve %84,91 doğruluk oranlarına ulaşmıştır. En yüksek doğruluğa sahip iki modeli birleştiren hibrit 3DEffiCNN modeli ile %89,92 doğruluk oranına ulaşmıştır. Bu model, EfficientNet' in güçlü özellik çıkarma yeteneklerini 3BESA'nin mekânsal çıkarımı ile entegre ederek başarı oranında %1,05 artış sağlamıştır. Sonuçlar, hiperparametre seçiminin ve optimizasyon algoritması tercihinin dudak okuma performansı üzerinde kritik bir etkiye sahip olduğunu ve hibrit modellerin performansı artırabileceğini göstermektedir.

Özet (Çeviri)

Lip reading is an important communication method that enables the comprehension of spoken words by following the speaker's lip movements. It is considered to be a complex skill as it requires a high level of visual perception and attention. This study aims to develop a Turkish lip-reading system using deep learning methods and to design models suitable for the structural features of the language. Two different data sets were collected for this purpose. The first data set contains numbers and the second data set contains words. Experimental studies were conducted on ensemble learning models using CNN (Convolutional Neural Network), LSTM (Long-Short Term Memory), and 3DCNN (3-Dimensional Convolutional Neural Network) architectures, such as I3D (Inflated 3D CNN), C3D (Convolutional 3D CNN) and P3D (Pseudo-3D Residual Network). Although LSTM models effectively process temporal data, 3DCNN-based models, which process both spatial and temporal information, achieved higher accuracy rates. In experimental studies conducted on the numeric dataset, CNN, LSTM, C3D, and I3D models achieved accuracy rates of 67.12%, 75.53%, 86.32%, and 93.24%, respectively. Additionally, through ensemble learning, an additional 1.23% improvement was achieved, reaching the best result with an accuracy rate of 94.53%. Furthermore, the success of the Transformer architecture in lip-reading studies was examined, and training was conducted on Transformer models integrated with VGG, ResNET, EfficientNet, and 3BESA, resulting in the proposed 3DEffiESA model. According to experimental results, the VGG + Transformer, ResNet + Transformer, EfficientNet + Transformer, and 3BESA + Transformer models achieved accuracy rates of 81.93%, 84.81%, 88.87%, and 84.91%, respectively. The hybrid 3DEffiCNN model, combining the two highest accuracy models, reached an accuracy rate of 89.92%. This model achieved a 1.05% improvement in success rate by integrating EfficientNet' s powerful feature extraction capabilities with 3DCNN's spatial extraction. The results indicate that hyperparameter selection and optimization algorithm preference have a critical impact on lip-reading performance, and hybrid models can enhance performance.

Benzer Tezler

Tez No
851715
Derin öğrenme mimarileri kullanılarak drone ile askeri araç ve silahların sınıflandırılması
Classification of military vehicles and weapons with drones using deep learning architectures with drones
DOĞAN EROL
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sivas Bilim ve Teknoloji Üniversitesi
Savunma Teknolojileri Ana Bilim Dalı
DOÇ. DR. KEMAL ADEM
Tez No
729816
Derin öğrenme mimarileri kullanılarak ayrık video görüntüleri üzerinden işaret dili tanıma
Isolated sign language recognition using deep learning architectures
CEMİL GÜNDÜZ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT
Tez No
883980
Deep fake image detection based on deep learning using a hybrid CNN-LSTM with machine learning architectures as classifier
Makine öğrenme mimarileri kullanılarak hibrid CNN-LSTM ile derin öğrenmeye dayalı deep fake görüntü tespiti
OMAR ALFAROUK AL-DULAIMI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEFER KURNAZ
Tez No
919534
Derin öğrenme yöntemleri kullanılarak deepfake medya dosyalarının tespiti
Detection of deepfake media files using deep learning methods
RIFAT KÖSE
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kastamonu Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MURAT MERİÇELLİ
Tez No
688534
Derin öğrenme yöntemleri kullanılarak konik ışınlı bilgisayarlı tomografi görüntülerinden diş ve çene kemiğinin tespiti
Detection of teeth and jaw bone from cone-beam computed tomography images using deep learning methods
OSAMAH KHALED MUSLEH SALMAN
Yüksek Lisans
Türkçe
2021
Mekatronik Mühendisliği Isparta Uygulamalı Bilimler Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BEKİR AKSOY
DR. ÖĞR. ÜYESİ NURULLAH TÜRKER

Geri Dön