Geri Dön

Otomatik Türkçe dudak okuma için bilgisayarlı görü ve derin öğrenme modellerinin geliştirilmesi

Development of computer vision and deep learning models for automatic Turkish lip reading

  1. Tez No: 769865
  2. Yazar: FURKAN SABAZ
  3. Danışmanlar: DOÇ. DR. ÜMİT ATİLA
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Karabük Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 243

Özet

Son yıllarda özellikle derin öğrenme uygulamalarının yaygınlaşmasıyla birlikte önemi oldukça artan çalışmalardan biri de dudak okuma olmuştur. Araştırmacılar bu alanda, ses verisinin olmadığı sadece görüntünün olduğu verilerde kişinin ne söylediğini algılamaya çalışmaktadırlar. Daha önce yapılan çalışmalar incelendiğinde Çince, Korece, İngilizce, Almanca gibi çeşitli dillerde veri setleri üzerinden otomatik dudak okuma sistemleri geliştirildiği görülmektedir. Fakat yine bu çalışmalar sadece görüntü üzerinden dudak okumanın ışık, çekim mesafesi, kişinin cinsiyeti gibi birçok parametreye bağlı olmasından dolayı sistemin geliştirilmesinin zorlu olduğunu ortaya koymaktadır. Dudak okuma sistemleri ilk olarak klasik makine öğrenmesi yöntemleri kullanılarak geliştirilmiştir. Fakat özellikle son yıllarda derin öğrenme uygulamalarının gündeme gelmesiyle beraber bu konu tekrardan sıkça çalışılmaya başlanmıştır. Yapılan çalışmalarda, derin öğrenme modellerinin klasik makine öğrenmesi yöntemlerine göre çok daha başarılı sonuçlar verdiği gözlemlenmiştir. Bu çalışmamızda Türkçe hazırlanmış dudak okuma veri seti üzerinde derin öğrenme modellerinin uygulanarak sonuçlarının kıyaslanması amaçlanmaktadır. Farklı dillerde bu alanda yapılmış çalışmalar olsa bile Türkçede bu alanda yapılmış güncel bir çalışma ve veri seti bulunmamaktadır. Literatürdeki farklı dillere ait veri setlerindeki kriterler göz önüne alınarak 111 kelimelik ve 113 cümlelik güncel görüntü teknolojileriyle oluşturulmuş bir veri seti oluşturulmuştur. Oluşturulan veri seti kullanılarak,“Türkçe otomatik dudak okuma sisteminin”geliştirilmesiyle beraber literatürdeki bu uygulama eksikliği de giderilmektedir. BiLSTM sınıflandırıcısı ve çeşitli CNN tabanlı modeller kullanılarak verilerin sınıflandırılması sağlanmaktadır. Yaptığımız çalışmada kelime ve cümle veri setlerinin her ikisinde de Resnet-18- BiLSTM ikilisi en iyi sonucu vermektedir. Kelime veri seti için %84,5 ve cümle veri seti için %88,55 doğruluk değeri elde edilmiştir. Çalışma sonuçları incelendiğince neredeyse her modelde cümle tanımada, kelime tanımaya göre daha başarılı sonuçlar elde edildiği görülmektedir.

Özet (Çeviri)

In recent years, lip-reading has been one of the studies whose importance has increased considerably, especially with the spread of deep learning applications. In this topic, researchers try to detect what a person says from video frames without sound. When the previous studies are analyzed, it is seen that automatic lip-reading systems have been developed for various languages such as Chinese, Korean, English and German. However, these studies reveal that the development of the system is difficult because lip-reading from video frame images without audio data depends on many parameters such as light, shooting distance, and the gender of the person. Lip-reading systems were first developed using classical machine learning methods. However, especially in recent years, with the popularity of deep learning applications, this subject has started to be studied more than before and studies reveal that in general, deep learning-based lip-reading gives more successful results. Even though there are studies in this field in different languages, there is no current study and dataset in Turkish. Therefore, this study aims to investigate the performances of the state-of-the art deep learning models on Turkish lip-reading. To this aim, two new datasets, one with 111 words and other with 113 sentences were created using image processing techniques. The model used in this study to perform lip-reading extracts features from video frames using CNN based models and performs classification using Bidirectional Long Short-Term Memory (Bi-LSTM). Results of experiments reveal that, ResNet-18 and Bi-LSTM pair gives the best results in both word and sentence datasets with accuracy values 84.5% and 88.55%, respectively. It is also observed that, better performances are obtained in sentence recognition than word recognition in almost every model implemented.

Benzer Tezler

  1. Türkçe otomatik dudak okuma sistemi

    Automatic lip reading in Turkish lenguage

    ALPER COŞKUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. MEHMET GÖKTÜRK

  2. Otomatik görüntü tabanlı dudak okuma yöntemi ile acil durum kelimelerinin tespiti

    Detection of emergency words with automatic image-based lip reading method

    BEYZA ÜLKÜMEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKTO Karatay Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÖZTÜRK

  3. Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları

    New feature approaches based on spatial lip points in visual-based lip reading applications

    HAMDULLAH TUNG

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiBatman Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN TEKİN

  4. Curvelet dönüşümü kullanılarak Snake algoritması ile imgede kenar algılama

    Image edge detection with Snake algorithm by using Curvelet transform

    FATMA SABA AHISHALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Elektrik ve Elektronik MühendisliğiAtatürk Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. EMİN ARGUN ORAL

  5. The Turkish lip reading using deep learning method

    Derin öğrenme yöntemi ile Türkçe dudak okuma

    ALİ BERKOL

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAMİT ERDEM