Geri Dön

Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları

New feature approaches based on spatial lip points in visual-based lip reading applications

  1. Tez No: 666789
  2. Yazar: HAMDULLAH TUNG
  3. Danışmanlar: DR. ÖĞR. ÜYESİ RAMAZAN TEKİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Batman Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Sosyal bir varlık olan insan, ihtiyaçlarını gidermek için çoğu zaman konuşarak insanlarla iletişime geçmektedir. Konuşma eylemi hem görme ve hem de duyma duyularının ortak kullanımı sonucu gerçekleşmektedir. Konuşmada esnasında sesler üretilirken dudağın aldığı formalar gözle açık bir şekilde izlenebilir. Dudak okuma, sesin duyulmadığı ya da bozuk olduğu durumlarda konuşmayı dudak, yüz ve dilin hareketini çözümleyerek anlama tekniğidir. Görsel konuşma bilgileri, özellikle ses bozuk veya erişilemez olduğunda, otomatik dudak okumada önemli bir rol oynamaktadır. Ses-görüntü tabanlı dudak okumanın başarısına rağmen, sadece-görüntü tabanlı dudak okumada birbirine benzer dudak hareketlerine sahip sesleri ayırmadaki zorluklardan dolayı oldukça güç bir problemdir. Bu çalışmada, sadece-görsel tabanlı dudak okuma uygulamalarında başarı oranını arttırmak amacıyla birtakım yeni öznitelik yaklaşımları sunulmuştur. Bu çalışmada, konuşmacı-bağımsız ve konuşmacı-bağımlı gerçekleştirilen tahmin uygulamalarında iki ayrı veri seti kullanılmıştır. Bu veri setleri; Latin alfabesindeki 26 harfin beş (5) konuşmacı tarafından yedi (7) kez tekrarlandığı AVLetters2 ve 0-9 arasındaki 10 rakamın altı (6) konuşmacı tarafından dokuz (9) kez tekrarlandığı AVDigits dir. Öncelikle yüzdeki öğeler ve dudaklar ayrılarak, dudak sınırlarını 20 noktayla işaretlenmiştir. Daha sonra bu uzamsal noktalara dayalı, Merkezi-Öklid-Uzaklık (MÖU), Simetrik-Öklid-Uzaklık (SÖU) ve Komşu-İşaret-Açıları (KİA) isimli öznitelik yaklaşımlarıyla elde edilen özellikler sınıflandırıcılara uygulanmıştır. Son olarak, K-en Yakın Komşu algoritması, Rasgele Orman, Destek Vektör Makinesi isimli sınıflandırma algoritmaları kullanılarak video görüntülerden dudak okuma analizi yapılarak 26 karakter ve 10 rakam tespit edilmeye çalışılmıştır. Yapılan analizler sonucunda en iyi başarı sonuçları AVLetters2 veri seti için RO-MÖU yöntemiyle %45,934 ve AVDigits veri seti için KNN-MÖU yöntemiyle %67,407 olarak bulunmuştur. Bu veri setleri üzerinde sadece-görüntü temelli yapılan diğer çalışmalarla karşılaştırıldığında oldukça yüksek ve başarılı sonuçlar elde edildiği görülmüştür.

Özet (Çeviri)

As a social being, human beings often communicate with people by talking in order to meet their needs. The act of speaking takes place as a result of the joint use of both sight and hearing. While the sounds are produced during the speech, the forms of the lip can be clearly observed. Lip reading is the technique of understanding speech by analyzing the movement of the lips, face and tongue in cases where the voice is not heard or distorted. Visual speech information plays an important role in automatic lip reading, especially when the sound is distorted or inaccessible. Despite the success of audio-image-based lip reading, visual-only lip reading is a very difficult problem due to difficulties in distinguishing sounds with similar lip movements. In this study, some new attribute approaches are presented in order to increase the success rate in visual-only lip reading applications. In this study, two separate data sets were used in speaker-independent and speaker-dependent prediction applications. These data sets; AVLetters2, in which 26 letters in the Latin alphabet are repeated seven (7) times by five (5) speakers, and AVDigits, in which the 10 digits 0-9 are repeated nine (9) times by six (6) speakers. First of all, the facial elements and lips are separated and the lip borders are marked with 20 points. Later, the attribute approaches based on these spatial points, named Center-Euclidean-Distance (CED), Symmetric-Euclidean-Distance (SED) and Neighbor-Points-Angles (NPA), are applied to classifiers. Finally, using the classification algorithms named K-Nearest Neighbor algorithm (KNN), Random Forest (RF), Support Vector Machine (SVM), lip reading analysis was performed from video images to determine 26 characters and 10 numbers. As a result of the analysis, the best success results were found to be 45.934% for the AVLetters2 data set with the RF-CED method and 67.407% for the AVDigits data set using the KNN-CED method. When compared to other visual-only studies on these data sets, it was seen that quite high and successful results were obtained.

Benzer Tezler

  1. Scale and pose invariant real-time face detection and tracking

    Ölçekten ve pozdan bağımsız gerçek zamanlı yüz bulma ve izleme

    MEHMET ŞERİF BAYHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN

  2. Bilgisayarlı dudak okuma

    Automatic lipreading

    ZAFER YAVUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. VASİF V. NABİYEV

  3. Derin öğrenme tabanlı süper çözünürlük teknikleri kullanarak JPEG sıkıştırma kaybının iyileştirilmesi

    Recovering JPEG compression loss via deep learning-based super resolution techniques

    MUHAMMET BOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. LÜTFİYE DURAK ATA

    DR. NURULLAH ÇALIK

  4. Derin öğrenme tabanlı kenar rehberli görüntü iç boyama

    Edge guided image inpainting based on deep learning

    MUHAMMET NURİ DUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHarran Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERDAR ÇİFTÇİ

  5. Stereo based 3D head tracking using the scale invariant feature transform

    Ölçekten bağımsız öznitelik dönüşümü kullanarak stereo kamera ile üç boyutlu kafa takibi

    BATU AKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Mühendislik Bilimleri Bölümü

    PROF. DR. AYTÜL ERÇİL

    YRD. DOÇ. DR. MÜJDAT ÇETİN