Geri Dön

Bilgisayarlı dudak okuma

Automatic lipreading

  1. Tez No: 212039
  2. Yazar: ZAFER YAVUZ
  3. Danışmanlar: PROF. DR. VASİF V. NABİYEV
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Dudak Okuma, İşaret Dili, Dudak Tespiti, Temel Bileşen Analizi (PCA), Lipreading, Sign Language, Lip Detection, Principle Component Analysis (PCA)
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Karadeniz Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 112

Özet

İnsan bilgisayar etkileşiminde konuşma tanıma sistemleri son yıllarda önemli bir çalışma konusu haline gelmiştir. Konuşan kişinin ses bilgisinin alınarak bu bilgilerin bilgisayarda işlenmesi karmaşık hesapsal süreçleri beraberinde getirmektedir. Bu karmaşıklık sesin tanınmasında önemli bir problem oluşturmaktadır. Bugüne kadar yapılan araştırmalara göre konuşma ile ilgili bilgiler, sadece ses işaretinde değil aynı zamanda görsel işaretlerde de bulunmaktadır. Görsel işaretler olarak beden dili, işaret dili, mimik ve jestler ile dudak hareketleri kabul edilebilir. Çalışmada bu görsel işaretlerden olan dudak hareketleri üzerinde durulmuştur ve bilgisayarlı dudak okuma sistemi geliştirilmiştir. Bilgisayarlı dudak okuma, bir görüntüden hiçbir ses bilgisine ihtiyaç duymadan kişinin ne söylediğinin anlaşılması işlemidir. Tezde bilgisayarlı dudak okuma için gerekli çalışma şeması verilmiş ve sistemi oluşturan alt modüller ayrı ayrı gösterilmiştir. Bilgisayarlı dudak okuma için öncelikle yüzün tespit edilmesi işlemi gerçekleştirilmiştir. Tespit edilen yüz üzerinde dudak okuma gerçekleştirebilmek için önce dudak bölgesi ve ardından dudağın ikili görüntüsü elde edilmiştir. Bu aşamada dudak bölgesi bulma ve dudak tespiti için yeni yöntemler önerilmiştir. Dudağın ikili görüntüsü elde edildikten sonra bilgisayarlı dudak okumada kullanılabilecek özellikler çıkarılmıştır. Türkçede sesli harflerden (a, e, ı, i, o, ö, u, ü) oluşan hecelerin söylendiği 56 farklı görüntü alınmıştır. Bu görüntüler kullanılarak PCA yöntemine dayalı bir tanıma sistemi gerçekleştirilmiştir. 56 görüntüden 24 tanesi eğitim için 32 tanesi ise test için kullanılmış ve sistemde %25 oranında başarım sağlanmıştır. Ayrıca test aşamasında yakın benzerlik gösteren sesliler (ı-i, o-ö, u-ü) düşünüldüğünde bu başarım %50 civarında olmaktadır.

Özet (Çeviri)

Speech recognition systems have recently been one of the major study areas in human-computer interaction. Audio processing in computers consists of very complex operations. This complexity results in significant problems. Recent studies show that not only audio but also visual signs include information related with speech. Body language, sign language, gestures and lip movements may be accepted as visual signs. In this study, lip movements are examined, and an automatic lipreading system is implemented. Automatic lipreading is a process of understanding what a person says from a scene without a need of audio information. In this thesis required flowchart for automatic lipreading is given and the modules of the system are shown separately. First, face detection operation was done for automatic lipreading. After that in order to be able to perform lipreading, lip area was found and binary lip image was obtained. In this phase, new methods were suggested to find lip area and detect lip. Next, features for automatic lipreading were extracted. 56 different videos including Turkish vowels (a, e, ı, i, o, ö, u, ü) were recorded. A recognition system based on PCA method was realized by using these videos. 24 of these videos were used for training and 32 of them were used for testing and 25% of success was achieved. Also, in the test phases the success is increased to 50% if misrecognized similar vowels (o-ö, ı-i, u-ü) are not taken in to account.

Benzer Tezler

  1. Otomatik Türkçe dudak okuma için bilgisayarlı görü ve derin öğrenme modellerinin geliştirilmesi

    Development of computer vision and deep learning models for automatic Turkish lip reading

    FURKAN SABAZ

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT ATİLA

  2. Türk dilinde derin öğrenme ile dudak okuma

    Lip reading with deep learning in Turkish language

    HADI POURMOUSA

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. ÜSTÜN ÖZEN

  3. Scale and pose invariant real-time face detection and tracking

    Ölçekten ve pozdan bağımsız gerçek zamanlı yüz bulma ve izleme

    MEHMET ŞERİF BAYHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHİTTİN GÖKMEN

  4. Stereo based 3D head tracking using the scale invariant feature transform

    Ölçekten bağımsız öznitelik dönüşümü kullanarak stereo kamera ile üç boyutlu kafa takibi

    BATU AKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Mühendislik Bilimleri Bölümü

    PROF. DR. AYTÜL ERÇİL

    YRD. DOÇ. DR. MÜJDAT ÇETİN

  5. Computer aided lipreading training tool

    Bilgisayar tabanlı dudak okuma eğitim aracı

    GAMZE SARMAŞIK

    Doktora

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP KUT