Bilgisayarlı dudak okuma
Automatic lipreading
- Tez No: 212039
- Danışmanlar: PROF. DR. VASİF V. NABİYEV
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Dudak Okuma, İşaret Dili, Dudak Tespiti, Temel Bileşen Analizi (PCA), Lipreading, Sign Language, Lip Detection, Principle Component Analysis (PCA)
- Yıl: 2007
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 112
Özet
İnsan bilgisayar etkileşiminde konuşma tanıma sistemleri son yıllarda önemli bir çalışma konusu haline gelmiştir. Konuşan kişinin ses bilgisinin alınarak bu bilgilerin bilgisayarda işlenmesi karmaşık hesapsal süreçleri beraberinde getirmektedir. Bu karmaşıklık sesin tanınmasında önemli bir problem oluşturmaktadır. Bugüne kadar yapılan araştırmalara göre konuşma ile ilgili bilgiler, sadece ses işaretinde değil aynı zamanda görsel işaretlerde de bulunmaktadır. Görsel işaretler olarak beden dili, işaret dili, mimik ve jestler ile dudak hareketleri kabul edilebilir. Çalışmada bu görsel işaretlerden olan dudak hareketleri üzerinde durulmuştur ve bilgisayarlı dudak okuma sistemi geliştirilmiştir. Bilgisayarlı dudak okuma, bir görüntüden hiçbir ses bilgisine ihtiyaç duymadan kişinin ne söylediğinin anlaşılması işlemidir. Tezde bilgisayarlı dudak okuma için gerekli çalışma şeması verilmiş ve sistemi oluşturan alt modüller ayrı ayrı gösterilmiştir. Bilgisayarlı dudak okuma için öncelikle yüzün tespit edilmesi işlemi gerçekleştirilmiştir. Tespit edilen yüz üzerinde dudak okuma gerçekleştirebilmek için önce dudak bölgesi ve ardından dudağın ikili görüntüsü elde edilmiştir. Bu aşamada dudak bölgesi bulma ve dudak tespiti için yeni yöntemler önerilmiştir. Dudağın ikili görüntüsü elde edildikten sonra bilgisayarlı dudak okumada kullanılabilecek özellikler çıkarılmıştır. Türkçede sesli harflerden (a, e, ı, i, o, ö, u, ü) oluşan hecelerin söylendiği 56 farklı görüntü alınmıştır. Bu görüntüler kullanılarak PCA yöntemine dayalı bir tanıma sistemi gerçekleştirilmiştir. 56 görüntüden 24 tanesi eğitim için 32 tanesi ise test için kullanılmış ve sistemde %25 oranında başarım sağlanmıştır. Ayrıca test aşamasında yakın benzerlik gösteren sesliler (ı-i, o-ö, u-ü) düşünüldüğünde bu başarım %50 civarında olmaktadır.
Özet (Çeviri)
Speech recognition systems have recently been one of the major study areas in human-computer interaction. Audio processing in computers consists of very complex operations. This complexity results in significant problems. Recent studies show that not only audio but also visual signs include information related with speech. Body language, sign language, gestures and lip movements may be accepted as visual signs. In this study, lip movements are examined, and an automatic lipreading system is implemented. Automatic lipreading is a process of understanding what a person says from a scene without a need of audio information. In this thesis required flowchart for automatic lipreading is given and the modules of the system are shown separately. First, face detection operation was done for automatic lipreading. After that in order to be able to perform lipreading, lip area was found and binary lip image was obtained. In this phase, new methods were suggested to find lip area and detect lip. Next, features for automatic lipreading were extracted. 56 different videos including Turkish vowels (a, e, ı, i, o, ö, u, ü) were recorded. A recognition system based on PCA method was realized by using these videos. 24 of these videos were used for training and 32 of them were used for testing and 25% of success was achieved. Also, in the test phases the success is increased to 50% if misrecognized similar vowels (o-ö, ı-i, u-ü) are not taken in to account.
Benzer Tezler
- Otomatik Türkçe dudak okuma için bilgisayarlı görü ve derin öğrenme modellerinin geliştirilmesi
Development of computer vision and deep learning models for automatic Turkish lip reading
FURKAN SABAZ
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT ATİLA
- Türk dilinde derin öğrenme ile dudak okuma
Lip reading with deep learning in Turkish language
HADI POURMOUSA
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. ÜSTÜN ÖZEN
- Scale and pose invariant real-time face detection and tracking
Ölçekten ve pozdan bağımsız gerçek zamanlı yüz bulma ve izleme
MEHMET ŞERİF BAYHAN
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUHİTTİN GÖKMEN
- Stereo based 3D head tracking using the scale invariant feature transform
Ölçekten bağımsız öznitelik dönüşümü kullanarak stereo kamera ile üç boyutlu kafa takibi
BATU AKAN
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiMühendislik Bilimleri Bölümü
PROF. DR. AYTÜL ERÇİL
YRD. DOÇ. DR. MÜJDAT ÇETİN
- Computer aided lipreading training tool
Bilgisayar tabanlı dudak okuma eğitim aracı
GAMZE SARMAŞIK
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALP KUT