Kaskad nesne algılama ve yapay sinir ağları yöntemleri ile dudak okuma
Lip reading with cascade object detection and artificial neural networks methods
- Tez No: 568415
- Danışmanlar: DR. ÖĞR. ÜYESİ CAFER BAL
- Tez Türü: Yüksek Lisans
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 118
Özet
Görüntü veya sesin, yazıya (metne) veya şekle dönüştürülmesi teknolojinin ilerlemesi ile daha çok kolaylaşmıştır. Söylenenlerin yazıya veya şekle dönüştürülmesi, günümüzde tam olarak istenen seviyede olmasa da tatminkâr sonuçlar elde edilebilmektedir. Ancak, görüntü arayıcılığıyla söylenenlerin tam olarak ortaya konması -dudak okuma işlemi- istenen bir seviyede değildir. Bunun sebebi, dudak okuma işleminde karşılaşılan engellerin, sesin işlenmesindeki -analizinde- karşılaşılan engellerden fazla olmasıdır. Bu tez çalışmasında video görüntülerindeki konuşma içeriğinin dudak okuma yöntemiyle tahmini gerçekleştirilmiştir. Dudak okuma görüntüdeki yüzün, gözlerin, dudak bölgesinin, dudakların ve dudakları temsil eden dış sınırlarının çizilerek dudak hareketlerinin takibini gerektiren karmaşık bir süreçtir. Bu çalışmada, öncelikle temel görüntü işleme yöntemleri incelenmiş daha sonra görüntüdeki yüzü bulmak için renk uzaylarının ten renginin tespitindeki başarıları karşılaştırılmıştır. Görüntüdeki yüzün bulunmasından sonra yüzün pozisyonu (sağa veya sola yatıklığı) kontrol edilmiştir. Yüzün eğimi, göz ve dudakların da eğik olduğu anlamına geldiği için bu eğim miktarına göre dudak dış sınır noktalarının tekrar hesaplanmasını gerektirmiştir. Yüzün eğiklik miktarı, gözlerin konumlarına göre hesaplanmıştır. Yüz üzerindeki gözler, belirlenmiş bir aralıkta (bölgede) elips, daire veya çizgi gibi şekillerin tespit edilmesinde kullanılan hough dönüşümü ile bulunmuştur. Gözlerin birbirlerine göre konumları bulunarak dudak dış sınırlarının tekrar hesaplanmasında kullanılmıştır. Daha sonra dudak dış sınırlarının hesaplanmasının öncesi ve sonrası karşılaştırılmıştır. Daha sonra dudak bölgesinin bulunması işlemi gerçekleştirilmiş ve bu bölgenin bulunmasında kullanılacak olan yöntemler(yüzün 1/3 lük kısmında bulunması, ten renginin kullanılması, çene ve burun deliklerinin tespiti gibi) kullanılarak sonuçlar karşılaştırılmıştır. Dudak bölgesinin bulunmasından sonra dudakların ve dudakların dış sınırlarının tespit edilmesi ve dudak dış sınırlarının çiziminde ten renginden yararlanılmıştır. Dudak okuma işlemi 15 nokta ile kontrol edilir. Bunlar dudağı temsil eden 14 nokta ile dişlerin görünüp görünmemesidir. Bu 15 nokta içinden seçilmiş 10, 11 ve 19 noktanın değerlerinden oluşan 3 farklı özvektör oluşturulmuştur. Dudak hareketlerinin izlenmesi için dudak sınırları ve kalınlıkları arasındaki farkların yapay sinir ağları ile değerlendirilmesi sonucunda dudak okuması gerçekleştirilerek tahmin doğruluk oranları karşılaştırılmıştır.
Özet (Çeviri)
The conversion of image or sound into text or shape has become easier with the advancement of technology. Satisfactory results can be achieved even if the conversion of the said into text or figure is not at the desired level. However, it is not at a desirable level to fully elaborate what is said through the image search -lip reading process-. The reason for this is that the obstacles encountered in the lip reading process are more than the obstacles encountered in the processing of sound (in the analysis process). In this thesis, the speech content in video images was estimated by lip reading method. Lip reading is a complex process that requires the follow-up of lip movements by drawing the face, eyes, lip region, lips, and outer borders representing the lips in the image. In this study, firstly, basic image processing methods were examined and then the success of color spaces in determining the skin color was compared to find the face in the image. After finding the face in the image, the position of the face (right or left inclination) was checked.Since the inclination of the face means that the eyes and lips are also inclined, this required a recalculation of the outer boundary points of the lip according to the amount of inclination. The amount of inclination of the face was calculated according to the positions of the eyes. The eyes on the face were found by a hough transformation used to detect shapes such as ellipses, circles or lines within a defined range (region). It was used to recalculate the outer margins of the lip by locating the eyes relative to each other. Then, before and after the calculation of lip contours were compared. Then the lip area finding process was performed and results were compared using lip area finding methods (such as finding in the 1/3 of the face, use of skin color, and detection of chin and nostrils) were compared After the finding of the lip region, the lip and the outer borders of the lip were determined and the color of the skin was used in drawing the outer borders of the lip. Lip reading is controlled by 15 points. These are the 14 points representing the lip and whether the teeth are visible or not. From these 15 points, 3 different eigenvectors consisting of the values of 10, 11 and 19 points were formed. To monitor the lip movements, the differences between lip boundaries and thicknesses were evaluated with artificial neural networks and lip reading was performed, and the predicted accuracy rates were compared.
Benzer Tezler
- Real-time visual target identification and tracking via unmanned ground vehicle (UGV)
İnsansız yer aracı (UGV) üzerinden gerçek zaman görsel hedef belirleme ve izleme
NOUR ZAKARIYA AMMAR
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ OKATAN
- Derin öğrenme kullanılarak FPGA'lar ile gerçek zamanlı nesne algılama ve tanıma
Real-time object detection and recognition on FPGAS's by using deep learning
VEYSEL YUSUF ÇAMBAY
Yüksek Lisans
Türkçe
2019
Mekatronik MühendisliğiFırat ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYŞEGÜL UÇAR
- Predictive error compensated wavelet neural networks framework for time series prediction
Zaman serisi tahmini için hata tazminli dalgacık dönüşümlü sinir ağları çerçeve yazılımı
SERKAN MACİT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BURAK BERK ÜSTÜNDAĞ
- Investigation of Caretta caretta population in Patara and Kızılot
Başlık çevirisi yok
YAKUP KASKA
Yüksek Lisans
İngilizce
1993
BiyolojiEge ÜniversitesiBiyoloji Eğitimi Ana Bilim Dalı
PROF. DR. İBRAHİM BARAN
- Pankreas kanseri hücre hattında TFAM ekspresyon düzeyinin hücre fonksiyonları üzerine etkisi
The effects of TFAM expression levels on cells functions in pancreatic cancer cell line
CEREN NARİN ŞİMŞEK
Yüksek Lisans
Türkçe
2022
BiyolojiHacettepe ÜniversitesiTemel Onkoloji Ana Bilim Dalı
DOÇ. DR. FÜSUN ÖZMEN
DR. ÖĞR. ÜYESİ NEŞE ÜNVER