Geri Dön

Discrimination analysis of lip motion features for multimodal speaker identification and speech-reading

Çok-kipli konuşmacı ve konuşma tanıma uygulamaları için dudak devinim öz niteliklerinde ayırıcı analiz

  1. Tez No: 198577
  2. Yazar: HASAN ERTAN ÇETİNGÜL
  3. Danışmanlar: PROF. DR. MURAT TEKALP, YRD. DOÇ. DR. ENGİN ERZİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2005
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 85

Özet

Bu tezde ses, dudak dokusu, dudak geometrisi ve dudak devinimlerini birle tiren yeni bir çok-kipli konu macı/konu ma tanıma sistemi sunulmaktadır. Konu macı ve konu ma tanımauygulamalarında ses, dudak ye inli i ve/veya dudak geometri bilgisini beraber kullananbirkaç çalı ma mevcuttur. Bu çalı mada konu macı tanıma ve konu ma okuma için, ses,dudak ye inlik ve/veya geometri bilgisi ile birlikte ya da bu bilgilerin yerine, açık dudakdevinim bilgisinin kullanımı önerilmekte; konu öznitelik seçimi ile ayırım analiziçerçevesinde incelenmektedir. çalı ma iki önemli soruya cevap aramaktadır: i) Açık dudakdevinim bilgisi yararlı mıdır? ve ii) Devinim bilgisi yararlı ise, sözü edilen uygulamalardaeniyi dudak devinim öznitelikleri nelerdir? Konu macılar arasında en yüksek ayrımı sa layanöznitelikler, konu macı tanıma probleminde eniyi dudak devinim öznitelikleri olmaklaberaber konu ma okumada eniyi öznitelikler, en yüksek fonem/kelime/deyi tanıma oranınaeri enlerdir. Ses doru u, mel frekans kepstral katsayıları ile katsayıların birinci ve ikincitürevleriyle gösterilirken, dudak doku kipi, dudak bölgesinin ye inlik de erlerinin 2B-AKD(Ayrık Kosinüs Dönü ümü) katsayıları ile ifade edilmektedir. Birden çok dudak devinimöznitelik adayı ele alınmaktadır: dudak bölgesi içinde ızgara-tabanlı yo un devinimöznitelikleri, dudak çevriti üzerinde devinim öznitelikleri ve son olarak dudak ekilparametreleri ile bunların bile imleri. Buna ek olarak, konu macı tanıma ve konu maokumada eniyi dudak devinim özniteliklerini belirlemek üzere iki basamaklı yeni birayrımsama analizi tanıtılmaktadır. Ses, dudak dokusu ve dudak devinim kiplerinintümle tirilmesi Güvenilirlik A ırlıklı Toplama karar kuralıyla gerçekle tirilmi tir. Deneyselsonuçlarda, önerilen ayırımsal analizin dudak deviniminin tek-kipli ba arımını oldukçageli tirdi i görülmektedir. Bunun yanında, ses ve dudak doku bilgisi ile birlikte açık dudakdevinim bilgisinin kullanımı, iki-kipli konu macı/konu ma tanıma sistemlerininba arımlarında ilave kazanım sa lamaktadır.

Özet (Çeviri)

In this thesis a new multimodal speaker/speech recognition system that integrates audio, liptexture, lip geometry, and lip motion modalities is presented. There have been several studiesthat jointly use audio, lip intensity and/or lip geometry information for speaker identificationand speech recognition applications. This work proposes using explicit lip motioninformation, instead of or in addition to audio, lip intensity and/or geometry information, forspeaker identification and speech-reading within a unified feature selection and discriminationanalysis framework, and addresses two important issues: i) Is using explicit lip motioninformation useful? and ii) if so, what are the best lip motion features for these twoapplications? The best lip motion features for speaker identification are considered to be thosethat result in the highest discrimination of individual speakers in a population, whereas forspeech-reading, the best features are those providing the highest phoneme/word/phraserecognition rate. The audio modality is represented by the well-known mel-frequency cepstralcoefficients (MFCC) along with the first and second derivatives, whereas lip texture modalityis represented by the 2D-DCT coefficients of the luminance component within a boundingbox about the lip region. Several lip motion feature candidates are considered including densemotion features within a bounding box around the lip, lip contour motion features, lip shapefeatures, and combinations of them. Furthermore, a novel two-stage discriminant analysis isintroduced to select the best lip motion features for speaker identification and speech-readingapplications. The fusion of audio, lip texture and lip motion modalities is performed by the so-called Reliability Weighted Summation (RWS) decision rule. Experimental results show thatthe proposed discriminative analysis significantly improves the unimodal performance of thelip motion modality. Moreover, using explicit lip motion information in addition to audio andlip texture yields further performance gains in bimodal speaker/speech recognition systems.

Benzer Tezler

  1. Adli bilimlerde dudak kozmetik ürünlerinin farklı ortamlardaki stabilitesine zamanın etkisinin incelenmesi

    Forensic investigation of the effect of time on the stability of lip cosmetic products in different environments

    ŞEYDA TURKAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Adli TıpÜsküdar Üniversitesi

    Adli Bilimler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SONER KIZIL

  2. Konvansiyonel döner alet cerrahisi ve piezocerrahisi kullanılarak simfiz mandibula bölgesinden otojen kemik grefti alımı sonrasında ortaya çıkan duyu kaybı düzeylerinin farklı duyu testleriyle karşılaştırmalı olarak değerlendirilmesi

    The comparative evaluation of neurosensory loss levels after removal of autogenous bone graft from symphysis mandibula region using conventional rotating bur surgery instruments and piezosurgery instruments with different neurosensory tests

    SERKAN KIRAN

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2017

    Diş HekimliğiSağlık Bilimleri Üniversitesi

    Ağız Diş ve Çene Cerrahisi Ana Bilim Dalı

    PROF. DR. METİN ŞENÇİMEN

  3. Oral-motor değerlendirme formu: geçerlilik ve güvenirlik ön çalışması

    Oral-motor assessment form: validity and reliability preliminary study

    BÜŞRA NUR TAYGUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Dilbilimİstanbul Medipol Üniversitesi

    Dil ve Konuşma Terapisi Ana Bilim Dalı

    DOÇ. DR. ÖZLEM ÜNAL LOGACEV

  4. Yarık damaklı Türk çocuklarının sesletim, işitsel ayrımlaştırma ve sesbilgisel özelliklerinin belirlenmesi

    Articulation, auditory discrimination and phonological characteristics of Turkish cleft palate children

    ÖYKÜ TEZEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2004

    Kulak Burun ve BoğazAnadolu Üniversitesi

    Dil ve Konuşma Terapistliği Ana Bilim Dalı

    DOÇ. DR. SEYHUN TOPBAŞ

  5. Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların yüz tanıma becerilerinin ölçülmesi ve yüz davranışlarının bilgisayarlı analizi

    Assessment of face recognition abilities and digital analysis of facial movements of the children with attention deficit hyperactivity disorder

    KORAY MEHMET ZEYNEL KARABEKİROĞLU

    Doktora

    Türkçe

    Türkçe

    2021

    PsikiyatriOndokuz Mayıs Üniversitesi

    Klinik Sinir Bilimler Ana Bilim Dalı

    PROF. DR. MUSTAFA AYYILDIZ