Automatic posture evaluation for professional voice users
Profesyonel ses kullanıcıları için otomatik postür değerlendirmesi
- Tez No: 517431
- Danışmanlar: YRD. DOÇ. DR. GÖKHAN İNCE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 91
Özet
Günümüzde ulusal ve uluslararası ölçekte ses eğitimleri, terapistler tarafından onların bilgi, yetenek ve tecrübelerine dayanılarak öznel ölçümlerle gerçekleştirilmektedir. Bu ses terapilerinde vücudun gerginlik noktaları belirlenir. Vücut dışarıdan terapistin yönlendirmesiyle ve uygulanan fiziksel egzersizlerle rahatlatılır. Nefes egzersizleri ve uygulamaları gerçekleştirilir. Nefes ve vücut ilişkisinin sesin rezonansıyla birleştirilmesi işlemi gerçekleştirilir. Sesin rezonansının arttırılması, enerjisi ve odaklanması üzerinde çalışmalar yapılır. Sesteki değişiklikleri sesin tüm perdesinde hissettirilmesi adına çalışmalar yapılır. Konuşma veya şarkı ile yenilikler pratik olarak gerçekleştirilir. Kas gruplarının tekrar tüm rahatlığıyla kullanılmasının sağlanması için hangi nefes egzersizlerinin uygulanılacağına karar verilir, ardından hangi bölgelerde rezonansın eksik olduğu terapistin duyumuyla tespit edilir ve o bölgeye odaklanılarak çalışmaya devam edilir. Her terapi sonrası dikkat edilmesi gereken özetlenir ve gerekirse hastanın çalışması gereken egzersizler verilir. Her bir terapi öncesi ve sonrasını gösterecek şekilde hastanın ses kayıtları tutulur. Böylece hastanın haftalık gelişimi rahatlıkla gözlemlenir. Şu anda profesyonellerin ses eğitiminde değerlendirmeler öznel olarak yapılmaktadır. Kişilerin klasik ses değerlendirilmeleri ise nesnel bir yöntem ile yapılamamakta ancak ses terapistinin sezgisel algısı ile yapılmaktadır. Oysa bu tezde ses kalitesini, o anda kişinin bulunduğu postürüne göre nesnel olarak değerlendiren bir ölçüm sistemi oluşturulmuştur. İlk aşamada, insan sesini mümkün olduğunca ileri bir noktaya, ses kalitesinin bozulmadan aktarılması, kaliteli ses olarak belirlenmiştir. Buna göre, üç seviyeli bir ses kalitesi tezi belirlendi. İlk seviyede, sesin insanın içinde sönümlendiği ve yakın mesafeye dahi karakteristik sesin duyurulamadığı ses kalitesiz ses olarak belirlenmiştir. İkinci seviyede, doğal genlikte çıkartılan insan sesinin, ilk seviyeye göre daha uzakta net olarak anlaşıldığı ses orta kalitede ses olarak belirlenmiştir. Son olarak üçüncü seviyede, sesin opera salonu gibi büyük yerlerde, platformdan çıkartılan sesin, salonun en arkasındaki kişinin net olarak duyabileceği ve sesin karakteristiğinde herhangi bir eksikliğin hissedilmediği ses yüksek kaliteli ses olarak belirlenmiştir. İlk aşamada profesyonel ses terapisti eşliğinde beş kişiden her üç seviyede, ''aaaaa'' sesi çıkartmaları istenmiştir. Ses terapistinin öznel yaklaşımı ile çıkartılan sesler, belirlenen üç sınıfa göre etiketlenmiştir. Böylece, ses kalitesi veri seti oluşturulmuştur. Çıkartılan ses veri setinden 26 farklı akustik öznitelik çıkartılmıştır. Çıkartılan özniteliklerin bir kısmı ses teli cerrahı ve ses terapistinin önerdiği öznitelikler olarak oluşturulmuştur. Diğer öznitelikler ise literatürde farklı ses özelliklerini sınıflandırmada kullanılan öznitelikler olarak belirlenmiştir. Ses verisinden alınan her bir ses penceresinden, 26 öznitelik kullanılarak 57 boyutlu öznitelik dizisi oluşturulmuştur. Yeniden oluşturulan sistemin farkı, gerçek zamanlı olarak öznitelikleri çıkartabilmesidir. Çıkartılan ses parametrelerinden ses kalitesi sınıflamada en başarılı olan 5 parametre seçilerek, öznitelik boyutu düşürülmüş ve sınıflama başarısında artma olduğu gözlemlenmiştir. Özellikle, insan iç kulağının gelen sesi belirli frekans aralıklarında kümeleyerek, çıkan enerji değerlerini beynin duyma merkezine yollama ve böylece duyulan sesi anlamlandırma prensibinden yola çıkarak oluşturulmuş mel frekanslarının düşük frekans bandındaki enerji değeri çok başarılı bir ses kalitesi sınıflayıcı parametre olduğu gözlemlenmiştir. Ses terapistinin etiketlediği ses verilerinden çıkartılan öznitelikler, yapay sinir ağları ile eğitilmiş ve ses kalitesini otomatik olarak algılayan bir sistem oluşturulmuştur. İkinci aşamada, sesin kalitatif parametreleri ile vücut postürünün arasındaki ilişkiler incelenmiş ve oluşturulan veri seti kullanılarak pearson kolerasyonları çıkartılmıştır. Vücut postür verilerini çıkartmak için, kişinin anlık iskelet hareketini algılayan ve görselleştiren bir cihaz olan Motion Capture (Mocap) kullanılmıştır. Mocap, kişinin eklem noktalarındaki konum bilgilerini anlık olarak alarak diğer eklem noktaları arasındaki uzaklığı hesaplayan ve kişinin eklemleri arasındaki açıyı veren bir cihazdır. Ses terapisti eşliğinde, Mocap cihazı giyen kullanıcılardan ''aaaa'' sesi çıkartmaları istenmiş ve sekiz adet statik postür ve iki adet dinamik hareketler eşliğinde beş kişiden ses ve postür verileri toplanmıştır. Çıkartılan postür verilerinden kişinin üç boyutlu ağırlık merkezi hesaplanmış, her bir ses parametresi ile vücuttaki ağırlık merkezinin her bir boyuttaki sıfır konumundan uzaklıkları arasındaki kolerasyona bakılmış ve bazı ses parametrelerinin vücudun ağırlık merkezi değişimi ile önemli derecede ilişkili olduğu saptanmıştır. Postür verisi ile ses verisini eş zamanlı olarak kaydedebilmek için Unity platformunda bir arayüz yazılmıştır. Arayüzde gerçek zamanlı postür değişimi, bir avatar kullanılarak gözlemlenebilmek ile birlikte, istenilen süre itibariyle ses verisi ve postür verisi çıkartılıp, bilgisayara kaydedilebilmektedir. Kaydedilen postür verileri yine Matlab platformunda oluşturulmuş bir fonksiyon ile analiz edilerek vücudun üç boyutlu ağırlık merkezi çıkarılmaktadır. Üçüncü aşamada, vücudun anlık olarak değişen postürlerinden nesnel olarak olası ses odaklama saptanması yapılmıştır. Böylece, Mocap cihazını giyen bir kişi, hangi postürlerde durması gerektiğini veya postürünü, optimal olanı yakalayana kadar değiştirmesi gerektiğini algıyalabileceği bir sistem geliştirilmiştir. Bu sistemi oluşturabilmek için deneyler sırasında çıkartılan ses öznitelikleri ilk aşamada oluşturulan, ses kalitesini saptayan yapay sinir ağı modeline sokulmuş ve anlık ses verileri etiketlenmiştir. Bu sayede, değişen postür parametrelerinin etiketleri, anlık ses verilerinin etiketleri olarak kabul edilmiştir ve değişen postür parametreleri bir başka yapay sinir ağı modelinde eğitilmiştir. Böylece, değişen postür parametreleri modelde test edilerek, o postür anında kişinin olası olarak çıkartacağı doğal sesin ne kalitede olacağı kestirilebiliyor olmuştur. Ses kalitesini nesnelleştiren yapay sinir ağları modelinin on katlamalı çapraz doğrulama skoru \%85,19 ve postür parametlerinden çıkartılacak olası sesin kalitesini analiz eden modelin on katlamalı çapraz doğrulama skoru ise \%81,33 olarak bulunmuştur. İleriki çalışmalarda objektif ses kalitesi üç sınıf yerine daha fazla sınıf olacak şekilde belirlenecek ve gerçeğe daha yakın bir nesnel ses kalitesi değerlendiren sistem oluşturulacaktır. Bunun yapılması ile kişilerin bulunduğu postürün olası ses kalitesi daha detaylı olarak incelenebilecek ve kişiye verilecek geri bildirim daha detaylı olacaktır. Bu sayede, kişi postürünü değiştirirken olası optimal duruşunu daha iyi kestirebilecektir.
Özet (Çeviri)
Nowadays voice trainings are executed by therapists in the worldwide to their knowledge, experiences and skills. In these therapies, tension spots of a body are evaluated. A body is relieved with guidance of a therapist and applied physical exercises. Breathing exercises and implementations are executed. Breathing and body posture relation hybridization with voice resonance is carried out. Workouts are executed by combining breath, body posture and voice resonance. Trainings are conducted to help subjects improve their voice qualities and to feel correlation between body posture and voice. Enhancements are executed practically by talking or singing a song. In order to master the usage of muscle groups as confident as possible, breathing exercises are required. Afterwards, body locations with the lack of resonances are sought using subjective sense of a therapist and continue to treatment with a focus to chosen locations. After each therapy session, important points are highlighted and if it is needed a schedule of exercises are given to a patient. Voice recordings are saved for the assessment of voice both before and after the therapy. To sum up, weekly improvement of a patient is observed. So far, voice quality evaluation of professional voice users are carried out subjectively. However, classical voice evaluations cannot be done by an objective approach, yet done with therapists' intuition. In this thesis, a measurement system was proposed to evaluate voice quality objectively by the posture of a patient. In the first step, voice quality metrics were determined and it was defined as a human voice which propagates to significant distances without any deterioration. With respect of this, three level of voice quality hypothesis was created. In the first step, a voice which faded out in a patients' body and cannot be propagated to even close proximity points were labeled as low quality voice. In the second step, a voice which has a natural amplitude and reached to some extend distance without any deterioration was labeled as normal quality sound. In the last step, a voice which reached to great extent of distant points in big halls namely opera hall without any deterioration was labeled as high quality voice. In the first stage, in the presence of a professional sound therapist, five people were asked to voice ``aaaaa'' in all three levels. Sounds extracted by the subjective approach of the voice therapist were labeled according to the three classes identified. Thus, a sound quality data set was created. 26 different acoustic features have been extracted from the extracted audio data set. Some of the extracted features were created as features suggested by the voice therapist and voice therapist. Other attributes have been identified in the literature as attributes used to classify different sound properties. 57-dimensional feature array was created from each audio window received from the audio data using 26 attributes. The difference with the reconstructed system is that it can extract attributes in real time. It has been observed that by selecting 5 parameters which are most successful in classifying the sound quality classification of the extracted sound parameters, the feature size is reduced and the classification success is increased. In particular, it has been observed that the energy value of the mel-frequencies generated by the principle of transmitting the emitted energy values to the brain's hearing center by clustering the incoming sound of the human inner ear within certain frequency ranges and thus being audible is a very successful sound quality classifier parameter. The features extracted from voice data labeled by voice therapist were used for the training of an artificial neural network and the system was created to predict voice quality. In the second step, correlation between qualitative parameters of given voice and body postures were examined and results were obtained. In order to extract body posture data, Motion Capture Device(MOCAP) was used. It is a device that extracts angular position information of joints in body to calculate distances between neighboring joints and finds angles between them in real time. In the presence of a voice therapist, five users wearing the MOCAP device were asked to make an ``aaaa'' sound and voice and posture data were collected with eight static postures and two dynamic motions accompanying. The three-dimensional center of mass of the extracted postural data was calculated, and the correlation between each voice parameter and the center of mass of the body in terms of the distance from zero position in each dimension was inspected at and it was observed that some voice parameters are significantly related to the center of mass change of body. An interface was written on the Unity platform to simultaneously record posture data and audio data. The real time posture change at the interface can be observed using an avatar, and the sound data and posture data can be extracted and recorded to the computer at the desired time. The recorded postural data was again analyzed by a built-in function created on the Matlab platform to extract the three-dimensional center of mass deviation data of a body. In the third stage, an objectively sound focus was determined from the instantaneous changes in the body's postures. Thus, a system has been developed in which a wearer of a MOCAP device can sense, which predicts optimal posture. In order to be able to create this system, the audio features extracted during the experiments were fed into the artificial neural network model which was formed in the first stage, which determined the sound quality, and as a consequence the instantaneous sound data was labeled. In respect, the labels of the changing postural parameters were accepted as labels of the instantaneous voice data, and the changed postural parameters were trained in another artificial neural network model. Thus, by testing the changing postural parameters in the model, it is possible to predict what quality natural voice will be likely to emerge at the time of that posture. 10-fold cross-validation score of the artificial neural networks that predict the voice quality was found to be 85.19\% and the 10-fold cross-validation score of the model analyzing the possible voice quality of the postural parameters was found to be 81.33\%. In future work, the objective sound quality will be determined to have more classes than three, and a system will be developed that evaluates a closer objective sound quality to reality. By doing this, the possible sound quality of the posture that the person is in can be examined in more detail and the feedback given to the individual will be elaborated more. At this point, a subject will be able to better predict the possible optimal posture when trying different postures.
Benzer Tezler
- Face detection by machine learning algorithms
Makine öğrenme algoritmalarıyla yüz tespiti
AHMED AMEER HAMDI HAMAMCHI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN ŞENGÜL
- Development of high performance grinding process using hybrid redundant manipulator
Hibrit artık robot kolu kullanarak yüksek performanslı taşlama işlemi geliştirmesi
MASOUD LATIFI NAVID
Doktora
İngilizce
2018
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERHAN İLHAN KONUKSEVEN
- İleri imalat teknolojisi yatırımlarının ekonomik analizi
The Economic justification of investments in advanced manufacturing technologies
TAMER ERTAN
Yüksek Lisans
Türkçe
1995
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. ETHEM TOLGA
- Boyutsal standartlar açısından Türkiye'de üretilen konut oturma ekipmanı tasarımı ve üretim teknolojileri ile ilişkisi
From the point of dimensional standarts; A survey of designing in door sitting equipment and its relation with the production technogies
NİLÜFER TATLISÖZ
- Temporal lob epilepsili hastalarda lateralizasyon değeri olan klinik bulguların değerlendirilmesi
An evaluation of the clinical signs meaningful for lateralization in patients with temporal lobe epilepsy
ESRA ERKOÇ ATAOĞLU