Makine öğrenme algoritmalarıyla konuşmacı tanılaması

Speaker identification with machine learning algorithms

PDF İndir

Tez No: 897643
Yazar: KORAY ÖZTÜRK
Danışmanlar: DR. ÖĞR. ÜYESİ TEMEL SÖNMEZOCAK
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Doğuş Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Bilim Dalı
Sayfa Sayısı: 77

Özet

Teknolojinin her geçen gün sürekli gelişmesiyle birlikte, hayatımıza giren otomatik sistem ve cihazların sayısı her geçen gün artmaktadır. Bu yeni teknolojiler ile kontrol edilen sistem ve cihazların güvenliği, kontrolü, sevk ve idare edilmesi gibi durumlar için ayırt edici farklı kontrol mekanizmalarına ihtiyaç duyulmuştur. Bu arayış içerisinde kişiden kişiye değişen, parmak izi tanıma, retina tanıma, yüz tanıma, konuşma tanıma gibi karakteristik özellikleri ayırt etmeye yarayan yöntemler önem kazanmıştır. Bu çalışmada yaşları 18 ile 39 arasında değişen 10 farklı konuşmacıdan alınan konuşma örnekleri ile bir veri seti oluşturulmuştur. Her konuşmacıya bir donanım aracılığıyla, 25 farklı kelime teker teker söyletilerek kaydedilmiştir. Son bir kayıtta bu 25 kelimenin art arda söylenmesi ile oluşturulmuştur. Böylece kişi başı 26 farklı kayıttan oluşan 260 farklı veri elde edilmiştir. Her verinin Matlab programı ile zaman, frekans ve diğer özelliklerine bağlı değerleri çıkarılmıştır. Çıkarılan bu özelliklerin her birinin tanınması istenilen kullanıcı ile olan ilişkisi Pearson korelasyon analizi ile incelenmiştir. Pearson korelasyon analizi sonucu çıkış ile en ilişkili özellikler belirlenerek bir sıralama yapılmıştır. Sonrasında bu sıralamaya göre 14 özelliğin hepsinin, ilk beşinin ve ilk ikisinin kullanılması ile tablolar oluşturulmuştur. Ardından Matlab programının dalgacık dönüşümü arayüzü kullanılarak aynı veri seti için dalgacık dönüşümü analizi gerçekleştirilmiştir. Makine öğrenme algoritmaları bu sürece kadar elde edilen verilerin tamamı ile eğitilerek konuşmacıya yönelik bir tahminde bulunma sürecine tabi tutulmuştur. Bu süreç sonunda farklı makine öğrenme algoritmalarının ses özellik çıkarımı ve dalgacık dönüşümü teknikleriyle eğitimleri sonucu yüzdesel başarı performansları analiz edilerek yorumlanmıştır. Elde edilen sonuçlara göre özellik sayısı azaldıkça tahminlerin doğruluk oranı da azalmaktadır. Dalgacık dönüşüm ile yapılan analizler sonucu elde edilen verilerde, entropi değerinin de bir özellik sayısı olarak düşünülebileceği ortaya çıkmıştır.

Özet (Çeviri)

With the continuous development of technology, the number of automatic systems and devices entering our lives is increasing day by day. Different control mechanisms are needed for the security, control, dispatch and management of systems and devices controlled by these new technologies. In this search, methods that help distinguish characteristic features such as fingerprint recognition, retina recognition, face recognition, and speech recognition, which vary from person to person, have gained importance. In this study, a data set was created with speech samples taken from 10 different speakers aged between 18 and 39. Each speaker was recorded using equipment to say 25 different words one by one. A final recording was created by saying these 25 words consecutively. Thus, 260 different data consisting of 26 different records per person were obtained. Values of each data based on time, frequency and other characteristics were extracted with the Matlab program. The relationship of each of these extracted features with the desired user was examined with Pearson correlation analysis. As a result of Pearson correlation analysis, the features most associated with the output were determined and a ranking was made. Afterwards, tables were created using all 14 features, the first five and the first two, according to this order. Then, wavelet transform analysis was performed for the same data set using the wavelet transform interface of the Matlab program. Machine learning algorithms have been trained with all the data obtained so far and subjected to a process of making a prediction about the speaker. At the end of this process, the percentage success performances of different machine learning algorithms, as a result of their training with sound feature extraction and wavelet transform techniques, were analyzed and interpreted. According to the results obtained, as the number of features decreases, the accuracy of the predictions also decreases. In the data obtained as a result of the analysis made with wavelet transform, it was revealed that the entropy value can also be considered as a feature number.

Benzer Tezler

Tez No
672964
Boyut arttırma yöntemleri kullanılarak eeg sinyallerinden derin öğrenme tabanlı şizofren durum tespiti
Deep learning based schizophrenia status determination from eeg signals using dimension augmentation methods
ZÜLFİKAR ASLAN
Doktora
Türkçe
2021
Elektrik ve Elektronik Mühendisliği Dicle Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET AKIN
Tez No
705253
Makine öğrenmesi algoritmalarıyla Türk işaret dilinde harf ve dinamik sözcük tanıma
Alphabet and dynamic word recognition in Turkish sign language with machine learning algorithms
ZEKERİYA KATILMIŞ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bilecik Şeyh Edebali Üniversitesi
Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CİHAN KARAKUZU
Tez No
754145
Patolojik seslerin tanısı için derin öğrenme tabanlı tıbbi karar destek sisteminin geliştirilmesi
Development of a deep learning-based medical decision support system for the diagnosis of pathological voices
İREM BİGAT
Yüksek Lisans
Türkçe
2022
Biyomühendislik TOBB Ekonomi ve Teknoloji Üniversitesi
Biyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN EROĞUL
Tez No
828461
Deep learning based road segmentation from multi-source and multi-scale data
Çok kaynaklı ve çok ölçekli veriyle derin öğrenme tabanlı yol bölütlenmesi
OZAN ÖZTÜRK
Doktora
İngilizce
2023
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
Tez No
806700
Modlar arası transfer öğrenimi ile ses sinyallerinden duygu tanıma
Emotion recognition from audio signals with cross-modal transfer learning
FAHREDDİN RAŞİT KILIÇ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FATMA PATLAR AKBULUT

Geri Dön