Makine öğrenme algoritmalarıyla konuşmacı tanılaması
Speaker identification with machine learning algorithms
- Tez No: 897643
- Danışmanlar: DR. ÖĞR. ÜYESİ TEMEL SÖNMEZOCAK
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Doğuş Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Bilim Dalı
- Sayfa Sayısı: 77
Özet
Teknolojinin her geçen gün sürekli gelişmesiyle birlikte, hayatımıza giren otomatik sistem ve cihazların sayısı her geçen gün artmaktadır. Bu yeni teknolojiler ile kontrol edilen sistem ve cihazların güvenliği, kontrolü, sevk ve idare edilmesi gibi durumlar için ayırt edici farklı kontrol mekanizmalarına ihtiyaç duyulmuştur. Bu arayış içerisinde kişiden kişiye değişen, parmak izi tanıma, retina tanıma, yüz tanıma, konuşma tanıma gibi karakteristik özellikleri ayırt etmeye yarayan yöntemler önem kazanmıştır. Bu çalışmada yaşları 18 ile 39 arasında değişen 10 farklı konuşmacıdan alınan konuşma örnekleri ile bir veri seti oluşturulmuştur. Her konuşmacıya bir donanım aracılığıyla, 25 farklı kelime teker teker söyletilerek kaydedilmiştir. Son bir kayıtta bu 25 kelimenin art arda söylenmesi ile oluşturulmuştur. Böylece kişi başı 26 farklı kayıttan oluşan 260 farklı veri elde edilmiştir. Her verinin Matlab programı ile zaman, frekans ve diğer özelliklerine bağlı değerleri çıkarılmıştır. Çıkarılan bu özelliklerin her birinin tanınması istenilen kullanıcı ile olan ilişkisi Pearson korelasyon analizi ile incelenmiştir. Pearson korelasyon analizi sonucu çıkış ile en ilişkili özellikler belirlenerek bir sıralama yapılmıştır. Sonrasında bu sıralamaya göre 14 özelliğin hepsinin, ilk beşinin ve ilk ikisinin kullanılması ile tablolar oluşturulmuştur. Ardından Matlab programının dalgacık dönüşümü arayüzü kullanılarak aynı veri seti için dalgacık dönüşümü analizi gerçekleştirilmiştir. Makine öğrenme algoritmaları bu sürece kadar elde edilen verilerin tamamı ile eğitilerek konuşmacıya yönelik bir tahminde bulunma sürecine tabi tutulmuştur. Bu süreç sonunda farklı makine öğrenme algoritmalarının ses özellik çıkarımı ve dalgacık dönüşümü teknikleriyle eğitimleri sonucu yüzdesel başarı performansları analiz edilerek yorumlanmıştır. Elde edilen sonuçlara göre özellik sayısı azaldıkça tahminlerin doğruluk oranı da azalmaktadır. Dalgacık dönüşüm ile yapılan analizler sonucu elde edilen verilerde, entropi değerinin de bir özellik sayısı olarak düşünülebileceği ortaya çıkmıştır.
Özet (Çeviri)
With the continuous development of technology, the number of automatic systems and devices entering our lives is increasing day by day. Different control mechanisms are needed for the security, control, dispatch and management of systems and devices controlled by these new technologies. In this search, methods that help distinguish characteristic features such as fingerprint recognition, retina recognition, face recognition, and speech recognition, which vary from person to person, have gained importance. In this study, a data set was created with speech samples taken from 10 different speakers aged between 18 and 39. Each speaker was recorded using equipment to say 25 different words one by one. A final recording was created by saying these 25 words consecutively. Thus, 260 different data consisting of 26 different records per person were obtained. Values of each data based on time, frequency and other characteristics were extracted with the Matlab program. The relationship of each of these extracted features with the desired user was examined with Pearson correlation analysis. As a result of Pearson correlation analysis, the features most associated with the output were determined and a ranking was made. Afterwards, tables were created using all 14 features, the first five and the first two, according to this order. Then, wavelet transform analysis was performed for the same data set using the wavelet transform interface of the Matlab program. Machine learning algorithms have been trained with all the data obtained so far and subjected to a process of making a prediction about the speaker. At the end of this process, the percentage success performances of different machine learning algorithms, as a result of their training with sound feature extraction and wavelet transform techniques, were analyzed and interpreted. According to the results obtained, as the number of features decreases, the accuracy of the predictions also decreases. In the data obtained as a result of the analysis made with wavelet transform, it was revealed that the entropy value can also be considered as a feature number.
Benzer Tezler
- Boyut arttırma yöntemleri kullanılarak eeg sinyallerinden derin öğrenme tabanlı şizofren durum tespiti
Deep learning based schizophrenia status determination from eeg signals using dimension augmentation methods
ZÜLFİKAR ASLAN
Doktora
Türkçe
2021
Elektrik ve Elektronik MühendisliğiDicle ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET AKIN
- Makine öğrenmesi algoritmalarıyla Türk işaret dilinde harf ve dinamik sözcük tanıma
Alphabet and dynamic word recognition in Turkish sign language with machine learning algorithms
ZEKERİYA KATILMIŞ
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CİHAN KARAKUZU
- Patolojik seslerin tanısı için derin öğrenme tabanlı tıbbi karar destek sisteminin geliştirilmesi
Development of a deep learning-based medical decision support system for the diagnosis of pathological voices
İREM BİGAT
Yüksek Lisans
Türkçe
2022
BiyomühendislikTOBB Ekonomi ve Teknoloji ÜniversitesiBiyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN EROĞUL
- Deep learning based road segmentation from multi-source and multi-scale data
Çok kaynaklı ve çok ölçekli veriyle derin öğrenme tabanlı yol bölütlenmesi
OZAN ÖZTÜRK
Doktora
İngilizce
2023
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. DURSUN ZAFER ŞEKER
- Modlar arası transfer öğrenimi ile ses sinyallerinden duygu tanıma
Emotion recognition from audio signals with cross-modal transfer learning
FAHREDDİN RAŞİT KILIÇ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FATMA PATLAR AKBULUT