Geri Dön

Makine öğrenme algoritmalarıyla konuşmacı tanılaması

Speaker identification with machine learning algorithms

  1. Tez No: 897643
  2. Yazar: KORAY ÖZTÜRK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TEMEL SÖNMEZOCAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Mühendislik Bilimleri, Electrical and Electronics Engineering, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Doğuş Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 77

Özet

Teknolojinin her geçen gün sürekli gelişmesiyle birlikte, hayatımıza giren otomatik sistem ve cihazların sayısı her geçen gün artmaktadır. Bu yeni teknolojiler ile kontrol edilen sistem ve cihazların güvenliği, kontrolü, sevk ve idare edilmesi gibi durumlar için ayırt edici farklı kontrol mekanizmalarına ihtiyaç duyulmuştur. Bu arayış içerisinde kişiden kişiye değişen, parmak izi tanıma, retina tanıma, yüz tanıma, konuşma tanıma gibi karakteristik özellikleri ayırt etmeye yarayan yöntemler önem kazanmıştır. Bu çalışmada yaşları 18 ile 39 arasında değişen 10 farklı konuşmacıdan alınan konuşma örnekleri ile bir veri seti oluşturulmuştur. Her konuşmacıya bir donanım aracılığıyla, 25 farklı kelime teker teker söyletilerek kaydedilmiştir. Son bir kayıtta bu 25 kelimenin art arda söylenmesi ile oluşturulmuştur. Böylece kişi başı 26 farklı kayıttan oluşan 260 farklı veri elde edilmiştir. Her verinin Matlab programı ile zaman, frekans ve diğer özelliklerine bağlı değerleri çıkarılmıştır. Çıkarılan bu özelliklerin her birinin tanınması istenilen kullanıcı ile olan ilişkisi Pearson korelasyon analizi ile incelenmiştir. Pearson korelasyon analizi sonucu çıkış ile en ilişkili özellikler belirlenerek bir sıralama yapılmıştır. Sonrasında bu sıralamaya göre 14 özelliğin hepsinin, ilk beşinin ve ilk ikisinin kullanılması ile tablolar oluşturulmuştur. Ardından Matlab programının dalgacık dönüşümü arayüzü kullanılarak aynı veri seti için dalgacık dönüşümü analizi gerçekleştirilmiştir. Makine öğrenme algoritmaları bu sürece kadar elde edilen verilerin tamamı ile eğitilerek konuşmacıya yönelik bir tahminde bulunma sürecine tabi tutulmuştur. Bu süreç sonunda farklı makine öğrenme algoritmalarının ses özellik çıkarımı ve dalgacık dönüşümü teknikleriyle eğitimleri sonucu yüzdesel başarı performansları analiz edilerek yorumlanmıştır. Elde edilen sonuçlara göre özellik sayısı azaldıkça tahminlerin doğruluk oranı da azalmaktadır. Dalgacık dönüşüm ile yapılan analizler sonucu elde edilen verilerde, entropi değerinin de bir özellik sayısı olarak düşünülebileceği ortaya çıkmıştır.

Özet (Çeviri)

With the continuous development of technology, the number of automatic systems and devices entering our lives is increasing day by day. Different control mechanisms are needed for the security, control, dispatch and management of systems and devices controlled by these new technologies. In this search, methods that help distinguish characteristic features such as fingerprint recognition, retina recognition, face recognition, and speech recognition, which vary from person to person, have gained importance. In this study, a data set was created with speech samples taken from 10 different speakers aged between 18 and 39. Each speaker was recorded using equipment to say 25 different words one by one. A final recording was created by saying these 25 words consecutively. Thus, 260 different data consisting of 26 different records per person were obtained. Values of each data based on time, frequency and other characteristics were extracted with the Matlab program. The relationship of each of these extracted features with the desired user was examined with Pearson correlation analysis. As a result of Pearson correlation analysis, the features most associated with the output were determined and a ranking was made. Afterwards, tables were created using all 14 features, the first five and the first two, according to this order. Then, wavelet transform analysis was performed for the same data set using the wavelet transform interface of the Matlab program. Machine learning algorithms have been trained with all the data obtained so far and subjected to a process of making a prediction about the speaker. At the end of this process, the percentage success performances of different machine learning algorithms, as a result of their training with sound feature extraction and wavelet transform techniques, were analyzed and interpreted. According to the results obtained, as the number of features decreases, the accuracy of the predictions also decreases. In the data obtained as a result of the analysis made with wavelet transform, it was revealed that the entropy value can also be considered as a feature number.

Benzer Tezler

  1. Boyut arttırma yöntemleri kullanılarak eeg sinyallerinden derin öğrenme tabanlı şizofren durum tespiti

    Deep learning based schizophrenia status determination from eeg signals using dimension augmentation methods

    ZÜLFİKAR ASLAN

    Doktora

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiDicle Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET AKIN

  2. Makine öğrenmesi algoritmalarıyla Türk işaret dilinde harf ve dinamik sözcük tanıma

    Alphabet and dynamic word recognition in Turkish sign language with machine learning algorithms

    ZEKERİYA KATILMIŞ

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBilecik Şeyh Edebali Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. CİHAN KARAKUZU

  3. Patolojik seslerin tanısı için derin öğrenme tabanlı tıbbi karar destek sisteminin geliştirilmesi

    Development of a deep learning-based medical decision support system for the diagnosis of pathological voices

    İREM BİGAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    BiyomühendislikTOBB Ekonomi ve Teknoloji Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN EROĞUL

  4. Deep learning based road segmentation from multi-source and multi-scale data

    Çok kaynaklı ve çok ölçekli veriyle derin öğrenme tabanlı yol bölütlenmesi

    OZAN ÖZTÜRK

    Doktora

    İngilizce

    İngilizce

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  5. Modlar arası transfer öğrenimi ile ses sinyallerinden duygu tanıma

    Emotion recognition from audio signals with cross-modal transfer learning

    FAHREDDİN RAŞİT KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FATMA PATLAR AKBULUT