Geri Dön

Makine öğrenmesi tekniği ile konuşma kayıtlarının hızlandırılması

Speech record speed up with machine learning technics

  1. Tez No: 472726
  2. Yazar: PINAR DELUL ÇELEN
  3. Danışmanlar: DOÇ. DR. FIRAT HARDALAÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

İnsan beynindeki temel bilgi işleme sistemlerinden biri olan dinleme için yapılan çalışmalar göstermiştir ki insanlar konuştuklarından çok daha hızlı dinleyebilirler. Bazı insanlar çok yavaş konuşurken bazıları ise çok hızlı konuşur ve siz çoğu zaman ikisini de anlayabilirsiniz. Özellikle daha önce dinlenilen bir konuşma, tekrar dinleme ihtiyacı duyulduğunda çok daha hızlı bir şekilde dinleyerek de anlaşılabilir. Sunulan çalışmadaki amaç, konuşmaların anlaşılabilir bir şekilde hızlandırılmasıdır. Ses sinyali bir dizi sayısal veri olarak düşünülür ise; dizideki elemanlardan bir kısmını atıp, bir kısmını tutarak ses hızlandırabilir. Asıl önemli olan kısım ses verisinin neresinde insan sesinin olup neresinde olmadığını bulabilmektir. Çalışmada, bunu kural tabanlı olarak tanımlamak yerine sistemin kendisinin öğrenmesi istenilmiştir ve sisteme konuşma olan ve olmayan bölgeler işaretlenmiş veriler ve orijinalleri verilmiştir. Ses verisi, üzerinde pencereleme işlemi yapılarak küçük parçalara ayrılmıştır. Bunun için konuşma verileri pencerelere ayrılıp, her bir pencere için frekans uzayında FFT ( Fast Fourier Transform ), zaman uzayında ise entropi, ortlama standart sapma, tepe noktası, çarpıklık, ZCR (Zero Crossing rate), AR(autoregressive ) ve RMS (Root Mean Square ) olmak üzere 10 adet öznitelik üretilmiştir. Çok boyutluluğun lanetinden dolayı, ses sinyallerini en iyi ayıran k-ortalama yöntemi ile 3 adet öznitelik seçilmiştir. DVM tabanlı sınıflandırıcı eğitim verileri ile eğitilip, test verisindeki her bir pencerenin konuşma ile konuşma dışı alanlara sınıflandırılmıştır. Konuşma var olarak işaretlenen pencerelerdeki veriler birleştirilip hızlandırılmış ses verisi üretilmiştir. Hızlandırılmış ses verisi konuşma sentezleme programları ile metine dökülüp sistemin başarımı ölçülmüştür. Bu çalışma ile görülmüştür ki çeşitli yöntemler kullanılarak konuşmalar, insan beyninin anlayabileceği sınırlara kadar hızlandırılabilmektedir. Bu çalışmada konuşmalar yaklaşık anlaşılabilirlik oranı ile iki kat hızlandırılmıştır. Hızlı dinleme sistemlerini test etmek için konuşma tanıma yöntemleri kullanılan bir sistem geliştirilmiştir.

Özet (Çeviri)

Studies about the listening, which is one of the basic information processing systems in the human brain, have shown that humans can listen much faster than they speak. The speed of speaking varies from person to person, however you can mostly understand the speech even if it is very fast, most particularly if you have listened the speech before. The aim of this study is to improve the comprehension speed of speaking at a recognizable rate. If the audio signal is considered as a series of numerical data, it can be speeded up by discarding some of the elements in the sequence. The most important part is to find out where the human voice is and where it is not. In the study, instead of defining this as rule-based, the system itself was asked to learn, and the input of the system is marked as speech and non-speech data and originals. The audio data is divided into small pieces by windowing where 10 features are extracted for each window: FFT for the frequency space and entropy, standard deviation, peak, skewness, ZCR, AR and RMS for the time space. The best 3 of the features for the audio signals are selected using K-Means approach because of the curse of dimensionality. The SVM-based classifier is trained with the training data and each window in the test data is classified into speech and non-speech areas. Accelerated speech data is produced by merging the windows that have speech data and is synthesized by using speech synthesizing programs and the system performance is measured based on texts. It is seen in this study that speech can be accelerated to the limits that the human brain can understand by using various methods. In this study, speech was accelerated twice with approximate intelligibility. A system has been developed that uses speech recognition methods to test speed listening systems.

Benzer Tezler

  1. Konuşmacı tanımada makine öğrenmesi tekniklerinin kullanımı

    Use of machine learning techniques in speaker recognition

    ARMAĞAN KARABİNA

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOndokuz Mayıs Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDAL KILIÇ

  2. Konuşma bilgisi ve makine öğrenmesi kullanılarak duygu analizi

    Emotion recognition using speech information and machine learning

    İSMAİL AKBUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolPamukkale Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SEZAİ TOKAT

  3. Comparative study on music source separation methods

    Müzik kaynağı ayırma yöntemleri üzerine karşılaştırmalı çalışma

    BURAK BAYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET ÖNDER EFE

  4. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ

  5. Modlar arası transfer öğrenimi ile ses sinyallerinden duygu tanıma

    Emotion recognition from audio signals with cross-modal transfer learning

    FAHREDDİN RAŞİT KILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FATMA PATLAR AKBULUT