Geri Dön

Derin öğrenme tabanlı konuşma tanıma sistem tasarımı

Deep learning based speech recognition system design

  1. Tez No: 927368
  2. Yazar: BURAK KORCUKLU
  3. Danışmanlar: DOÇ. DR. AHMET EMİR DİRİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Konuşma tanıma, derin öğrenme, konuşmadan yazıya dönüşüm, sinyal işleme, doğal dil işleme, Speech recognition, deep learning, speech-to-text conversion, signal processing, natural language processing
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Bursa Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Doğal dil işleme, bilgisayarların, doğal yazı veya konuşma dilini nasıl anlayabileceğini ve manipüle edebileceğini çözümleyen araştırmalardan ve uygulamalardan oluşmaktadır. Konuşma işleme ise konuşma sinyalleri ve sinyal işleme yöntemlerini barındıran doğal dil işlemenin bir alt alanıdır. Konuşma sinyalleri çoğunlukla dijital gösterimleri üzerinden işlenerek farklı yöntemler ile yazı diline çevrilmektedir. Genellikle eğitim ve test aşamalarından oluşan bu süreç, eldeki etiketli veriler kullanılarak modeli eğitmek ve farklı etiketli veriler ile eğitilen modelin tutarlılığının ölçülmesini kapsamaktadır. Tarih boyunca birçok araştırmacı konuşulan dili yazıya dönüştürmek için farklı yaklaşımlar ve yöntemler geliştirmişlerdir. Günümüzde özel firmaların geliştirdikleri çevrimiçi konuşma tanıma modelleri birçok çalışma alanında kullanılmaktadır. Geliştirilen bu modeller Saklı Markov Modeli (HMM), yapay sinir ağları, gürültü temizlemek için kullanılan algoritmalar, derin öğrenme algoritmaları ve fonem sözlüklerinin bir arada kullanılmasıyla gerçekleştirilmektedir. Bu modellerin kullanımı akıllı ev sistemleri, otomotiv, askeriye, sağlık gibi çeşitli alanlarda gün geçtikçe artmaktadır. Kullanılan modellerin çoğunlukla çevrimiçi çalışması, kullanıcı tarafından yeni geliştirmelere izin vermemesi ve yetersiz dil desteği sebebiyle hala geliştirilmesi gereken birçok yanı bulunmaktadır. Bu tezde iki farklı doğal dilden yazıya dönüşüm modeli oluşturulmuştur. İlk model geleneksel yöntemlere alternatif olarak geliştiricinin işlem yükü ve karmaşıklığı daha az olan uçtan uca derin öğrenme yöntemi ile; ikincisi ise geleneksel yöntemlerle ön işlemeli bir süreç izlenerek gerçekleştirilmiştir. Bu modellerin konuşmacı bağımlılığı, veri seti boyutu, eğitim süresi gibi farklı koşullardaki başarıları saptanmaya çalışılmıştır. Ayrıca her iki modelin eğitim ve test aşamaları için gerekli veri setini oluşturmak amacıyla kullanıcılardan etiketli veri toplanabilecek ağ tabanlı bir yazılım geliştirilmiştir.

Özet (Çeviri)

Natural language processing consists of research and applications on how computers can understand and manipulate natural writing or spoken language. Speech processing is a sub-field of natural language processing that includes speech signals and signal processing methods. Speech signals are mostly processed through digital representations and translated into written language with different methods. This process, which usually consists of training and testing phases, includes training the model using the labeled data at hand and measuring the consistency of the trained model with different labeled data. Throughout history, many researchers have developed different approaches and methods to translate spoken language into writing. Today, online speech recognition models developed by private companies are used in many areas of work. These developed models are realized by using Hidden Markov Model (HMM), artificial neural networks, algorithms used for noise removal, deep learning algorithms and phoneme dictionaries together. The use of these models is increasing day by day in various fields such as smart home systems, automotive, military and health. The models used are mostly online, do not allow new developments by the user, and there are still many aspects that need to be improved due to insufficient language support. In this thesis, two different natural language-to-text transformation models have been created. As an alternative to traditional methods, the first model uses end-to-end deep learning method with less processing load and complexity; The second one was carried out following a pre-processed course with traditional methods. The success of these models in different conditions such as speaker addiction, data set size, and duration of education was tried to be determined. In addition, a network-based software has been developed to collect labeled data from users in order to create the necessary data set for the training and testing stages of both models.

Benzer Tezler

  1. Design of robust speaker idintification with built-in noise immunity

    Gürültü ayırıma özellikli hoparlör tasarımı

    ALI NAJDET NASRET CORAN

    Doktora

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiÇankaya Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

    DR. ÖĞR. ÜYESİ MURAD MOHAMMED AMIN

  2. Design of speaker diarization with speaker embeddings

    Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı

    MUHAMMET MESUT TORUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilim ve TeknolojiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET SERBES

    DOÇ. DR. GÖKHAN BİLGİN

  3. Veri artırma teknikleri ile iyileştirilmiş çok modlu duygu tanıma sistemi tasarımı ve uygulaması

    Design and implementation of a multimodal emotion recognition system enhanced by data augmentation techniques

    EMRAH DİKBIYIK

    Doktora

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖNDER DEMİR

    DOÇ. DR. BUKET DOĞAN

  4. Spoken infobot design

    Konuşan bilgi botu tasarımı

    RAMAZAN GÖKAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

  5. Next-generation MIMO systems: From index modulation to deep learning

    Yeni nesil çok-girişli çok-çıkışlı sistemler: İndis modülasyonundan derin öğrenmeye

    BURAK ÖZPOYRAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERTUĞRUL BAŞAR