Geri Dön

Gerçek zamanlı Türkçe konuşma tanıma

Real-time Turkish speech recognition

  1. Tez No: 837280
  2. Yazar: EYÜP ENSAR KALAYCI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ANIL BAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 64

Özet

Konuşma tanıma, konuşulan dilin bilgisayar tarafından tanınmasını ve metne çevrilmesini sağlayan teknolojiler geliştiren bilgisayar bilimi ve hesaplamalı dilbilimin disiplinler arası bir alt alanıdır. Son 30 yıl içerisinde büyük ölçüde gelişmiş ve kullanımını etkili şekilde artırmış teknolojiler arasındadır. Günümüzde bu teknolojiden sayısız alanda destek alınmaktadır; araç-içi sistemler, tıp, raporlama, askeri alanlarda özellikle hava araçların, telefon ve uygulamalarından olan interaktif sesli yanıt sistemleri, ev otomasyon sistemleri ayrıca engele sahip insanların hayatlarını kolaylaştırma uygulama alanlarıdır. Literatürde Otomatik ASR veya STT olarak kısaltılan konuşma tanıma teknolojisi, Türkçe için de çözüm ve iyileştirme bekleyen açık problemler arasında görülebilir. 2006 ve sonrası makinelerin hızlanması ve Sinir Ağları için eğitim sorunlarının çözümü ile bu alanda Sinir Ağları son teknoloji konuma geldi ve sonrasında özellikle konuşma tanıma gibi anlık bilginin önceki girişlere bağlı olduğu problemlerin çözümü için icat edilen Yinelemeli Sinir Ağları tercih edildi. Günümüzde ise uçtan-uca olarak isimlendirilen; kompleks farklı modellerin bir arada kullanılmasının aksine yalnızca bir tek model ile konuşma tanımaya çözüm arayan modeller tercih edilmekte ve bu yöntem geçerli son teknolojiye ev sahipliği yapmaktadır. Bu çalışmada ise Türkçe için gerçek zamanlı konuşma tanımanın ele alınması ve yüksek performansla çalışan son teknoloji örneğin sunulması üzerinde araştırma yapılmış ve uçtan-uca yöntemler tercih edilmiştir. Bu kapsamda eğitimler ve testler için kullanılan veri seti sıfırdan derlenmiş ve veri artırım yöntemleri kullanılmadan 6000 saatten fazla Türkçe konuşma ses veri derlenmiştir. Çalışma kapsamında geleneksel modeller ve uçtan-uca modeller eğitilmiş, performans farkları ortak bir veri seti üzerinden sunulmuştur. Bu noktada geleneksel yöntemlerde Türkçenin sondan eklemeli bir oluşu sebebiyle sıklıkla kendini gösteren sözlük dışı kalma problemi incelenmiş, yeni yöntemlerin bu konudaki performansları araştırılmıştır. Uçtan-uca konuşma tanıma modelleri olarak göze çarpan Transformer ve devamında geliştirilen Conformer tezde ana konu olarak ele alınarak ve konuşma tanıma için gerekli olan ses aktivitesi dedektörü, gürültü azaltma veya bastırma gibi konular üzerinde de araştırmalar yapılmıştır.

Özet (Çeviri)

Speech recognition is an interdisciplinary subfield of computer science and computational linguistics that focuses on developing technologies for recognizing and translating the spoken language into text by computers. It has greatly advanced over the past 30 years and is among the technologies that have significantly increased their usage. Nowadays, this technology is utilized in numerous fields, including in-vehicle systems, medicine, reporting, military applications, especially in the context of aerial vehicles, interactive voice response systems in phones and applications, home automation systems, and applications that facilitate the lives of individuals with disabilities. In the literature, Automatic Speech Recognition (ASR) or Speech-to-Text (STT) technology, abbreviated as ASR or STT, can be seen as one of the open problems that require solutions and improvements for Turkish. Since 2006, with the increase in computational power and the practical resolution of issues related to Neural Networks, Neural Networks have become the state-of-the-art technology in this field. Subsequently, Recurrent Neural Networks (RNNs) were invented, particularly for solving problems where real-time information depends on previous inputs, such as speech recognition. Nowadays, end-to-end models, which are referred to as“end-to-end,”are preferred. Unlike using complex different models together, these models seek solutions for speech recognition using only a single model, and this approach hosts the current state-of-the-art technology. In this study, real-time speech recognition for Turkish is addressed, and research is conducted on presenting state-of-the-art technology that performs with high efficiency. End-to-end methods are preferred in this context. Within this scope, a data set used for training and testing is compiled from scratch, and more than 6,000 hours of Turkish speech data is collected without using data augmentation methods. Traditional models and end-to-end models are trained and their performance differences are presented on a common data set. In this regard, the out-of-vocabulary issue that frequently arises due to the agglutinative nature of Turkish in traditional methods is examined, and the performance of new methods in this regard is investigated. Transformer, which stands out as an end-to-end speech recognition model, and its subsequent development, Conformer, are considered as the main topics in this thesis. Additionally, research is conducted on topics related to speech recognition, such as speech activity detection, noise reduction or suppression.

Benzer Tezler

  1. Gerçek zamanlı yüksek kalitede ses tanıma

    Real time high quality voice recognition

    MERT YILMAZ ÇAKIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YAHYA ŞİRİN

  2. Otomobil içindeki cihazların sesle kontrolüne yönelik konuşmacıdan bağımsız konuşma tanımı sisteminin gerçek zamanlı uygulaması

    Real time application of speaker independent speech recognition system for voice activated control of devices in car

    ERSOY KELEBEKLER

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. MELİH İNAL

  3. Ses komutları ile robot kolu kontrolü

    Robot arm control by using voice commands

    OZAN FIRAT ÇIPLAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Mühendislik BilimleriKırşehir Ahi Evran Üniversitesi

    İleri Teknolojiler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SERKAN KESER

  4. Konuşma tanıma teknolojisi kullanılarak devre tasarım ve analizi

    Circuit design and analysis by using speech recognition technology

    AYŞE YAYLA

    Doktora

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiMarmara Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    DOÇ. DR. HAYRİYE KORKMAZ

    DOÇ. DR. ALİ BULDU

  5. Diyalog bazlı yapay zekâ ve yabancı dil: Konuşma öğretimi sürecinde bir model

    Conversational artificial intelligence and foreign language: A model in the process of teaching speaking

    ÖZKAN YAVUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Dilbilim Ana Bilim Dalı

    DOÇ. DR. MEHMET GÜRLEK