Gerçek zamanlı Türkçe konuşma tanıma
Real-time Turkish speech recognition
- Tez No: 837280
- Danışmanlar: DR. ÖĞR. ÜYESİ ANIL BAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 64
Özet
Konuşma tanıma, konuşulan dilin bilgisayar tarafından tanınmasını ve metne çevrilmesini sağlayan teknolojiler geliştiren bilgisayar bilimi ve hesaplamalı dilbilimin disiplinler arası bir alt alanıdır. Son 30 yıl içerisinde büyük ölçüde gelişmiş ve kullanımını etkili şekilde artırmış teknolojiler arasındadır. Günümüzde bu teknolojiden sayısız alanda destek alınmaktadır; araç-içi sistemler, tıp, raporlama, askeri alanlarda özellikle hava araçların, telefon ve uygulamalarından olan interaktif sesli yanıt sistemleri, ev otomasyon sistemleri ayrıca engele sahip insanların hayatlarını kolaylaştırma uygulama alanlarıdır. Literatürde Otomatik ASR veya STT olarak kısaltılan konuşma tanıma teknolojisi, Türkçe için de çözüm ve iyileştirme bekleyen açık problemler arasında görülebilir. 2006 ve sonrası makinelerin hızlanması ve Sinir Ağları için eğitim sorunlarının çözümü ile bu alanda Sinir Ağları son teknoloji konuma geldi ve sonrasında özellikle konuşma tanıma gibi anlık bilginin önceki girişlere bağlı olduğu problemlerin çözümü için icat edilen Yinelemeli Sinir Ağları tercih edildi. Günümüzde ise uçtan-uca olarak isimlendirilen; kompleks farklı modellerin bir arada kullanılmasının aksine yalnızca bir tek model ile konuşma tanımaya çözüm arayan modeller tercih edilmekte ve bu yöntem geçerli son teknolojiye ev sahipliği yapmaktadır. Bu çalışmada ise Türkçe için gerçek zamanlı konuşma tanımanın ele alınması ve yüksek performansla çalışan son teknoloji örneğin sunulması üzerinde araştırma yapılmış ve uçtan-uca yöntemler tercih edilmiştir. Bu kapsamda eğitimler ve testler için kullanılan veri seti sıfırdan derlenmiş ve veri artırım yöntemleri kullanılmadan 6000 saatten fazla Türkçe konuşma ses veri derlenmiştir. Çalışma kapsamında geleneksel modeller ve uçtan-uca modeller eğitilmiş, performans farkları ortak bir veri seti üzerinden sunulmuştur. Bu noktada geleneksel yöntemlerde Türkçenin sondan eklemeli bir oluşu sebebiyle sıklıkla kendini gösteren sözlük dışı kalma problemi incelenmiş, yeni yöntemlerin bu konudaki performansları araştırılmıştır. Uçtan-uca konuşma tanıma modelleri olarak göze çarpan Transformer ve devamında geliştirilen Conformer tezde ana konu olarak ele alınarak ve konuşma tanıma için gerekli olan ses aktivitesi dedektörü, gürültü azaltma veya bastırma gibi konular üzerinde de araştırmalar yapılmıştır.
Özet (Çeviri)
Speech recognition is an interdisciplinary subfield of computer science and computational linguistics that focuses on developing technologies for recognizing and translating the spoken language into text by computers. It has greatly advanced over the past 30 years and is among the technologies that have significantly increased their usage. Nowadays, this technology is utilized in numerous fields, including in-vehicle systems, medicine, reporting, military applications, especially in the context of aerial vehicles, interactive voice response systems in phones and applications, home automation systems, and applications that facilitate the lives of individuals with disabilities. In the literature, Automatic Speech Recognition (ASR) or Speech-to-Text (STT) technology, abbreviated as ASR or STT, can be seen as one of the open problems that require solutions and improvements for Turkish. Since 2006, with the increase in computational power and the practical resolution of issues related to Neural Networks, Neural Networks have become the state-of-the-art technology in this field. Subsequently, Recurrent Neural Networks (RNNs) were invented, particularly for solving problems where real-time information depends on previous inputs, such as speech recognition. Nowadays, end-to-end models, which are referred to as“end-to-end,”are preferred. Unlike using complex different models together, these models seek solutions for speech recognition using only a single model, and this approach hosts the current state-of-the-art technology. In this study, real-time speech recognition for Turkish is addressed, and research is conducted on presenting state-of-the-art technology that performs with high efficiency. End-to-end methods are preferred in this context. Within this scope, a data set used for training and testing is compiled from scratch, and more than 6,000 hours of Turkish speech data is collected without using data augmentation methods. Traditional models and end-to-end models are trained and their performance differences are presented on a common data set. In this regard, the out-of-vocabulary issue that frequently arises due to the agglutinative nature of Turkish in traditional methods is examined, and the performance of new methods in this regard is investigated. Transformer, which stands out as an end-to-end speech recognition model, and its subsequent development, Conformer, are considered as the main topics in this thesis. Additionally, research is conducted on topics related to speech recognition, such as speech activity detection, noise reduction or suppression.
Benzer Tezler
- Gerçek zamanlı yüksek kalitede ses tanıma
Real time high quality voice recognition
MERT YILMAZ ÇAKIR
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Sabahattin Zaim ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YAHYA ŞİRİN
- Otomobil içindeki cihazların sesle kontrolüne yönelik konuşmacıdan bağımsız konuşma tanımı sisteminin gerçek zamanlı uygulaması
Real time application of speaker independent speech recognition system for voice activated control of devices in car
ERSOY KELEBEKLER
Yüksek Lisans
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. MELİH İNAL
- Ses komutları ile robot kolu kontrolü
Robot arm control by using voice commands
OZAN FIRAT ÇIPLAK
Yüksek Lisans
Türkçe
2020
Mühendislik BilimleriKırşehir Ahi Evran Üniversitesiİleri Teknolojiler Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERKAN KESER
- Konuşma tanıma teknolojisi kullanılarak devre tasarım ve analizi
Circuit design and analysis by using speech recognition technology
AYŞE YAYLA
Doktora
Türkçe
2018
Elektrik ve Elektronik MühendisliğiMarmara ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
DOÇ. DR. HAYRİYE KORKMAZ
DOÇ. DR. ALİ BULDU
- Diyalog bazlı yapay zekâ ve yabancı dil: Konuşma öğretimi sürecinde bir model
Conversational artificial intelligence and foreign language: A model in the process of teaching speaking
ÖZKAN YAVUZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiDilbilim Ana Bilim Dalı
DOÇ. DR. MEHMET GÜRLEK