Kendi kendine denetimli öğrenme tabanlı Türkçe konuşma tanıma sistemi
Self-supervised learning based Turkish speech recognition system
- Tez No: 888308
- Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 105
Özet
Otomatik Konuşma Tanıma, kavramsal temelleri 1930'larda atılan ve o yıllardan bu yana üzerinde yoğun çalışmalar yürütülen bir konudur. İlk uygulamaları, 1950'li yılların başında donanım tabanlı, sınırlı çözümler şeklinde ortaya çıkmıştır. Bilgi işleme sistemlerindeki ilerlemelerle birlikte kapsamı genişlemiş, donanım tabanlı çözümler zamanla yerini istatistik temelli çözümlere bırakmıştır. Geleneksel Makine Öğrenmesi ve sonrasında Derin Öğrenme yöntemlerindeki gelişmeler, Otomatik Konuşma Tanıma alanında Yapay Zekânın kullanılmasını mümkün kılmıştır. Böylece, uçtan-uca, doğal konuşmayı tanıma yeteneğine sahip, çok dilli ve konuşmacılı sistemler geliştirilmiştir. Bu çalışmada, Derin Öğrenme yöntemlerinden biri olan Kendi Kendine Denetimli Öğrenme üzerinden Otomatik Konuşma Tanıma sistemleri incelenmiş ve Whisper mimarisini kullanan bir Otomatik Konuşma Tanıma sistemi uygulaması geliştirilmiştir. Temel kavramlar ve yöntemler açıklandıktan sonra geliştirilen uygulama üzerinde deney ve ölçümlemeler yapılmıştır. Ardından, yapılan eklemelerle, ince ayar işleminin uygulandığı modeller üzerindeki etkisi değerlendirilmiştir. Son olarak, Whisper temel mimarisinde bulunmayan eş zamanlı konuşma tanıma özelliği, kısa gecikmeli konuşma tanıma yeteneğine sahip Whisper-Streaming ve WhisperLive ek uygulamaları kullanılarak ölçümlenmiştir. Deneyler, Türkçe konuşma veri kümeleri üzerinde, Whisper mimarisine ait beş model tipi kullanılarak yürütülmüştür. Üst modellerle, ilgili veri kümeleri üzerinde yapılan ölçümlerde %4,3 ile %14,2 arasında kelime hata oranları elde edilmiştir. İnce ayar uygulanan modellerde, hata oranında %52,38'e varan iyileşmeler gözlemlenmiştir. Whisper-Streaming ve WhisperLive uygulamalarıyla, güncel Türkçe konuşmalar kullanılarak yapılan ölçümlerde sırasıyla %8,80 ve %16,1 kelime hata oranlarına ulaşılmıştır.
Özet (Çeviri)
Automatic Speech Recognition is a topic whose conceptual foundations were laid in the 1930s and has been the subject of intensive research since then. Its first applications emerged in the early 1950s as hardware-based, limited solutions. With the advances in information processing systems, its scope has widened, and hardware-based solutions have gradually been replaced by statistics-based solutions. Advances in traditional Machine Learning and later Deep Learning methods have made it possible to use Artificial Intelligence in Automatic Speech Recognition. Thus, end-to-end, multi-lingual and multi-speaker systems capable of natural speech recognition have been developed. In this paper, we analyze Automatic Speech Recognition systems using Self-Supervised Learning, one of the Deep Learning methods, and develop an implementation of an Automatic Speech Recognition system using the Whisper architecture. After explaining the basic concepts and methods, experiments and measurements are performed on the developed application. Then, with the additions made, the impact of the fine-tuning process on the implemented models is evaluated. Finally, the simultaneous speech recognition feature, which is not available in the Whisper base architecture, is measured using the Whisper-Streaming and WhisperLive extensions, which are capable of short delay speech recognition. The experiments were conducted on Turkish speech datasets using five model types of the Whisper architecture. With the top models, word error rates between 4.3% and 14.2% were obtained on the relevant datasets. For the fine-tuned models, improvements of up to 52.38% were observed. With the Whisper-Streaming and WhisperLive applications, word error rates of 8.80% and 16.1%, respectively, were achieved using current Turkish speech.
Benzer Tezler
- Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Task based management of user queries for effective query suggestions
NURULLAH ATEŞ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
- In-memory (hafıza içi) veri tabanı sistemlerinde akıllı log analizi
Intelligency log analyses on in-memory database systems
HAYATİ TUTAR
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. METİN ZONTUL
- TFEEC : Türkçe finansal olay çıkarım derlemi
TFEEC : Turkish financial event extraction corpus
KADİR ŞİNAS KAYNAK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Yapay zeka metotlarının bir sınıflandırma probleminde karşılaştırılması
Comparison of artificial intelligience methods for a classification problem
NİLGÜN ŞENGÖZ
Yüksek Lisans
Türkçe
2016
Endüstri ve Endüstri MühendisliğiSüleyman Demirel ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLTEKİN ÖZDEMİR
- Sosyal bilimler eğitim programlarında blok tabanlı ve metin tabanlı programlama dillerinin temel programlama öğrenme sürecine etkisi
The effect of block based programming and text based programming environments on learning programming skills in social science education
ÖZLEM BAYRAM AKBAY
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimMimar Sinan Güzel Sanatlar ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. SALİH OFLUOĞLU