Geri Dön

Kendi kendine denetimli öğrenme tabanlı Türkçe konuşma tanıma sistemi

Self-supervised learning based Turkish speech recognition system

  1. Tez No: 888308
  2. Yazar: ALP KAAN TURAN
  3. Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 105

Özet

Otomatik Konuşma Tanıma, kavramsal temelleri 1930'larda atılan ve o yıllardan bu yana üzerinde yoğun çalışmalar yürütülen bir konudur. İlk uygulamaları, 1950'li yılların başında donanım tabanlı, sınırlı çözümler şeklinde ortaya çıkmıştır. Bilgi işleme sistemlerindeki ilerlemelerle birlikte kapsamı genişlemiş, donanım tabanlı çözümler zamanla yerini istatistik temelli çözümlere bırakmıştır. Geleneksel Makine Öğrenmesi ve sonrasında Derin Öğrenme yöntemlerindeki gelişmeler, Otomatik Konuşma Tanıma alanında Yapay Zekânın kullanılmasını mümkün kılmıştır. Böylece, uçtan-uca, doğal konuşmayı tanıma yeteneğine sahip, çok dilli ve konuşmacılı sistemler geliştirilmiştir. Bu çalışmada, Derin Öğrenme yöntemlerinden biri olan Kendi Kendine Denetimli Öğrenme üzerinden Otomatik Konuşma Tanıma sistemleri incelenmiş ve Whisper mimarisini kullanan bir Otomatik Konuşma Tanıma sistemi uygulaması geliştirilmiştir. Temel kavramlar ve yöntemler açıklandıktan sonra geliştirilen uygulama üzerinde deney ve ölçümlemeler yapılmıştır. Ardından, yapılan eklemelerle, ince ayar işleminin uygulandığı modeller üzerindeki etkisi değerlendirilmiştir. Son olarak, Whisper temel mimarisinde bulunmayan eş zamanlı konuşma tanıma özelliği, kısa gecikmeli konuşma tanıma yeteneğine sahip Whisper-Streaming ve WhisperLive ek uygulamaları kullanılarak ölçümlenmiştir. Deneyler, Türkçe konuşma veri kümeleri üzerinde, Whisper mimarisine ait beş model tipi kullanılarak yürütülmüştür. Üst modellerle, ilgili veri kümeleri üzerinde yapılan ölçümlerde %4,3 ile %14,2 arasında kelime hata oranları elde edilmiştir. İnce ayar uygulanan modellerde, hata oranında %52,38'e varan iyileşmeler gözlemlenmiştir. Whisper-Streaming ve WhisperLive uygulamalarıyla, güncel Türkçe konuşmalar kullanılarak yapılan ölçümlerde sırasıyla %8,80 ve %16,1 kelime hata oranlarına ulaşılmıştır.

Özet (Çeviri)

Automatic Speech Recognition is a topic whose conceptual foundations were laid in the 1930s and has been the subject of intensive research since then. Its first applications emerged in the early 1950s as hardware-based, limited solutions. With the advances in information processing systems, its scope has widened, and hardware-based solutions have gradually been replaced by statistics-based solutions. Advances in traditional Machine Learning and later Deep Learning methods have made it possible to use Artificial Intelligence in Automatic Speech Recognition. Thus, end-to-end, multi-lingual and multi-speaker systems capable of natural speech recognition have been developed. In this paper, we analyze Automatic Speech Recognition systems using Self-Supervised Learning, one of the Deep Learning methods, and develop an implementation of an Automatic Speech Recognition system using the Whisper architecture. After explaining the basic concepts and methods, experiments and measurements are performed on the developed application. Then, with the additions made, the impact of the fine-tuning process on the implemented models is evaluated. Finally, the simultaneous speech recognition feature, which is not available in the Whisper base architecture, is measured using the Whisper-Streaming and WhisperLive extensions, which are capable of short delay speech recognition. The experiments were conducted on Turkish speech datasets using five model types of the Whisper architecture. With the top models, word error rates between 4.3% and 14.2% were obtained on the relevant datasets. For the fine-tuned models, improvements of up to 52.38% were observed. With the Whisper-Streaming and WhisperLive applications, word error rates of 8.80% and 16.1%, respectively, were achieved using current Turkish speech.

Benzer Tezler

  1. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  2. In-memory (hafıza içi) veri tabanı sistemlerinde akıllı log analizi

    Intelligency log analyses on in-memory database systems

    HAYATİ TUTAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. METİN ZONTUL

  3. TFEEC : Türkçe finansal olay çıkarım derlemi

    TFEEC : Turkish financial event extraction corpus

    KADİR ŞİNAS KAYNAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Yapay zeka metotlarının bir sınıflandırma probleminde karşılaştırılması

    Comparison of artificial intelligience methods for a classification problem

    NİLGÜN ŞENGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Endüstri ve Endüstri MühendisliğiSüleyman Demirel Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLTEKİN ÖZDEMİR

  5. Sosyal bilimler eğitim programlarında blok tabanlı ve metin tabanlı programlama dillerinin temel programlama öğrenme sürecine etkisi

    The effect of block based programming and text based programming environments on learning programming skills in social science education

    ÖZLEM BAYRAM AKBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimMimar Sinan Güzel Sanatlar Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. SALİH OFLUOĞLU