Geri Dön

Derin öğrenme ile türkçe ses işaretlerinden rakam tanıma

Digit recognition from turkish sound signals with deep learning

  1. Tez No: 848265
  2. Yazar: ABDULLAH EROĞLU
  3. Danışmanlar: DOÇ. DR. YILMAZ KAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: CNN, CWT, LSTM, Ses dijit sınıflandırma, CNN, CWT, LSTM, Sound digit classification
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Batman Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Günümüzde, teknolojinin hızla ilerlemesiyle birlikte, ses tabanlı tanıma sistemleri birçok alanda önemli bir rol oynamaktadır. Ses, insanlar arasındaki temel iletişim araçlarından biri olmanın ötesinde, otomasyon, güvenlik ve kullanıcı deneyimi gibi birçok uygulama alanında da kritik bir faktördür. Sesin dijital ortamlarda etkili bir şekilde kullanılabilmesi, özellikle konuşma tanıma teknolojilerinin geliştirilmesi ile mümkün olmaktadır. Bu teknolojiler, ses sinyallerini analiz ederek konuşma dilini anlama ve çeşitli görevleri yerine getirme yeteneğine sahiptir. Özellikle dijital rakam sınıflandırma, bu konuşma tanıma teknolojilerinin önemli bir uygulama alanını oluşturmaktadır. Dijital rakam sınıflandırma, ses sinyallerinden elde edilen dijital rakamları doğru bir şekilde tanıyabilen ve ayırt edebilen sistemlerin geliştirilmesini içerir. Bu, telekomünikasyon sistemlerinden sesli komut sistemlerine, konuşma tabanlı güvenlik uygulamalarından çeşitli endüstriyel ve ticari uygulamalara kadar geniş bir yelpazede kullanım potansiyeli sunmaktadır. Bu bağlamda, ses tabanlı dijital rakam sınıflandırmanın önemi, günlük yaşamdan endüstriyel uygulamalara kadar geniş bir etki alanını kapsamaktadır. Bu çalışma, ses sinyalleri üzerinden gerçekleştirilen dijital rakam sınıflandırma işleminde kullanılan farklı makine öğrenimi modellerini değerlendirerek, bu alandaki teknolojik gelişmelere katkıda bulunmayı amaçlamaktadır. Ses sinyalleri üzerinden dijital rakam sınıflandırma için SVM, LSTM ve CNN modelleri değerlendirilmiştir. %80-20 eğitim-test oranında en yüksek başarı oranını %81,94 ile CNN modeli elde etmiştir. CNN modeli, özellikle“Altı (6)”dijiti için %98,2'lik bir başarı oranına ulaşarak dijit bazında yüksek performans sergilemiştir. Diğer dijitler arasında farklı başarı oranları gözlemlenmiş, örneğin“Bir (1)”ve“Dokuz (9)”için yüksek performans sergilenirken,“Üç (3)”,“Dört (4)”ve“Sekiz (8)”için daha düşük başarı oranları kaydedilmiştir. Çalışma kapsamında, farklı eğitimtest oranları altında yapılan değerlendirmelerde LSTM modeli %50-50 eğitim-test oranında en yüksek başarıyı göstermiştir. SVM'nin en yüksek başarı oranını ise %80-20 eğitim-test oranında elde ettiği görülmüştür. Ancak genel olarak, derin öğrenme modelleri olan LSTM ve CNN, SVM'ye kıyasla daha yüksek başarı oranları göstermiştir. Bu sayısal sonuçlar, derin öğrenme modellerinin özellikle ses tabanlı dijital tanıma uygulamalarında etkili bir şekilde kullanılabileceğini göstermiştir.

Özet (Çeviri)

In today's rapidly advancing technological landscape, speech-based recognition systems play a crucial role in various fields. Sound, beyond being a fundamental means of communication among individuals, serves as a critical factor in applications such as automation, security, and user experience. The effective utilization of sound in digital environments is made possible, particularly through the development of speech recognition technologies. These technologies have the capability to analyze sound signals, comprehend spoken language, and perform various tasks. Digital digit classification, particularly, constitutes a significant application area for these speech recognition technologies. Digital digit classification involves the development of systems that can accurately recognize and distinguish digital digits obtained from sound signals. This has a wide range of potential applications, from telecommunication systems to voice command systems and from speech-based security applications to various industrial and commercial applications. In this context, the importance of speech-based digital digit classification spans from everyday life to industrial applications. This study aims to contribute to technological advancements in this field by evaluating different machine learning models used in the process of digital digit classification from sound signals. SVM, LSTM, and CNN models were assessed for digital digit classification from sound signals, with the CNN model achieving the highest success rate at 81.94% in the 80-20 training-test ratio. The CNN model demonstrated high performance, particularly achieving a 98.2% success rate for the digit“Six (6).”Different success rates were observed among other digits, with high performance for“One (1)”and“Nine (9)”but lower success rates for“Three (3),”“Four (4),”and“Eight (8).”In the scope of the study, evaluations conducted under different training-test ratios revealed that the LSTM model exhibited the highest success at a 50-50 training-test ratio. SVM achieved its highest success rate at an 80-20 training-test ratio. However, overall, deep learning models, specifically LSTM and CNN, outperformed SVM, indicating that these numerical results highlight the effective use of deep learning models, especially in sound-based digital recognition applications.

Benzer Tezler

  1. Derin öğrenme modelleri kullanarak ses işaretlerinden sahtecilik tespiti

    Forgery detection from audio signals using deep learning models

    FULYA AKDENİZ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. YAŞAR BECERİKLİ

  2. Emotion and gender identification on speech signals using deep learning methods

    Konuşma sinyalleri üzerinde derin öğrenme yöntemleri kullanarak duygu ve cinsiyet tespiti

    ÖZGÜR ÖZDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  3. The Turkish lip reading using deep learning method

    Derin öğrenme yöntemi ile Türkçe dudak okuma

    ALİ BERKOL

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAMİT ERDEM

  4. Olasılıksal modeller ile Türkçe müzik türlerinin sınıflandırılması

    Classification of Turkish music genres with probabilistic models

    MEHMET CÜNEYT ÖZBALCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TURGAY TUGAY BİLGİN

  5. Derin öğrenme ile ses iyileştirilmesi

    Voice enhancement by deep learning

    MUSTAFA ERSEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BÜLENT BOLAT