Derin öğrenme ile türkçe ses işaretlerinden rakam tanıma

Digit recognition from turkish sound signals with deep learning

PDF İndir

Tez No: 848265
Yazar: ABDULLAH EROĞLU
Danışmanlar: DOÇ. DR. YILMAZ KAYA
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: CNN, CWT, LSTM, Ses dijit sınıflandırma, CNN, CWT, LSTM, Sound digit classification
Yıl: 2024
Dil: Türkçe
Üniversite: Batman Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgi Teknolojileri Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 73

Özet

Günümüzde, teknolojinin hızla ilerlemesiyle birlikte, ses tabanlı tanıma sistemleri birçok alanda önemli bir rol oynamaktadır. Ses, insanlar arasındaki temel iletişim araçlarından biri olmanın ötesinde, otomasyon, güvenlik ve kullanıcı deneyimi gibi birçok uygulama alanında da kritik bir faktördür. Sesin dijital ortamlarda etkili bir şekilde kullanılabilmesi, özellikle konuşma tanıma teknolojilerinin geliştirilmesi ile mümkün olmaktadır. Bu teknolojiler, ses sinyallerini analiz ederek konuşma dilini anlama ve çeşitli görevleri yerine getirme yeteneğine sahiptir. Özellikle dijital rakam sınıflandırma, bu konuşma tanıma teknolojilerinin önemli bir uygulama alanını oluşturmaktadır. Dijital rakam sınıflandırma, ses sinyallerinden elde edilen dijital rakamları doğru bir şekilde tanıyabilen ve ayırt edebilen sistemlerin geliştirilmesini içerir. Bu, telekomünikasyon sistemlerinden sesli komut sistemlerine, konuşma tabanlı güvenlik uygulamalarından çeşitli endüstriyel ve ticari uygulamalara kadar geniş bir yelpazede kullanım potansiyeli sunmaktadır. Bu bağlamda, ses tabanlı dijital rakam sınıflandırmanın önemi, günlük yaşamdan endüstriyel uygulamalara kadar geniş bir etki alanını kapsamaktadır. Bu çalışma, ses sinyalleri üzerinden gerçekleştirilen dijital rakam sınıflandırma işleminde kullanılan farklı makine öğrenimi modellerini değerlendirerek, bu alandaki teknolojik gelişmelere katkıda bulunmayı amaçlamaktadır. Ses sinyalleri üzerinden dijital rakam sınıflandırma için SVM, LSTM ve CNN modelleri değerlendirilmiştir. %80-20 eğitim-test oranında en yüksek başarı oranını %81,94 ile CNN modeli elde etmiştir. CNN modeli, özellikle“Altı (6)”dijiti için %98,2'lik bir başarı oranına ulaşarak dijit bazında yüksek performans sergilemiştir. Diğer dijitler arasında farklı başarı oranları gözlemlenmiş, örneğin“Bir (1)”ve“Dokuz (9)”için yüksek performans sergilenirken,“Üç (3)”,“Dört (4)”ve“Sekiz (8)”için daha düşük başarı oranları kaydedilmiştir. Çalışma kapsamında, farklı eğitimtest oranları altında yapılan değerlendirmelerde LSTM modeli %50-50 eğitim-test oranında en yüksek başarıyı göstermiştir. SVM'nin en yüksek başarı oranını ise %80-20 eğitim-test oranında elde ettiği görülmüştür. Ancak genel olarak, derin öğrenme modelleri olan LSTM ve CNN, SVM'ye kıyasla daha yüksek başarı oranları göstermiştir. Bu sayısal sonuçlar, derin öğrenme modellerinin özellikle ses tabanlı dijital tanıma uygulamalarında etkili bir şekilde kullanılabileceğini göstermiştir.

Özet (Çeviri)

In today's rapidly advancing technological landscape, speech-based recognition systems play a crucial role in various fields. Sound, beyond being a fundamental means of communication among individuals, serves as a critical factor in applications such as automation, security, and user experience. The effective utilization of sound in digital environments is made possible, particularly through the development of speech recognition technologies. These technologies have the capability to analyze sound signals, comprehend spoken language, and perform various tasks. Digital digit classification, particularly, constitutes a significant application area for these speech recognition technologies. Digital digit classification involves the development of systems that can accurately recognize and distinguish digital digits obtained from sound signals. This has a wide range of potential applications, from telecommunication systems to voice command systems and from speech-based security applications to various industrial and commercial applications. In this context, the importance of speech-based digital digit classification spans from everyday life to industrial applications. This study aims to contribute to technological advancements in this field by evaluating different machine learning models used in the process of digital digit classification from sound signals. SVM, LSTM, and CNN models were assessed for digital digit classification from sound signals, with the CNN model achieving the highest success rate at 81.94% in the 80-20 training-test ratio. The CNN model demonstrated high performance, particularly achieving a 98.2% success rate for the digit“Six (6).”Different success rates were observed among other digits, with high performance for“One (1)”and“Nine (9)”but lower success rates for“Three (3),”“Four (4),”and“Eight (8).”In the scope of the study, evaluations conducted under different training-test ratios revealed that the LSTM model exhibited the highest success at a 50-50 training-test ratio. SVM achieved its highest success rate at an 80-20 training-test ratio. However, overall, deep learning models, specifically LSTM and CNN, outperformed SVM, indicating that these numerical results highlight the effective use of deep learning models, especially in sound-based digital recognition applications.

Benzer Tezler

Tez No
889884
Derin öğrenme modelleri kullanarak ses işaretlerinden sahtecilik tespiti
Forgery detection from audio signals using deep learning models
FULYA AKDENİZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. YAŞAR BECERİKLİ
Tez No
748448
Emotion and gender identification on speech signals using deep learning methods
Konuşma sinyalleri üzerinde derin öğrenme yöntemleri kullanarak duygu ve cinsiyet tespiti
ÖZGÜR ÖZDEMİR
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN
Tez No
823892
The Turkish lip reading using deep learning method
Derin öğrenme yöntemi ile Türkçe dudak okuma
ALİ BERKOL
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliği Başkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAMİT ERDEM
Tez No
706866
Olasılıksal modeller ile Türkçe müzik türlerinin sınıflandırılması
Classification of Turkish music genres with probabilistic models
MEHMET CÜNEYT ÖZBALCI
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bursa Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TURGAY TUGAY BİLGİN
Tez No
540691
Derin öğrenme ile ses iyileştirilmesi
Voice enhancement by deep learning
MUSTAFA ERSEVEN
Yüksek Lisans
Türkçe
2018
Elektrik ve Elektronik Mühendisliği Yıldız Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BÜLENT BOLAT

Geri Dön