Konuşmacı tanıma metinsel kayıt ve analiz sisteminin oluşturulması
Creating a model for text-dependent speaker diarization
- Tez No: 774117
- Danışmanlar: DOÇ. DR. HÜSEYİN GÜRÜLER
- Tez Türü: Yüksek Lisans
- Konular: Bilgi ve Belge Yönetimi, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Information and Records Management, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Muğla Sıtkı Koçman Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 87
Özet
Teknoloji günlük, akademik veya çalışma hayatımızı kolaylaştırır. Günümüzde yapay zekâ ve makine öğrenmesi teknolojik gelişmeleri ile inanılması güç doğruluk oranlarıyla gündelik hayatta yerini almıştır. Bireyin hayatını kolaylaştırma prensibinden hareketle gerçekleştirilmiş olan bu tez çalışmasında derin öğrenme teknikleri ile bir ses dosyasında mevcut ses sinyallerini inceleyerek konuşmacıların tanınması, etiketlenmesi ve diyalogların korunarak metne dönüştürülmesi üzerine bir model önerilmiştir. Tez çalışması, aslında, çok sayıda işlem adımı içeren bir boru hattı sistemidir. İlk olarak ses dosyasından Fourier dönüşümü ile ses sinyalleri alınmıştır. Ses sinyalini karakterize edecek olan bilgiler Mel-Frekansı Kepstrum Katsayıları ile alınarak testler Uzun-Kısa Vadeli Hafıza Ağları (LSTM) ile yapılmıştır. LSTM, bellek geçiş mekanizmasıyla uzun süreli bağımlılıkları öğrenebilmesi sebebiyle ses gibi verilerde zaman kavramının öneminden dolayı tercih sebebi olmuştur. Ses sinyalindeki müzik ve ses tahlili için kullanılan Librosa kütüphanesi kullanıldı. Ses kaydı üzerindeki arkaplan gürültüsünü arındırmak için Nvidia'nın önermiş olduğu model kullanıldı. Sesteki gürültü arındırıldıktan sonra konuşmacı tanıma/konuşma etkinliği algılama (Speech Recognition/Voice Activity Detection-VAD) adımı uygulanmaktadır. Ses dosyasından metne dönüştürmek için Google Cloud SpeechtoText API kullanıldı. Bu esnada konuşmacının değiştiğini algılaması için Konuşmacı Değişim Denetimi (Speaker Change Detection SCD) kullanılmıştır. Benzer özelliklere sahip verileri tek bir veri kümesinde gruplandırmak için Konuşma Dönüşü Kümeleme (Speech Turn Clustering- STC) bir sonraki adımı oluşturur. En nihayetinde yeniden segmentasyon ile işlem devam eder. Uygulamanın veri setinin oluşturulmasında 'Common Voice' veri seti kullanılmıştır. Bu ses dosyası çok net tek kişilik kısa konuşmalar içerir. Buradan alınan ses dosyaları rasgele olarak birleştirilerek 2 konuşmacılı, 3 konuşmacılı, 4 konuşmacılı diyaloglar elde edilerek yazılım sistemi eğitilmiş ve test edilmiştir. Önerdiğimiz model, konuşmalardaki kişileri etiketlerken yaklaşık %75 test başarısı sağlamıştır. Röportajlar, adli uygulamalar, ders materyalleri, araştırmalar, nitel çalışmalar gibi ses kayıtlarına ihtiyaç duyulduğu her alanda ses dosyasındaki konuşmacıyı tanıyıp diyaloğu yazıya dönüştürülmesi açısından olumlu katkı sağlayacağı öngörülmektedir. Ayrıca çalışmanın Türkçe dilinde algılama ve tanıma yapması Türkçe konuşmacı tanıma üzerine az materyali bulunan literatürü zenginleştireceği bir başka öngörüdür.
Özet (Çeviri)
Technology makes our everyday working lives and education easier. In the current era, artificial intelligence and machine learning have taken their roots in our day-to-day life due to their technological evolutions and unbelievable accuracy rates. In this thesis, which was carried out on the basis of facilitating the life of individuals, a model was presented on recognition and labeling of speech and conversion of audio dialoguesinto text by examining the audio signals available in an audio file using deep learning techniques. The study is, in fact, a portion of a large number of various phases. First, audio signals were taken from an audio file utilizing Fourier transform. Then, the information about the characterized audio signals was collected by employing Mel-Frequency Cepstral Coefficients and it was tested using Long-Short-Term Memory Networks(LSTM). LSTM has been preferably chosen due to the importance of the concept of time in data such as voicewaves, as it can retain long-term dependencies with the memory transition mechanism. This study utilizes the Librosa library, which is an application for music and sound analysis to retrieve audio signals. Nvidia's proposed model was used to remove background noise on the audio recording. After extracting the noises from the audio, the following steps- (Speech Recognition/Voice Activity DetectionVAD) are applied. The study also utilized Google Cloud Speech-to-Text API to convert speech to texts. In the meantime, Speaker Change Detection (SCD) is used to detect that the speaker has changed. In order to group data with similarcharacteristics into a single dataset, Speech Turn Clustering (STC) creates the next step. Ultimately, the process continues with re-segmentation. The 'Common Voice' is used to create the dataset of the application. These audio files contain short and clear conversations of multi speakers. The model has been examined and tested through the random combination of two-speakers, three-speakers, and fourspeakers dialogues. Our proposed model achieved nearly 75% test success when tagging speakers in conversations. It is predicted that it will make a positive contribution to recognizing the speaker in the audio file and converting dialoguesinto text in any field where audio recordings are needed, such as interviews, forensic applications, course materials, research, and qualitative studies. In addition, the detection and recognition of the Turkish language is another prediction that this study foresees, which will enrich the literature with little material on Turkish speaker recognition.
Benzer Tezler
- Türkçe video ve ses kayıtları için metinsel kayıt ve analiz sisteminin geliştirilmesi
Development of text recording and analysis system for turkish video and sound records
BAŞAK KIZILAY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN GÜRÜLER
- Ses parmakizi kullanılarak reklam tanıma
Commercial identification using audio fingerprinting
HÜSEYİN ÇABUK
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÖKHAN İNCE
- Supervised, semi-supervised and unsupervised methods in discriminative language modeling for automatic speech recognition
Otomatik konuşma tanıma için ayırıcı dil modellemede gözetimli, yarı-gözetimli ve gözetimsiz yöntemler
ERİNÇ DİKİCİ
Doktora
İngilizce
2016
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT SARAÇLAR
- Multi-modal deception detection from videos
Videolardan çoklu-modalite ile aldatmaca kestirimi
MEHMET UMUT ŞEN
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiPROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Multimodal emotion recognition in video
Video içerisinde çok alanlı duygu tanıma
TANER DANIŞMAN
Doktora
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. ADİL ALPKOÇAK