Grafik programlama kullanarak kepstrum analizi ve yapay sinir ağı ile konuşmacı tanıma
Speaker identification with cepstrum analysis and artificial neural network using graphical programming
- Tez No: 85071
- Danışmanlar: PROF. DR. HALİT PASTACI
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Metinden bağımsız konuşmacı tanıma, SOM, grafik programlama, yarım perde seslendirmesi, glotal uyarım, temel peryod çıkarma, kepstrum analizi XII, Text-independent speaker identification, SOM, graphical programming, pitch halving, glottal excitation, pitch extraction, cepstrum analysis Xlll
- Yıl: 1999
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 137
Özet
ÖZET Veri sınıflama amacıyla Kendi Kendini Düzenleyen bir tek Harita (SOM) yaygın bir şekilde denetleyicin bir eğitim ile birlikte kullanılır. Konuşmacı tanıma için bu çalışmada denetleyicin bir eğitim olmadan %98 doğrulukla ayrık SOM'Iar kullanılmıştır. Metinden bağımsız konuşmacı tanımayı gerçekleştirmek için hem eğitimde hem de tanımada ayrık SOM'Iar kullanıldı. TIMIT konuşma veri tabanından farklı yaş, eğitim ve lehçe gruplarına mensup oniki konuşmacı seçildi. İlk eğitimden sonra denetleyicin bir eğitim kullanılmadı. Ünlü seslerden elde edilen temel peryod T0 ve iki ila yirminci kepstrum katsayıları öznitelik vektörü olarak seçildi. 10 ms aralıklarla üst üste binmiş 32 ms uzunluktaki konuşma çerçevelerinden kepstrum katsayıları elde edildi. Konuşmacı tanımada en iyi glotal uyanm katkısını belirlemek için, deneyler sırasında kepstrum katsayılarına dokunmadan temel peryod skala faktörü değiştirildi. Kadın konuşmacılarda çok miktarda yarım peryod seslendirmesi ile karşılaşıldı. Yanm peryod seslendirmesinden kaynaklanan hatah T» değerlerinden sakınmak için iki geçişli bir öznitelik çıkarma yöntemi tasarlandı. Birinci geçiş sırasında yeni bir diferansiyel temel peryod çıkarıcısı normal perde ile birlikte görülen yarım perde etkisini ortadan kaldırdı. İkinci geçişte fizyolojik olarak olanaksız görülen veri, istatistik yöntemle ayıklandı. En iyi tanıma için glotal uyarım katkısı 0.0287e olarak bulundu. Bu uyarımla %98.3 tanıma skoru elde edildi. Öznitelik çıkarma ve konuşmacı tanıma LabView grafik dili kullanılarak gerçekleştirildi. GUI ortamında yapılan Arge sırasında Lab VIE W nun yazılı programlamadan daha efektif ve değerli bir araç olduğu görüldü.
Özet (Çeviri)
ABSTRACT A single Self-Organizing Map (SOM) is commonly followed by supervised training for data classification purposes. In this work individual SOM's were utilized without supervised training with 98% accuracy for text-independent speaker identification. Individual SOM's were trained and used to identify speakers independently of the speech being uttered. To realize text-independent speaker identification, twelve speakers belonging to different age, education and dialect groups were selected from TIMIT speech database. No supervised training was used after initial SOM training. Scaled fundamental period T0 and second through twentieth cepstral coefficients obtained from voiced speech were selected as the feature vector. Cepstrum coefficients were obtained from 32 ms speech frames overlapping every 10 ms. Keeping cepstral coefficients intact, fundamental period scale was varied throughout the experiments to determine the best contribution of glottal excitation to speaker identification. Female speech was observed to manifest a lot of pitch halving. To avoid erroneous J0 values due to pitch halving, a two-pass feature extraction scheme was devised. During the first-pass a novel differential pitch extractor eliminated the effects of half-pitch sounds occuring with normal-pitch sounds. The second-pass statistically eliminated outliers that are physiologically implausible. Glottal contribution for best identification was found to be 0.02870 for which an identification score of 98.3% was attained. Feature extraction and speaker identification were implemented using LabVTEW graphical language. During research and development on graphical user interface platforms, LabVIEW proved more efficient and valuable than text-based programming.
Benzer Tezler
- Application of biometrics to secure access using word recognition by neural networks
Yapay sinir ağlarıyla kelime tanıma kullanılarak güvenli erişimde biyometri uygulaması
MUHİTTİN İZGİ
Yüksek Lisans
İngilizce
2002
Elektrik ve Elektronik MühendisliğiFatih ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ORHAN ÖZHAN
- 6. sınıf öğrencilerinin matematik dersindeki öğrenme zorluklarının Scratch programıyla tasarlanan matematiksel oyunlarla giderilmesi: Bir eylem araştırması
Overcoming learning difficulties of 6th-grade students in mathematics class with nathematical games designed with Scratch program
ÖZLEM ÇUBUKLUÖZ
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimBartın ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. BURÇİN GÖKKURT ÖZDEMİR
- Visual design using genetic programming
Genetik programlama ile görsel tasarım
GÖZDE BAL
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SÜLEYMAN SEVİNÇ
- Realtime photo-realistic rendering using modern GPU systems
Modern GPU sistemlerini kullanarak gerçek zamanlı gerçekçi görüntü oluşturma
RAMAZAN BELLEK
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Vibration analysis of damped structures and structural reanalaysis using a new structural modification method
Sönümlü yapıların titreşim analizi ve yeni bir yapısal ve değişiklik metodu kullanarak tekrar analizi
MURAT TAHTALI
Yüksek Lisans
İngilizce
1992
Makine MühendisliğiOrta Doğu Teknik ÜniversitesiPROF. DR. H. NEVZAT ÖZGÜVEN