Automatic speech segmentation and database annotation
Otomatik konuşma bölütlendirme ve veri tabanı etiketlendirme
- Tez No: 118909
- Danışmanlar: PROF. DR. MÜBECCEL DEMİREKLER
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Konuşma Bölütlendirme, konuşma etiketlendirme, Türkçe Fonetik Alfabe, HTK, ses veritabanı etiketlendirme vı, Speech segmentation, Database labeling, HTK, Turkish phoneme set IV
- Yıl: 2002
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 96
Özet
oz OTOMATİK KONUŞMA BÖLÜTLENDIRME VE VERİTABANI ETİKETLENDİRME Özbek, İ. Yücel Yüksek Lisans, Elektrik ve Elektronik Mühendisliği Bölümü Tez Yöneticisi: Prof. Dr. Mübeccel Demirekler Eylül 2002, 80 sayfa Bu çalışmada konuşmanın otomatik olarak bölütlendrilmesi amaçlanmıştır. İki atomatik konuşma bölütlendirme yöntemi denenmiş ve elde edilen sonuçların performansları yazar tarafında elle bölütlendirilen ve etiketlenditrilen ses veritabanın da ölçülmüştür. Elde edilen performans sonuçlan, konuşma tanıma için sıkça kullanılan ve temel sistem olarak seçtiğimiz HTK aracı kullanılarak elde edilen sonuçlar ile karşılaştırılmıştır. Uygulanan methodlardan ilki Çok Katlı Bölütlendirme Yöntemidir (ÇKBY). Bu yöntem ile konuşma bölütlendirilirken her bir bölüt içerisindeki benzerliğin en büyük olması sağlanır. Bu yöntem ile elde edilen doğruluk, 20ms lik tolerans aralığında, %69dur. Uygulanan ikinci yöntem ise Kat Yapılandırmak Dinamik Programlama (KYDP) yöntemidir. KYDP-tabanlı konuşma bölütlendirme yöntemi bölüt sınırlarım, bölüt içlerindeki bozunumu en aza indirecek şekilde yapılır. Tolerans aralığı 20ms seçildiğinde, bu yöntem ile elde edilen doğruluk ise % 85dir.Son olarak hazırlamış olduğumuz test veritabanı, HTK kullanılarak bölütlendirilmiştir. Bu araçla yapılan bölütlendirmede, Saklı Markov Modeller (SMM) kullanılmıştır. Bu yöntemle uşabildiğimiz en yüksek doğruluk oram ise %78.6dır.
Özet (Çeviri)
ABSTRACT AUTOMATIC SPEECH SEGMENTATION AND DATABASE ANNOTATION Özbek, î. Yücel M.S., Department of Electrical and Electronics Engineering Supervisor Prof. Dr. Mübeccel Demirekler September 2002, 80 pages The aim of this work is to develop a speech segmentation method. To achieve this purpose, two different automatic speech segmentation methods that exist in the literature are selected and implemented. The performances of these methods are measured by using manually segmented database which is segmented and labeled by author of the thesis as a reference template. Furthermore, speech segmentation part of HTK, a famous speech processing tool is used as base system. One of the implemented methods is modified to increase its performance on a Turkish database The first segmentation method, Multi-level Automatic Speech Segmentation Method (MLASSM) is based on hierarchical clustering process. Speech utterance is segmented by using the similarity rate within each segment. An accuracy of 69 % is obtained in the location of the phoneme boundaries with a tolerance of 20 ms. mThe second method, Level Building Dynamic Programming Automatic Speech Segmentation Method (LBDPASSM) is a dynamic programming based algorithm that optimally locates the phoneme boundaries by minimizing distortion metric. After some innovative modifications, we obtained 85 % performance accuracy for 20 ms tolerance margin. By using HTK, which is a speech tool developed by Cambridge University, automatic speech segmentation task is done using a recognizer tool which is operated on forced alignment mode. In this method, HMMs are trained by embedded training method. The performance is 78.6 % for this method.
Benzer Tezler
- Bimodal automatic speech segmentation and boundary refinement techniques
Çift durumlu otomatik konuşma bölütleme ve sınır iyileştirme teknikleri
EREN AKDEMİR
Doktora
İngilizce
2010
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Bölümü
DOÇ. DR. TOLGA ÇİLOĞLU
- Cross-lingual voice conversion
Diller arasında konuşmacı dönüştürme
OYTUN TÜRK
Doktora
İngilizce
2007
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF.DR. LEVENT MUSTAFA ARSLAN
- İçerik tabanlı sorgu ve tarama için yapısal ve anlamsal ses içerik analizi
Structural and semantic analysis of audio content for content-based querying and browsing
MUSTAFA SERT
Doktora
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
PROF.DR. BUYURMAN BAYKAL
- CNN-based text-independent automatic speaker identification
Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama
MANDANA FASOUNAKI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
- Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi
Developing an application for converting the conversations in videos into text and time-based indexing
OĞUZHAN MERT KİRAZ
Yüksek Lisans
Türkçe
2024
Mühendislik BilimleriKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA SERVET KIRAN