Automatic speech segmentation and database annotation

Otomatik konuşma bölütlendirme ve veri tabanı etiketlendirme

Tez No: 118909
Yazar: İ. YÜCEL ÖZBEK
Danışmanlar: PROF. DR. MÜBECCEL DEMİREKLER
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Konuşma Bölütlendirme, konuşma etiketlendirme, Türkçe Fonetik Alfabe, HTK, ses veritabanı etiketlendirme vı, Speech segmentation, Database labeling, HTK, Turkish phoneme set IV
Yıl: 2002
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 96

Özet

oz OTOMATİK KONUŞMA BÖLÜTLENDIRME VE VERİTABANI ETİKETLENDİRME Özbek, İ. Yücel Yüksek Lisans, Elektrik ve Elektronik Mühendisliği Bölümü Tez Yöneticisi: Prof. Dr. Mübeccel Demirekler Eylül 2002, 80 sayfa Bu çalışmada konuşmanın otomatik olarak bölütlendrilmesi amaçlanmıştır. İki atomatik konuşma bölütlendirme yöntemi denenmiş ve elde edilen sonuçların performansları yazar tarafında elle bölütlendirilen ve etiketlenditrilen ses veritabanın da ölçülmüştür. Elde edilen performans sonuçlan, konuşma tanıma için sıkça kullanılan ve temel sistem olarak seçtiğimiz HTK aracı kullanılarak elde edilen sonuçlar ile karşılaştırılmıştır. Uygulanan methodlardan ilki Çok Katlı Bölütlendirme Yöntemidir (ÇKBY). Bu yöntem ile konuşma bölütlendirilirken her bir bölüt içerisindeki benzerliğin en büyük olması sağlanır. Bu yöntem ile elde edilen doğruluk, 20ms lik tolerans aralığında, %69dur. Uygulanan ikinci yöntem ise Kat Yapılandırmak Dinamik Programlama (KYDP) yöntemidir. KYDP-tabanlı konuşma bölütlendirme yöntemi bölüt sınırlarım, bölüt içlerindeki bozunumu en aza indirecek şekilde yapılır. Tolerans aralığı 20ms seçildiğinde, bu yöntem ile elde edilen doğruluk ise % 85dir.Son olarak hazırlamış olduğumuz test veritabanı, HTK kullanılarak bölütlendirilmiştir. Bu araçla yapılan bölütlendirmede, Saklı Markov Modeller (SMM) kullanılmıştır. Bu yöntemle uşabildiğimiz en yüksek doğruluk oram ise %78.6dır.

Özet (Çeviri)

ABSTRACT AUTOMATIC SPEECH SEGMENTATION AND DATABASE ANNOTATION Özbek, î. Yücel M.S., Department of Electrical and Electronics Engineering Supervisor Prof. Dr. Mübeccel Demirekler September 2002, 80 pages The aim of this work is to develop a speech segmentation method. To achieve this purpose, two different automatic speech segmentation methods that exist in the literature are selected and implemented. The performances of these methods are measured by using manually segmented database which is segmented and labeled by author of the thesis as a reference template. Furthermore, speech segmentation part of HTK, a famous speech processing tool is used as base system. One of the implemented methods is modified to increase its performance on a Turkish database The first segmentation method, Multi-level Automatic Speech Segmentation Method (MLASSM) is based on hierarchical clustering process. Speech utterance is segmented by using the similarity rate within each segment. An accuracy of 69 % is obtained in the location of the phoneme boundaries with a tolerance of 20 ms. mThe second method, Level Building Dynamic Programming Automatic Speech Segmentation Method (LBDPASSM) is a dynamic programming based algorithm that optimally locates the phoneme boundaries by minimizing distortion metric. After some innovative modifications, we obtained 85 % performance accuracy for 20 ms tolerance margin. By using HTK, which is a speech tool developed by Cambridge University, automatic speech segmentation task is done using a recognizer tool which is operated on forced alignment mode. In this method, HMMs are trained by embedded training method. The performance is 78.6 % for this method.

Benzer Tezler

Tez No
268437
Bimodal automatic speech segmentation and boundary refinement techniques
Çift durumlu otomatik konuşma bölütleme ve sınır iyileştirme teknikleri
EREN AKDEMİR
Doktora
İngilizce
2010
Elektrik ve Elektronik Mühendisliği Orta Doğu Teknik Üniversitesi
Elektrik ve Elektronik Mühendisliği Bölümü
DOÇ. DR. TOLGA ÇİLOĞLU
Tez No
179042
Cross-lingual voice conversion
Diller arasında konuşmacı dönüştürme
OYTUN TÜRK
Doktora
İngilizce
2007
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF.DR. LEVENT MUSTAFA ARSLAN
Tez No
180414
İçerik tabanlı sorgu ve tarama için yapısal ve anlamsal ses içerik analizi
Structural and semantic analysis of audio content for content-based querying and browsing
MUSTAFA SERT
Doktora
Türkçe
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
PROF.DR. BUYURMAN BAYKAL
Tez No
676399
CNN-based text-independent automatic speaker identification
Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama
MANDANA FASOUNAKI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
Tez No
870987
Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi
Developing an application for converting the conversations in videos into text and time-based indexing
OĞUZHAN MERT KİRAZ
Yüksek Lisans
Türkçe
2024
Mühendislik Bilimleri Konya Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA SERVET KIRAN

Geri Dön