Geri Dön

Automatic speech segmentation and database annotation

Otomatik konuşma bölütlendirme ve veri tabanı etiketlendirme

  1. Tez No: 118909
  2. Yazar: İ. YÜCEL ÖZBEK
  3. Danışmanlar: PROF. DR. MÜBECCEL DEMİREKLER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Konuşma Bölütlendirme, konuşma etiketlendirme, Türkçe Fonetik Alfabe, HTK, ses veritabanı etiketlendirme vı, Speech segmentation, Database labeling, HTK, Turkish phoneme set IV
  7. Yıl: 2002
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 96

Özet

oz OTOMATİK KONUŞMA BÖLÜTLENDIRME VE VERİTABANI ETİKETLENDİRME Özbek, İ. Yücel Yüksek Lisans, Elektrik ve Elektronik Mühendisliği Bölümü Tez Yöneticisi: Prof. Dr. Mübeccel Demirekler Eylül 2002, 80 sayfa Bu çalışmada konuşmanın otomatik olarak bölütlendrilmesi amaçlanmıştır. İki atomatik konuşma bölütlendirme yöntemi denenmiş ve elde edilen sonuçların performansları yazar tarafında elle bölütlendirilen ve etiketlenditrilen ses veritabanın da ölçülmüştür. Elde edilen performans sonuçlan, konuşma tanıma için sıkça kullanılan ve temel sistem olarak seçtiğimiz HTK aracı kullanılarak elde edilen sonuçlar ile karşılaştırılmıştır. Uygulanan methodlardan ilki Çok Katlı Bölütlendirme Yöntemidir (ÇKBY). Bu yöntem ile konuşma bölütlendirilirken her bir bölüt içerisindeki benzerliğin en büyük olması sağlanır. Bu yöntem ile elde edilen doğruluk, 20ms lik tolerans aralığında, %69dur. Uygulanan ikinci yöntem ise Kat Yapılandırmak Dinamik Programlama (KYDP) yöntemidir. KYDP-tabanlı konuşma bölütlendirme yöntemi bölüt sınırlarım, bölüt içlerindeki bozunumu en aza indirecek şekilde yapılır. Tolerans aralığı 20ms seçildiğinde, bu yöntem ile elde edilen doğruluk ise % 85dir.Son olarak hazırlamış olduğumuz test veritabanı, HTK kullanılarak bölütlendirilmiştir. Bu araçla yapılan bölütlendirmede, Saklı Markov Modeller (SMM) kullanılmıştır. Bu yöntemle uşabildiğimiz en yüksek doğruluk oram ise %78.6dır.

Özet (Çeviri)

ABSTRACT AUTOMATIC SPEECH SEGMENTATION AND DATABASE ANNOTATION Özbek, î. Yücel M.S., Department of Electrical and Electronics Engineering Supervisor Prof. Dr. Mübeccel Demirekler September 2002, 80 pages The aim of this work is to develop a speech segmentation method. To achieve this purpose, two different automatic speech segmentation methods that exist in the literature are selected and implemented. The performances of these methods are measured by using manually segmented database which is segmented and labeled by author of the thesis as a reference template. Furthermore, speech segmentation part of HTK, a famous speech processing tool is used as base system. One of the implemented methods is modified to increase its performance on a Turkish database The first segmentation method, Multi-level Automatic Speech Segmentation Method (MLASSM) is based on hierarchical clustering process. Speech utterance is segmented by using the similarity rate within each segment. An accuracy of 69 % is obtained in the location of the phoneme boundaries with a tolerance of 20 ms. mThe second method, Level Building Dynamic Programming Automatic Speech Segmentation Method (LBDPASSM) is a dynamic programming based algorithm that optimally locates the phoneme boundaries by minimizing distortion metric. After some innovative modifications, we obtained 85 % performance accuracy for 20 ms tolerance margin. By using HTK, which is a speech tool developed by Cambridge University, automatic speech segmentation task is done using a recognizer tool which is operated on forced alignment mode. In this method, HMMs are trained by embedded training method. The performance is 78.6 % for this method.

Benzer Tezler

  1. Bimodal automatic speech segmentation and boundary refinement techniques

    Çift durumlu otomatik konuşma bölütleme ve sınır iyileştirme teknikleri

    EREN AKDEMİR

    Doktora

    İngilizce

    İngilizce

    2010

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    DOÇ. DR. TOLGA ÇİLOĞLU

  2. Cross-lingual voice conversion

    Diller arasında konuşmacı dönüştürme

    OYTUN TÜRK

    Doktora

    İngilizce

    İngilizce

    2007

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF.DR. LEVENT MUSTAFA ARSLAN

  3. İçerik tabanlı sorgu ve tarama için yapısal ve anlamsal ses içerik analizi

    Structural and semantic analysis of audio content for content-based querying and browsing

    MUSTAFA SERT

    Doktora

    Türkçe

    Türkçe

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    PROF.DR. BUYURMAN BAYKAL

  4. CNN-based text-independent automatic speaker identification

    Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama

    MANDANA FASOUNAKI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE

  5. Videolarda geçen konuşmaların metne dönüştürülmesi ve zaman tabanlı indekslenmesi amacıyla bir uygulama geliştirilmesi

    Developing an application for converting the conversations in videos into text and time-based indexing

    OĞUZHAN MERT KİRAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mühendislik BilimleriKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA SERVET KIRAN