Geri Dön

Co-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken language

Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesi

  1. Tez No: 489395
  2. Yazar: DOĞAN DALVA
  3. Danışmanlar: DOÇ. DR. ÜMİT GÜZ, DOÇ. DR. HAKAN GÜRKAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Işık Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 148

Özet

Cümle bölütleme işlevi, standart Otomatik Konuşma Tanıma (OKT) sistemlerinin çıkışından elde edilen işlenmemiş kelime dizisi biçimindeki veriyi cümlelere ayırarak zenginleştirmeyi amaçlayan bir işlemdir. Cümle bölütleme; çözümleme, makine çevrimi, bilgi çıkarımı gibi cümle bölütlemenin yapıldığının varsayıldığı konuşma işlemenin daha ileri uygulamaları için bir ön adım olarak gerçekleştirilmektedir. Cümle bölütlemede kullanılan standart yöntemler, model eğitimi aşamasında oldukça fazla etiketlenmiş veriye ihtiyaç duyar. El ile yapılan veri etiketleme işlemi; emek, dikkat ve zaman isteyen bir işlemdir. Bu çalışmada çok bakışlı yarı öğreticili yöntemler geliştirerek, daha az el ile etiketlenmiş veri ile standart yöntemlere göre daha yüksek başarımın sağlanması hedeflenmektedir. Bu çalışmada çok bakışlı yarı öğreticili yöntemler geliştirerek, daha az el ile etiketlenmiş veri ile standart yöntemlere göre daha yüksek başarımın sağlanması hedeflenmektedir. Bu çalışmada sözcüksel, biçimbilgisel ve prozodik özellikleri kullanan, uzlaşma (agreement), uzlaşamama (disagreement) ve self-combined yöntemleri ile beraber çalışan yeni üç bakışlı eş eğitim (co-training) ve kurul tabanlı (committee-based) yöntemler geliştirildi. Yeni yöntemlerin performansları, iki bakışlı eş eğitim yöntemleri, kendi kendini eğitme (self-training) yöntemi ve standart yöntemler ile kıyaslandı. Deneysel sonuçlar, veri kümeleri yeterli ve ayrık özellik grupları kullanılarak ifade edilebildiği için, önerilen yöntemlerin cümle bölütleme başarımını oldukça arttırdığı göstermektedir.

Özet (Çeviri)

Sentence segmentation of speech aims to detect sentence boundaries in a stream of words output by the speech recognizer. Sentence segmentation is a preliminary step toward speech understanding. It is of particular importance for speech related applications, as most of the further processing steps; such as parsing, machine translation, and information extraction, assume the presence of sentence boundaries. Typically, statistical methods require a huge amount of manually labeled data, which is time and labor consuming process to prepare. In this work, novel multiview semi-supervised learning strategies for the solution of sentence segmentation problem are proposed. The aim of this work is to nd e ective semi-supervised machine learning strategies when only a small set of sentence boundary labeled data is available. This work proposes three-view co-training and committee-based strategies incorporating with the agreement, disagreement and self-combined strategies using lexical, morphological and prosodic information, and investigates the performance of the proposed learning strategies against the baseline, self-training, and co-training. The experimental results show that the proposed learning strategies highly improve the sentence segmentation problem since data sets can be represented by three redundantly sucient and disjoint feature sets.

Benzer Tezler

  1. Akıl ve zekâ oyunlarının ilkokul 1. sınıf öğrencilerinin okuma becerileri ve okuma tutumları üzerindeki etkisi

    The effect of mind and intelligence games on reading skills and reading attitudes of primary school first grade students

    GÖKHAN ŞEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimAfyon Kocatepe Üniversitesi

    Temel Eğitim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SİBEL YAZICI

  2. Yabancı dil olarak Türkçe öğretiminde etkileşim ve konuşma çözümlemesi yöntemiyle kelime öğretimi: A2 düzeyi

    A conversation analytic study of interaction in vocabulary teaching in Turkish as a foreign language classroom: A2 level

    HATİCE SUMRUK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Türkiyat Araştırmaları Ana Bilim Dalı

    DOÇ. DR. NAZMİYE TOPÇU TECELLİ

  3. Ağ verisi üzerinde ilgili ve rastgele alt uzaylar seçerek birlikte öğrenme

    Relevant and random subspaces for co-training in networked data

    KADRİYE BAĞLIOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEHRA ÇATALTEPE

  4. Using co-training to empower active learning

    Aktif öğrenmeyi güçlendirmek için eş-öğrenme kullanılması

    PAYAM VAKILZADEH AZAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN

  5. İnsan ve HIV-1 proteinleri arasındaki etkileşimlerin rastgele orman yöntemi ve birlikte öğrenme yaklaşımı ile tahmin edilmesi

    Predicting human-HIV 1 protein-protein interactions using random forests in a co-training approach

    İSMAİL BİLGEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEHRA ÇATALTEPE