Geri Dön

Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması

Identification of Turkish dialects using deep learning techniques

  1. Tez No: 547249
  2. Yazar: GÜLTEKİN IŞIK
  3. Danışmanlar: DOÇ. DR. HARUN ARTUNER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 118

Özet

Otomatik konuşma tanıma sistemleri, konuşma seslerinin metne geçirilmesine yarar. Herhangi bir dilde otomatik konuşma tanıma sisteminin performansı, konuşmacı cinsiyeti ve duygu durumunun yanı sıra dilin varyantları olan ağızlara da bağlıdır. Ağızlar aynı coğrafik bölgede yaşayan insanların konuştuğu, söyleyiş biçimi ve sözcüksel yapı olarak birbirine benzeyen ve diğer bölgelerde konuşulan ağızlardan, sayılan bu özellikler bakımından ayrılan günlük konuşma biçimleridir. Ağız tanımanın amacı sesli ifade özelliklerinden insanların ağızlarının belirlenmesidir. Ağzın tanınmasının ardından dil ve akustik modellerin bu ağza adapte edilmesiyle konuşma tanıma sisteminin başarımının arttığı bilinmektedir. Ayrıca sesli ifadeden konuşulan ağzın belirlenmesi; sesli yanıt sistemlerinde ön işlem adımı olarak veya adli bilişimde ipucu elde etmede kullanılabilir. Ağız tanımada kullanılan modelleme teknikleri farklı dil katmanlarındaki bilgiyi modellemeye yöneliktir. Akustik, fonotaktik ve prozodik katmanlarındaki öznitelikler insanların konuştuğu ağza özgü önemli bilgiler vermektedir. Konuşmanın fonetik farklılıkları, fiziksel düzeyde spektral öznitelikleri incelenerek tespit edilebilmektedir. Klasikleşmiş Mel Frekans Kepstral Katsayıları (MFCC) ve Log mel-spektrogram gibi öznitelikler bu amaçla kullanılmaktadır. Fonotaktik, bir dilde/ağızda, fonemlerin bir arada bulunma kurallarına karşılık gelmektedir. Fonem dizilimleri ve bu dizilimin sıklığı ağızdan ağza değişiklik göstermektedir. Fonem dizilimleri fonem tanıyıcılar yardımıyla elde edilmekte ve daha sonra dil modelleriyle fonem dağılımları çıkartılmaktadır. Prozodi, konuşmanın tonlama, vurgu ve ritim gibi işitsel öznitelikleridir. Bu özniteliklerin insanın konuşmayı algılamasında anahtar rol üstlendiği bilinmektedir. Bu algısal öznitelikler fiziksel düzeyde temel frekans (perde), enerji ve sürenin ölçülmesiyle elde edilmekte ve uygun parametrik gösterimlere çevrilmektedir. Son yıllarda, derin sinir ağlarının popüler hale gelmesiyle birlikte Konvolüsyonel Sinir Ağları (CNN) özellikle görüntü ve konuşma tanımada sıklıkla kullanılmaktadır. Bunun yanı sıra Uzun Kısa-Dönem Bellekli (LSTM) yinelemeli sinir ağları dizi sınıflandırma ve dil modelleme problemlerinde çokça kullanılmaktadır. LSTM sinir ağları, uzun dönemli bağlam bilgisini modellemede n-gram modellerden daha başarılıdır. Türkiye'nin farklı yörelerinde yaşayan insanların konuştuğu ağızlar yukarıda bahsedilen özellikler açısından birbirinden ayrılmaktadır. Bu bakımdan, bu tez çalışmasında akustik, fonotaktik ve prozodik öznitelikler kullanılarak Türkçenin ağızlarının CNN ve LSTM sinir ağlarıyla sınıflandırılması konu edilmiştir. Bu amaçla Ankara, Alanya, Kıbrıs ve Trabzon ağızlarından oluşan bir Türkçe veri kümesi oluşturulmuştur. Önerilen yöntemler Türkçe veri kümesi üzerinde sınanmış ve yorumlanmıştır. Çalışma sonucunda, kullanılan yöntemlerin Türkçe ağız tanıma için oldukça iyi sonuçlar verdiği gözlenmiştir.

Özet (Çeviri)

Automatic speech recognition systems are used to translate speech sounds into text. The performance of the automatic speech recognition system in any language is dependent on the speaker gender and emotion as well as dialects that are variants of the language. Dialects are the speech forms that are similar to each other in the same geographic region as the utterance and lexical structure. With these characteristics, dialects are separated from each other. The aim of the dialect recognition is to identify the humans' dialect from their speech. Following the recognition of the dialect, it is known that the performance of the speech recognition system is enhanced by adapting the language and acoustic models to this dialect. Furthermore, identifying spoken dialect from speech can be used as a preprocessing step in voice response systems, or it can help to obtain a clue in forensics. The modeling techniques used in dialect recognition are intended to model information in different language layers. Features in the acoustics, phonotactic and prosodic layers give important information that specific to the dialect. Phonetic differences of speech can be determined by examining their spectral features at the physical level. Features such as classical Mel Frequency Cepstral Coefficients (MFCC) and Log mel-spectrogram are used for this purpose. Phonotactic corresponds to the rules of coexistence of phonemes in a language/dialect. Phoneme sequences and the frequency of this sequence vary from dialect to dialect. Phoneme sequences are obtained by phoneme recognizers and then phoneme distributions are extracted using language models. Prosody is the auditory features of speech such as intonation, stress and rhythm. It is known that these features play a key role in the human perception of speech. These perceptual features are extracted by measuring the fundamental frequency (pitch), energy and duration at the physical level and converted into appropriate parametric representations. In recent years, Convolutional Neural Networks (CNNs) have been frequently used particularly in image and speech recognition since deep neural networks become popular. In addition, Long Short-Term Memory (LSTM) recurrent neural networks are widely used in sequence classification and language modeling problems. LSTM neural networks are more successful in modeling long-term context information than n-gram models. Dialects spoken by people living in different regions of Turkey are separated from each other in terms of features mentioned above. From this perspective, in this thesis, acoustics, phonotactic and prosodic features were used to classify Turkish dialects with CNN and LSTM neural networks. For this purpose, a Turkish data set consisting of Ankara, Alanya, Kıbrıs and Trabzon dialects was formed. The proposed methods have been tested and interpreted on the Turkish data set. As a result of the study, it was observed that the methods used gave very good results for Turkish dialect recognition.

Benzer Tezler

  1. Sentetik açıklıklı radar görüntülerinin derin evrişimli ağlarla tanınmasına yönelik veri artırımı yaklaşımlarının incelenmesi

    Examining data augmentation approaches for recognition of synthetic aperture radar images with deep convolutionary networks

    BİLGE SİNAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Savunma ve Savunma TeknolojileriBaşkent Üniversitesi

    Savunma Teknolojileri ve Sistemleri Ana Bilim Dalı

    DOÇ. DR. EMRE SÜMER

  2. Çok doymamış yağ asitleri bakımından zengin alg ilave edilen yemlerin levrek (Dicentrarchus albrax L., 1758)'de büyüme performansı ve vücut komposizyonuna etkisi

    Effects of pufa (Polyunsaturated fatty acids) enriched algae added diets on growth and body composition of sea bass (Dicentrarchus labrax L., 1758)

    KAMİL MERT ERYALÇIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Su Ürünleriİstanbul Üniversitesi

    Su Ürünleri Yetiştiriciliği Ana Bilim Dalı

    PROF. DR. ERDAL ŞENER

  3. Singspiel'in tarihsel değişim sürecinde 19. ve 20. yy. Alman operalarındaki izlerinin örnek eserler üzerinden incelenmesi

    Examining the traces of Singspiel in the 19th and 20th century German operas through example works in its historical change process

    BESTE ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    MüzikANKARA MÜZİK VE GÜZEL SANATLAR ÜNİVERSİTESİ

    Ses Eğitimi Ana Sanat Dalı

    DOÇ. DR. RAŞİT GÖRKEM AYTİMUR

  4. Selvi polen duyarlılığı ve klinik etkileri

    Başlık çevirisi yok

    RAMAZAN ERSOY

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2005

    Allerji ve İmmünolojiEge Üniversitesi

    İç Hastalıkları Ana Bilim Dalı

    DOÇ.DR. AYTÜL SİN

  5. Güzel sanatlar liseleri müzik bölümü gitar öğrencilerinin gitar dersine yönelik tutumlarının incelenmesi

    Investigation of the attitudes of fine arts high schools department of music guitar students too guitar lesson

    CELAL GÜLÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    MüzikBolu Abant İzzet Baysal Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    PROF. DR. ALİ ERİM