Geri Dön

Makine öğrenmesi yöntemleriyle Türkçe'deki farklı aksanların sınıflandırılması

Classification of different accents in Turkish using machine learning methods

  1. Tez No: 935514
  2. Yazar: SÜMEYRA BAŞ
  3. Danışmanlar: DOÇ. DR. HAKAN GÜNDÜZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 53

Özet

Bütün verilerin dijital ortamlarda tutulmasıyla birlikte, sesli iletişim araçlarının kullanımı önemli hâle gelmiştir. Ses verilerinin analizi ve işlenmesi, teknolojik gelişmelerin önemli bir aşamasıdır. Farklı aksanların tespitine yönelik çalışmalar, bu alandaki araştırmalar arasında dikkat çekmektedir. Ses verileri, makine öğrenmesi yöntemleri ile analiz edilerek konuşmanın metne doğru aktarılması sağlanabilir. Ses dalgaları işlenerek anlamlı öznitelikler çıkarılmaktadır. Bu öznitelikler üzerinde öğrenme algoritmaları ile konuşmanın metne dönüştürülmesi sağlanmaktadır. Bu çalışmada, Türkçe konuşma verileri kullanılarak Karadeniz, Ege, Doğu Anadolu ve İç Anadolu aksanının tespiti hedeflenmiştir. Ses kayıtları TRT yayınları, YouTube videoları, Spotify podcast'leri gibi Türkçe aksanlı yayın yapan dijital ortamlardan toplanmıştır. Ses dosyaları sessizlik tespiti kullanılarak segmentlere ayrılmış ve WAV formatında kaydedilmiştir. Python kütüphaneleri ile sessizlik eşiği ve minimum sessizlik süresi gibi parametreler tanımlanarak segmentasyon yapılmıştır. 2.455 adet ses verisi işlenerek MFCC öznitelikleri çıkartılmıştır. Ayrıca, fbank ve logfbank fonksiyonları ile de model doğrulukları karşılaştırılmıştır. Farklı makine öğrenmesi algoritmalarını kullanarak Türkçe aksan sınıflandırması gerçekleştirilmiştir. Ses verileri ile RF, KNN ve SVM ile modeller oluşturulmuştur. Veri seti, eğitim ve test setlerine bölünerek, modeller hiperparametrelerle eğitilmiş ve doğruluk oranları hesaplanmıştır. Tüm modellerde doğruluk oranı, sınıflandırma raporu ve karışıklık matrisi ile sonuçlar detaylı şekilde sunulmuştur. Analizler sonucunda, RF modeli %91,44, KNN modeli %95,92 ve SVM modeli %96,74 doğruluk oranlarına ulaşmıştır. Sonuçlar, aksan tespiti konusunda SVM modelinin en iyi performansı sergilediğini göstermiştir. Bu çalışma, aksan tespitine yönelik geliştirilen modellerin doğruluk oranlarını artırmak adına bir adımdır. İlerleyen süreçte, makine öğrenmesi modelleri üzerinde detaylı parametre optimizasyonları yapılması ve nitelik seçme yöntemlerinin geliştirilmesi planlanmaktadır.

Özet (Çeviri)

With data being stored digitally, voice communication tools have become increasingly important. The analysis and processing of audio data are crucial in technological advancements. Studies on accent detection are gaining attention in this field. Speech data can be analyzed using machine learning methods to ensure accurate transcription. Sound waves are processed to extract meaningful features, which are then used by learning algorithms to convert speech into text. This study aims to identify four Turkish accents: Black Sea, Aegean, Eastern Anatolia, and Central Anatolia. Audio recordings were collected from Turkish-accented content on TRT, YouTube, and Spotify. Silence detection segmented the recordings, saving each segment as a WAV file. Python libraries were used to process audio, defining silence threshold and minimum silence duration for segmentation. A total of 2,455 audio samples were processed to extract MFCC features. Model accuracies were also compared using fbank and logfbank functions. Accent classification was performed using RF, KNN, and SVM algorithms. The dataset was split into training and test sets, and models were trained with hyperparameters before accuracy calculations. Accuracy rates, classification reports, and confusion matrices were presented. Results showed that RF achieved 91.44% accuracy, KNN 95.92%, and SVM 96.74%. These findings highlight SVM's superior performance in accent detection. This study contributes to improving model accuracy. Future work includes parameter optimization and enhancing feature selection in machine learning models.

Benzer Tezler

  1. Makine öğrenme algoritmaları kullanılarak lazer verilerinden ağaç türlerinin sınıflandırılması olanaklarının araştırılması

    Investigation of tree species classification possibilities from laser data using machine learning algorithms

    ZEHRA ÇETİN

    Doktora

    Türkçe

    Türkçe

    2022

    Jeodezi ve FotogrametriYıldız Teknik Üniversitesi

    Harita Mühendisliği Ana Bilim Dalı

    PROF. DR. NACİ YASTIKLI

  2. Salgın parametrelerinin makine öğrenmesi yöntemleriyle tahmin edilmesi

    Prediction of epidemic parameters using machine learning methods

    ADNAN KEÇE

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMunzur Üniversitesi

    Mühendislik Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FARUK SERİN

  3. Derin öğrenme ve makine öğrenmesi yöntemleriyle Türkiye emlak piyasasında fiyat tahmini

    Price prediction in the Turkish real estate market using deep learning and machine learning methods

    RECEP FURKAN KOÇYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

    DR. AHMET ELBİR

  4. İnşaat sektöründeki ihtilafların makine öğrenmesi yöntemleriyle analizi

    Analysis of disputes in the construction industry using machine learning methods

    MAHMUT SARI

    Doktora

    Türkçe

    Türkçe

    2024

    İnşaat MühendisliğiErciyes Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAVAŞ BAYRAM

    DOÇ. DR. EMRAH AYDEMİR

  5. Türkiye'deki havayolu firmalarıyla ilgili sosyal medya yorumlarının makine öğrenmesi yöntemleriyle sınıflandırılması

    Classification of social media comments about airline companies in Turkey by machine learning methods

    HATİCE ELİF EKİM

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALPASLAN BURAK İNNER