Makine öğrenmesi yöntemleriyle Türkçe'deki farklı aksanların sınıflandırılması
Classification of different accents in Turkish using machine learning methods
- Tez No: 935514
- Danışmanlar: DOÇ. DR. HAKAN GÜNDÜZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 53
Özet
Bütün verilerin dijital ortamlarda tutulmasıyla birlikte, sesli iletişim araçlarının kullanımı önemli hâle gelmiştir. Ses verilerinin analizi ve işlenmesi, teknolojik gelişmelerin önemli bir aşamasıdır. Farklı aksanların tespitine yönelik çalışmalar, bu alandaki araştırmalar arasında dikkat çekmektedir. Ses verileri, makine öğrenmesi yöntemleri ile analiz edilerek konuşmanın metne doğru aktarılması sağlanabilir. Ses dalgaları işlenerek anlamlı öznitelikler çıkarılmaktadır. Bu öznitelikler üzerinde öğrenme algoritmaları ile konuşmanın metne dönüştürülmesi sağlanmaktadır. Bu çalışmada, Türkçe konuşma verileri kullanılarak Karadeniz, Ege, Doğu Anadolu ve İç Anadolu aksanının tespiti hedeflenmiştir. Ses kayıtları TRT yayınları, YouTube videoları, Spotify podcast'leri gibi Türkçe aksanlı yayın yapan dijital ortamlardan toplanmıştır. Ses dosyaları sessizlik tespiti kullanılarak segmentlere ayrılmış ve WAV formatında kaydedilmiştir. Python kütüphaneleri ile sessizlik eşiği ve minimum sessizlik süresi gibi parametreler tanımlanarak segmentasyon yapılmıştır. 2.455 adet ses verisi işlenerek MFCC öznitelikleri çıkartılmıştır. Ayrıca, fbank ve logfbank fonksiyonları ile de model doğrulukları karşılaştırılmıştır. Farklı makine öğrenmesi algoritmalarını kullanarak Türkçe aksan sınıflandırması gerçekleştirilmiştir. Ses verileri ile RF, KNN ve SVM ile modeller oluşturulmuştur. Veri seti, eğitim ve test setlerine bölünerek, modeller hiperparametrelerle eğitilmiş ve doğruluk oranları hesaplanmıştır. Tüm modellerde doğruluk oranı, sınıflandırma raporu ve karışıklık matrisi ile sonuçlar detaylı şekilde sunulmuştur. Analizler sonucunda, RF modeli %91,44, KNN modeli %95,92 ve SVM modeli %96,74 doğruluk oranlarına ulaşmıştır. Sonuçlar, aksan tespiti konusunda SVM modelinin en iyi performansı sergilediğini göstermiştir. Bu çalışma, aksan tespitine yönelik geliştirilen modellerin doğruluk oranlarını artırmak adına bir adımdır. İlerleyen süreçte, makine öğrenmesi modelleri üzerinde detaylı parametre optimizasyonları yapılması ve nitelik seçme yöntemlerinin geliştirilmesi planlanmaktadır.
Özet (Çeviri)
With data being stored digitally, voice communication tools have become increasingly important. The analysis and processing of audio data are crucial in technological advancements. Studies on accent detection are gaining attention in this field. Speech data can be analyzed using machine learning methods to ensure accurate transcription. Sound waves are processed to extract meaningful features, which are then used by learning algorithms to convert speech into text. This study aims to identify four Turkish accents: Black Sea, Aegean, Eastern Anatolia, and Central Anatolia. Audio recordings were collected from Turkish-accented content on TRT, YouTube, and Spotify. Silence detection segmented the recordings, saving each segment as a WAV file. Python libraries were used to process audio, defining silence threshold and minimum silence duration for segmentation. A total of 2,455 audio samples were processed to extract MFCC features. Model accuracies were also compared using fbank and logfbank functions. Accent classification was performed using RF, KNN, and SVM algorithms. The dataset was split into training and test sets, and models were trained with hyperparameters before accuracy calculations. Accuracy rates, classification reports, and confusion matrices were presented. Results showed that RF achieved 91.44% accuracy, KNN 95.92%, and SVM 96.74%. These findings highlight SVM's superior performance in accent detection. This study contributes to improving model accuracy. Future work includes parameter optimization and enhancing feature selection in machine learning models.
Benzer Tezler
- Makine öğrenme algoritmaları kullanılarak lazer verilerinden ağaç türlerinin sınıflandırılması olanaklarının araştırılması
Investigation of tree species classification possibilities from laser data using machine learning algorithms
ZEHRA ÇETİN
Doktora
Türkçe
2022
Jeodezi ve FotogrametriYıldız Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
PROF. DR. NACİ YASTIKLI
- Salgın parametrelerinin makine öğrenmesi yöntemleriyle tahmin edilmesi
Prediction of epidemic parameters using machine learning methods
ADNAN KEÇE
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMunzur ÜniversitesiMühendislik Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FARUK SERİN
- Derin öğrenme ve makine öğrenmesi yöntemleriyle Türkiye emlak piyasasında fiyat tahmini
Price prediction in the Turkish real estate market using deep learning and machine learning methods
RECEP FURKAN KOÇYİĞİT
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
DR. AHMET ELBİR
- İnşaat sektöründeki ihtilafların makine öğrenmesi yöntemleriyle analizi
Analysis of disputes in the construction industry using machine learning methods
MAHMUT SARI
Doktora
Türkçe
2024
İnşaat MühendisliğiErciyes Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAVAŞ BAYRAM
DOÇ. DR. EMRAH AYDEMİR
- Türkiye'deki havayolu firmalarıyla ilgili sosyal medya yorumlarının makine öğrenmesi yöntemleriyle sınıflandırılması
Classification of social media comments about airline companies in Turkey by machine learning methods
HATİCE ELİF EKİM
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALPASLAN BURAK İNNER