Text classification via word embeddings: An application for Turkish music mood detection
Kelime temsilleri yoluyla metin sınıflaması: Türkçe müziklerde duygu tespiti uygulaması
- Tez No: 471840
- Danışmanlar: YRD. DOÇ. DR. AHMET ONUR DURAHİM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Müzik, Computer Engineering and Computer Science and Control, Science and Technology, Music
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Yönetim Bilişim Sistemleri Bilim Dalı
- Sayfa Sayısı: 55
Özet
Bu çalışmanın amacı, Türkçe metin tabanlı sınıflandırma işlemine kelime temsillerini dâhil eden bir yaklaşım getirmek ve söz konusu yaklaşımın uygulanabilirliğini ve performansını, Türkçe şarkıların müzik duygu analizinde değerlendirmektir. Bu çalışmada izlenen metot, iki temel aşamadan oluşmaktadır. Birinci aşamada kelime temsilleri, Word2Vec ve GloVe algoritmaları kullanılarak internet ortamından toplanan 2,5 milyondan fazla Türkçe dokümandan oluşan metin tabanlı büyük bir veri kümesi ile eğitilmiştir. Ardından oluşturulan kelime vektörleri vasıtasıyla, duygu tespiti yapılmak üzere seçilen ve ön işlemden geçirilen şarkı sözleri için şarkı sözü vektörleri oluşturulmuştur. Çalışmanın ikinci aşmasında ise, oluşturulan şarkı sözü vektörleri, çeşitli makine öğrenmesi teknikleri vasıtasıyla müzik duygu analizi işleminde kullanılmıştır. Karşılaştırma amacıyla, yaygın olarak kullanılan TF-IDF skorlarına dayanan kelime çantası (bag-of-words) yaklaşımı ve Doc2Vec algoritması da Türkçe müzik duygu analizi için düşünülmüştür. Aynı zamanda kelimeleri köklerine ayrıştırma ve önceden derlenmiş olan etkisiz kelimeleri filtreleme işlemlerinin sonuçlar üzerindeki etkisi de araştırılmıştır. Araştırmadan elde edilen sonuçlar, metin tabanlı büyük veri kümesi aracılığıyla oluşturulan kelime temsillerinin, Türkçe metin sınıflandırma sürecine dâhil edilmesinin etkinliğini ve performansı iyileştirdiğini ortaya koymaktadır.
Özet (Çeviri)
The objective of this study is to bring an approach that incorporates word embeddings into Turkish text classification process, and to evaluate the applicability and performance of this approach by applying it for Turkish music mood detection. The methodology followed in this study consists of two main parts. In the first part, word embeddings are trained through a large collection of textual data, which includes more than 2.5 million Turkish documents gathered from the Internet, by using Word2Vec and GloVe algorithms. Subsequently, lyrics vectors are generated for the pre-processed lyrics selected for mood detection through the use of word embeddings that were trained initially. In the second part of the study, lyrics vectors are employed as features in music mood detection performed via various machinelearning techniques. Besides, Turkish music mood detection is also done by using traditional bag-of-words approach, in which TF-IDF term weighting scheme is used, and Doc2Vec algorithm for comparison purposes. The effects of stemming of the words into their roots and filtering out the precompiled list of stop-words on the results are investigated as well. The results obtained from the study show the effectiveness of incorporating word embeddings generated using big textual data collection into the Turkish text classification process, which is clearly illustrated by the improved classification performance.
Benzer Tezler
- Yazılı para transferi talimatları üzerinden bilgi çıkarımı
Information extraction from written money transfer orders
BERKE ORAL
Yüksek Lisans
Türkçe
2021
Bankacılıkİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Trafik yorumlarının sınıflandırılmasında normalizasyonun etkisi
The effect of normalization on the classification of traffic comments
ZEYNEP ÖZER
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OĞUZ FINDIK
- Multi-modal deception detection from videos
Videolardan çoklu-modalite ile aldatmaca kestirimi
MEHMET UMUT ŞEN
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiPROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Applying nlp machine learning for news analysis and classification
Haber analizi ve sınıflandırması için nlp makine öğrenmesinin uygulanması
MAHER ALREFAAI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGE YÜCEL KASAP
- Document classification using improved word embeddings
Geliştirilmiş kelime gömmeleri kullanarak belge sınıflandırma
RAAD SAADI MAHMOOD MAHMOOD
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYHAN AKBAŞ