Geri Dön

Text classification via word embeddings: An application for Turkish music mood detection

Kelime temsilleri yoluyla metin sınıflaması: Türkçe müziklerde duygu tespiti uygulaması

  1. Tez No: 471840
  2. Yazar: BARIŞ ÇİMEN
  3. Danışmanlar: YRD. DOÇ. DR. AHMET ONUR DURAHİM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Müzik, Computer Engineering and Computer Science and Control, Science and Technology, Music
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Yönetim Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 55

Özet

Bu çalışmanın amacı, Türkçe metin tabanlı sınıflandırma işlemine kelime temsillerini dâhil eden bir yaklaşım getirmek ve söz konusu yaklaşımın uygulanabilirliğini ve performansını, Türkçe şarkıların müzik duygu analizinde değerlendirmektir. Bu çalışmada izlenen metot, iki temel aşamadan oluşmaktadır. Birinci aşamada kelime temsilleri, Word2Vec ve GloVe algoritmaları kullanılarak internet ortamından toplanan 2,5 milyondan fazla Türkçe dokümandan oluşan metin tabanlı büyük bir veri kümesi ile eğitilmiştir. Ardından oluşturulan kelime vektörleri vasıtasıyla, duygu tespiti yapılmak üzere seçilen ve ön işlemden geçirilen şarkı sözleri için şarkı sözü vektörleri oluşturulmuştur. Çalışmanın ikinci aşmasında ise, oluşturulan şarkı sözü vektörleri, çeşitli makine öğrenmesi teknikleri vasıtasıyla müzik duygu analizi işleminde kullanılmıştır. Karşılaştırma amacıyla, yaygın olarak kullanılan TF-IDF skorlarına dayanan kelime çantası (bag-of-words) yaklaşımı ve Doc2Vec algoritması da Türkçe müzik duygu analizi için düşünülmüştür. Aynı zamanda kelimeleri köklerine ayrıştırma ve önceden derlenmiş olan etkisiz kelimeleri filtreleme işlemlerinin sonuçlar üzerindeki etkisi de araştırılmıştır. Araştırmadan elde edilen sonuçlar, metin tabanlı büyük veri kümesi aracılığıyla oluşturulan kelime temsillerinin, Türkçe metin sınıflandırma sürecine dâhil edilmesinin etkinliğini ve performansı iyileştirdiğini ortaya koymaktadır.

Özet (Çeviri)

The objective of this study is to bring an approach that incorporates word embeddings into Turkish text classification process, and to evaluate the applicability and performance of this approach by applying it for Turkish music mood detection. The methodology followed in this study consists of two main parts. In the first part, word embeddings are trained through a large collection of textual data, which includes more than 2.5 million Turkish documents gathered from the Internet, by using Word2Vec and GloVe algorithms. Subsequently, lyrics vectors are generated for the pre-processed lyrics selected for mood detection through the use of word embeddings that were trained initially. In the second part of the study, lyrics vectors are employed as features in music mood detection performed via various machinelearning techniques. Besides, Turkish music mood detection is also done by using traditional bag-of-words approach, in which TF-IDF term weighting scheme is used, and Doc2Vec algorithm for comparison purposes. The effects of stemming of the words into their roots and filtering out the precompiled list of stop-words on the results are investigated as well. The results obtained from the study show the effectiveness of incorporating word embeddings generated using big textual data collection into the Turkish text classification process, which is clearly illustrated by the improved classification performance.

Benzer Tezler

  1. Yazılı para transferi talimatları üzerinden bilgi çıkarımı

    Information extraction from written money transfer orders

    BERKE ORAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bankacılıkİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  2. Trafik yorumlarının sınıflandırılmasında normalizasyonun etkisi

    The effect of normalization on the classification of traffic comments

    ZEYNEP ÖZER

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OĞUZ FINDIK

  3. Multi-modal deception detection from videos

    Videolardan çoklu-modalite ile aldatmaca kestirimi

    MEHMET UMUT ŞEN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

  4. Applying nlp machine learning for news analysis and classification

    Haber analizi ve sınıflandırması için nlp makine öğrenmesinin uygulanması

    MAHER ALREFAAI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGE YÜCEL KASAP

  5. Document classification using improved word embeddings

    Geliştirilmiş kelime gömmeleri kullanarak belge sınıflandırma

    RAAD SAADI MAHMOOD MAHMOOD

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYHAN AKBAŞ