Geri Dön

Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi

A deep learning analysis on Turkish question classification task using word2vec representations

  1. Tez No: 639475
  2. Yazar: ŞEYHMUS YILMAZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SİNAN TOKLU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Soru sınıflandırması, otomatik soru cevaplama uygulamaları için temel bir çalışma alanıdır. Dilsel özellikler, doğru bir soru sınıflandırıcısı geliştirmede önemli bir rol oynamaktadır. Son zamanlarda, derin öğrenme sistemleri duygu analizi, belge sınıflandırma, spam filtreleme, doküman özetleme ve web madenciliği gibi çeşitli metin madenciliği problemlerinde dikkate değer bir başarı sağlamışlardır. Bu çalışmada, aglutinatif bir dil olan Türkçe'de bazı derin öğrenme mimarilerini kullanarak soru sınıflandırması alanı üzerinde çalışılmıştır. Hint dışı Avrupa dili olarak, Türkçe gibi diller doğal dil işlemeyi zorlaştıran bazı benzersiz özelliklere sahiptir. Bu çalışmada, derin öğrenme mimarilerini eğitmek ve test etmek için İngilizce'den Türkçe'ye çevrilmiş kullanıcı soruları kullanılmıştır. Bu tez çalışmasında iki büyük derin öğrenme modeli kullanılmıştır. Bunlar: Konvolüsyonel Sinir Ağları (CNN), Uzun Kısa Süreli Bellek (LSTM) ve bunlara ek olarak da ayrıca CNN-LSTM, CNN-SVM yapılarıdır. Bu çalışmada ilk önce, büyük bir korpus kullanılarak word2vec yöntemlerinden olan Skip-gram ve CBOW ile farklı özellik ve boyutta kelime vektörleri üretilmiştir. Çünkü bu çalışmadaki bir diğer amaç ise derin öğrenme mimarileri üzerinde önceden eğitilmiş farklı word2vec kelime gömmelerini kullanmanın sonuçlara olan etkisini incelemektir. Çalışmanın sonuçları, farklı derin öğrenme modellerinde farklı word2vec modellerinin kullanımının doğruluk oranı üzerinde önemli bir etkiye sahip olduğunu göstermektedir. Ayrıca, bu çalışmaya başlarken çalışmamıza uygun herhangi bir etiketlenmiş Türkçe soru veri seti bulunmadığından, bu çalışmadaki bir diğer katkı da UIUC İngilizce soru veri kümesinden çevrilen yeni Türkçe Soru veri tabanının tanıtılmasıdır. Buna ek olarak, derin öğrenme mimarilerinin başarı oranları doğruluk ve 10-Katlamalı Çapraz Doğrulama açısından karşılaştırılmıştır. Bu tez çalışmasında bahsedilen teknikleri kullanarak soru veri setinde %94 doğruluk oranına ulaşılmıştır.

Özet (Çeviri)

Question classification is a primary essential study for automatic question answering implementations. Linguistic features take a significant role to develop an accurate question classifier. Recently, deep learning systems have achieved remarkable success in various text-mining problems such as sentiment analysis, document classification, spam filtering, document summarization, and web mining. In this study, we explain our study on investigating some deep learning architectures for a question classification task in a highly inflectional language Turkish that is an agglutinative language where word structure is produced by adding suffixes (morphemes) to root word. As a Non-Indo European Language, languages like Turkish have some unique features, which make it challenging for natural language processing. For instance, Turkish has no grammatical gender and noun classes. In this study, user questions in Turkish are used to train and test the deep learning architectures. In addition to this, the details of the deep learning architectures are compared in terms of test and 10-cross fold validation accuracy. We use two major deep learning models in our paper: Long Short-Term Memory (LSTM), Convolutional Neural Networks (CNN), We also implemented the combination of CNN-LSTM, CNN-SVM structures and a number of various those architectures by changing vector sizes and the embedding types. As well as this, we have built word embeddings using the word2vec method with a CBOW and Skip Gram models with different vector sizes on a large corpus composed of user questions. Our another investigation is the effect of using different word2vec pre-trained word embeddings on these deep learning architectures. Experiment results show that the use of different word2vec models has a significant impact on the accuracy rate on different deep learning models. Additionally, there is no Turkish question dataset labeled and so another contribution in this study is that we introduce new Turkish Question Dataset which is translated from UIUC English question dataset. By using these techniques, we have reached an accuracy of %94 on the question dataset.

Benzer Tezler

  1. Intrinsic and extrinsic evaluation of word embedding models

    Kelime gömevlerinin içsel ve dışsal değerlendirmesi

    GÖKÇE YEŞİLTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Derin öğrenme yaklaşımları kullanarak Türkçe metinlerden anlamsal çıkarım yapma

    Semantic inference from Turkish texts using deep learning approaches

    NERGİS PERVAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HACER YALIM KELEŞ

  3. Words as art materials: Generating paintings with sequential generative adversarial networks

    Sanat materyali olarak kelimeler: Seri üretici çekişmeli ağlar ̇ile sanatsal resim üretimi

    AZMİ CAN ÖZGEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  4. Evaluating the performance of different continous vector representation methods for turkish words

    Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi

    GÖKHAN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. From words to sentences: Advancing Turkish emotion analysis through emotion enrichment

    Kelimelerden cümlelere: Duygu zenginleştirme ile Türkçe duygu analizini geliştirme

    HANDE AKA UYMAZ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Ekonomi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SENEM KUMOVA METİN