Geri Dön

Learning word representations with deep neural networks for Turkish

Türkçe için derin sinir ağları ile sözcük gösteriminin öğrenilmesi

  1. Tez No: 539284
  2. Yazar: ENES BURAK DÜNDAR
  3. Danışmanlar: PROF. DR. AHMET İBRAHİM ETHEM ALPAYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Bu çalışmada, Türkçe metinlerde kullanılan sözcük gösterim yöntemlerinin (word-2vec, fastText ve ELMo) analizine yönelik bir çalışma yapılmıştır. Sözcük gösterimleri, sözcükleri yüksek boyutlu vektör uzayında göstermek için kullanılır. Benzer anlamdaki sözcüklerin bu uzay içinde yakın yerlerde konumlanması amaçlanır. Sözcük vektörleri metin sınıflandırma ve çeviri gibi alanlarda kullanılabilir. Farklı boyutlardaki Türkçe derlemler üzerinde word2vec, fastText ve ELMo yöntemleri üzerinde deneyler yapılıp sözcük çantası yöntemiyle karşılaştırılmıştır. Word2vec yöntemi sözcük seviyesinde çalışırken, fastText harf seviyesindeki gösterimleri kullanarak sözcükleri temsil edebilmektedir. ELMo, cümledeki bağlam bilgisini kullanarak sözcük vektörleri oluşturur. Word2vec ve fastText yöntemleri ise bağlam bilgisini kullanamaz. Öğrenilen sözcük vektörleri sözdizimsel ve anlamsal sınama kümelerinde ve konu sınıflandırmada karşılaş-tırılmıştır. Deneylerimiz, fastText modelinin konu sınıflandırma konusunda, word2vec modelinin ise anlam benzeşmelerinde daha başarılı olduğunu göstermektedir.

Özet (Çeviri)

In this study, we analyze the effect of different word embedding methods in representing Turkish texts, namely word2vec, fastText, and ELMo. Word embeddings are used for representing words in a high dimensional vector space such that similar words are placed nearby. This will help in different tasks, such as document classification, machine translation, and so on. We conduct experiments on Turkish corpora of different sizes using word2vec, fastText, and ELMo, and compare them with bag-of-words (BOW). Word2vec works at the word level; fastText works at the character (subword) level and the representation of a word is calculated by combining the representations of subwords. ELMo is context-dependent, that is, the representation of a vector depends on other words in the sentence, whereas word2vec and fastText are context-independent. Learned word embeddings are evaluated on noun and verb inflections, semantic analogy tests, as well as on topic classification of news documents. Our experiments indicate that fastText vectors are better on classification tasks. Word2vec vectors are more useful on semantic analogies.

Benzer Tezler

  1. Deep neural networks for named entity recognition on social media

    Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları

    EMRE KAĞAN AKKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  2. Türkçe dizi etiketleme için sinir ağ modelleri

    Neural models for Turkish sequence labeling

    YASİN EŞREF

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  3. Derin öğrenme yöntemleri ile zaman serisi tahmini

    Time series classification with deep learning methods

    HAKAN GÜNDÜZ

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZEHRA ÇATALTEPE

  4. Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı

    Use of word embedding vectors in text classification through graph conversion

    ELİF DORUKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. İLKER TÜRKER

  5. Development of deep learning-basedsentiment analysis approaches withneural network-based languagemodels

    Sinir ağı tabanlı dil modelleriyle derin öğrenme tabanlı duygu analizi yaklaşımlarının geliştirilmesi

    KHADIJA MOHAMAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KÜRŞAT MUSTAFA KARAOĞLAN