Geri Dön

Combination of word embeddings

Kelime vektörlerinin kombinasyonu

  1. Tez No: 572750
  2. Yazar: SELİN DEĞİRMENCİ
  3. Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 61

Özet

Kelime vektörleri, Doğal Dil İşlemede kelimeleri temsil etmektedir ve son yıllarda Doğal Dil İşleme görevlerinde başarıyla kullanılmıştır. Kelime vektörü oluşturma yöntemleri, kelimelerin anlamsal benzerliğini kodlarken, genellikle çok büyük bir veri kümesinden, terimlerin vektörel gösterimini oluşturur. Farklı kelime vektörlerinin doğal dil işleme görevlerindeki başarıları, doğal dil işleme görevinin çeşidine göre farklılık gösterdiğinden söz konusu kelime vektörlerinin seçimi bu alanda önemli bir hiperparametredir. Makine öğrenme modelleri birlikteliklerinin kendi bileşenlerinden daha iyi performans gösterme eğiliminde oldukları da bilinmektedir. Bu nedenle, performansı iyileştirmek için farklı modelleri birleştirmek mantıklıdır. Word2vec ve fastText modelleri Doğal Dil İşlemedeki iki popüler modellerdir. Bu modeller kelime başına iki vektör verir: bir kelime ve bir bağlam vektörü. Tipik olarak bağlam vektörleri, farklı Doğal Dil İşleme görevleri için faydalı bilgiler içerme ihtimaline rağmen, eğitimden sonra atılır. Bu nedenle bu tezde, kelime ve bağlam vektörlerini kelime vektörlerinin kombinasyonu çerçevesinde birleştiriyoruz. Deneylerimiz, metin sınıflandırma, anlamsal benzerlik ve kelime analojisi gibi birçok Doğal Dil İşleme görevinde performans artışı olduğunu göstermektedir. Sonuç olarak, bu yaklaşım maliyeti az bir değişiklik ile Doğal Dil İşleme görevlerinde performansı artırmak için kullanılabilir.

Özet (Çeviri)

Word embeddings are representations of words in Natural Language Processing (NLP). This approach is applied in NLP tasks successfully in recent years. Word embedding methods provide vector representations of a terms in a corpus while encoding semantic similarity of words. The choice of word embeddings is a significant hyperparameter for NLP tasks, since it has been observed that different embedding models tend to provide stronger representations for different types of downstream tasks. It is also known that ensembles of machine learning models tend to perform better than their individual parts. It makes sense, then, to combine different embeddings in order improve performance. The word2vec and fastText models are two popular vector models in NLP. These models train two vectors per word: a word and a context vector. Typically, the context vectors are discarded after training, even though they may contain useful information for different NLP tasks. Therefore, in this thesis, we combine word and context vectors in the framework of meta-embeddings. Our experiments show performance increases at several NLP tasks include text classification, word similarity and word analogy in different datasets. In conclusion, this approach can be used to increase performance at downstream tasks while requiring minimal additional computational resources.

Benzer Tezler

  1. Enriching contextual word embeddings with character information

    Bağlamsal kelime gömmelerinin karakter bilgisi ile zenginleştirilmesi

    OZAN POLATBİLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji Enstitüsü

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SELMA TEKİR

  2. Disclosing zipfian regularities in semantic breadth of words via multimodal gaussian embeddings

    Çok modlu gauss kelime temsilleri ile sözcüklerin anlamsal genişliğindeki zipf'sel düzenliliklerin ortaya çıkarımı

    FURKAN ŞAHİNUÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYKUT KOÇ

    PROF. DR. MEMDUH HALDUN ÖZAKTAŞ

  3. Evaluation of deep learning algorithms in sentiment analysis

    Duygu analizinde derin öğrenme algoritmalarının karşılaştırılması

    SANİ KAMIŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYeditepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DIONYSIS GOULARAS

  4. Topluluk sınıflandırıcıları ve özellik seçme metotlarıyla geliştirilen uzay ormanları

    Improved space forests with an ensemble of classifiers and feature selection methods

    ZEYNEP HİLAL KİLİMCİ

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEVİNÇ İLHAN OMURCA

  5. Mention extraction and normalization using ontologies in the biomedical domain

    Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme

    MERT TİFTİKCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN