Combination of word embeddings

Kelime vektörlerinin kombinasyonu

PDF İndir

Tez No: 572750
Yazar: SELİN DEĞİRMENCİ
Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Marmara Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 61

Özet

Kelime vektörleri, Doğal Dil İşlemede kelimeleri temsil etmektedir ve son yıllarda Doğal Dil İşleme görevlerinde başarıyla kullanılmıştır. Kelime vektörü oluşturma yöntemleri, kelimelerin anlamsal benzerliğini kodlarken, genellikle çok büyük bir veri kümesinden, terimlerin vektörel gösterimini oluşturur. Farklı kelime vektörlerinin doğal dil işleme görevlerindeki başarıları, doğal dil işleme görevinin çeşidine göre farklılık gösterdiğinden söz konusu kelime vektörlerinin seçimi bu alanda önemli bir hiperparametredir. Makine öğrenme modelleri birlikteliklerinin kendi bileşenlerinden daha iyi performans gösterme eğiliminde oldukları da bilinmektedir. Bu nedenle, performansı iyileştirmek için farklı modelleri birleştirmek mantıklıdır. Word2vec ve fastText modelleri Doğal Dil İşlemedeki iki popüler modellerdir. Bu modeller kelime başına iki vektör verir: bir kelime ve bir bağlam vektörü. Tipik olarak bağlam vektörleri, farklı Doğal Dil İşleme görevleri için faydalı bilgiler içerme ihtimaline rağmen, eğitimden sonra atılır. Bu nedenle bu tezde, kelime ve bağlam vektörlerini kelime vektörlerinin kombinasyonu çerçevesinde birleştiriyoruz. Deneylerimiz, metin sınıflandırma, anlamsal benzerlik ve kelime analojisi gibi birçok Doğal Dil İşleme görevinde performans artışı olduğunu göstermektedir. Sonuç olarak, bu yaklaşım maliyeti az bir değişiklik ile Doğal Dil İşleme görevlerinde performansı artırmak için kullanılabilir.

Özet (Çeviri)

Word embeddings are representations of words in Natural Language Processing (NLP). This approach is applied in NLP tasks successfully in recent years. Word embedding methods provide vector representations of a terms in a corpus while encoding semantic similarity of words. The choice of word embeddings is a significant hyperparameter for NLP tasks, since it has been observed that different embedding models tend to provide stronger representations for different types of downstream tasks. It is also known that ensembles of machine learning models tend to perform better than their individual parts. It makes sense, then, to combine different embeddings in order improve performance. The word2vec and fastText models are two popular vector models in NLP. These models train two vectors per word: a word and a context vector. Typically, the context vectors are discarded after training, even though they may contain useful information for different NLP tasks. Therefore, in this thesis, we combine word and context vectors in the framework of meta-embeddings. Our experiments show performance increases at several NLP tasks include text classification, word similarity and word analogy in different datasets. In conclusion, this approach can be used to increase performance at downstream tasks while requiring minimal additional computational resources.

Benzer Tezler

Tez No
631243
Enriching contextual word embeddings with character information
Bağlamsal kelime gömmelerinin karakter bilgisi ile zenginleştirilmesi
OZAN POLATBİLEK
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Yüksek Teknoloji Enstitüsü
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELMA TEKİR
Tez No
701456
Disclosing zipfian regularities in semantic breadth of words via multimodal gaussian embeddings
Çok modlu gauss kelime temsilleri ile sözcüklerin anlamsal genişliğindeki zipf'sel düzenliliklerin ortaya çıkarımı
FURKAN ŞAHİNUÇ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYKUT KOÇ
PROF. DR. MEMDUH HALDUN ÖZAKTAŞ
Tez No
561293
Evaluation of deep learning algorithms in sentiment analysis
Duygu analizinde derin öğrenme algoritmalarının karşılaştırılması
SANİ KAMIŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yeditepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DIONYSIS GOULARAS
Tez No
521130
Topluluk sınıflandırıcıları ve özellik seçme metotlarıyla geliştirilen uzay ormanları
Improved space forests with an ensemble of classifiers and feature selection methods
ZEYNEP HİLAL KİLİMCİ
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEVİNÇ İLHAN OMURCA
Tez No
604542
Mention extraction and normalization using ontologies in the biomedical domain
Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme
MERT TİFTİKCİ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

Geri Dön