Combination of word embeddings
Kelime vektörlerinin kombinasyonu
- Tez No: 572750
- Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Kelime vektörleri, Doğal Dil İşlemede kelimeleri temsil etmektedir ve son yıllarda Doğal Dil İşleme görevlerinde başarıyla kullanılmıştır. Kelime vektörü oluşturma yöntemleri, kelimelerin anlamsal benzerliğini kodlarken, genellikle çok büyük bir veri kümesinden, terimlerin vektörel gösterimini oluşturur. Farklı kelime vektörlerinin doğal dil işleme görevlerindeki başarıları, doğal dil işleme görevinin çeşidine göre farklılık gösterdiğinden söz konusu kelime vektörlerinin seçimi bu alanda önemli bir hiperparametredir. Makine öğrenme modelleri birlikteliklerinin kendi bileşenlerinden daha iyi performans gösterme eğiliminde oldukları da bilinmektedir. Bu nedenle, performansı iyileştirmek için farklı modelleri birleştirmek mantıklıdır. Word2vec ve fastText modelleri Doğal Dil İşlemedeki iki popüler modellerdir. Bu modeller kelime başına iki vektör verir: bir kelime ve bir bağlam vektörü. Tipik olarak bağlam vektörleri, farklı Doğal Dil İşleme görevleri için faydalı bilgiler içerme ihtimaline rağmen, eğitimden sonra atılır. Bu nedenle bu tezde, kelime ve bağlam vektörlerini kelime vektörlerinin kombinasyonu çerçevesinde birleştiriyoruz. Deneylerimiz, metin sınıflandırma, anlamsal benzerlik ve kelime analojisi gibi birçok Doğal Dil İşleme görevinde performans artışı olduğunu göstermektedir. Sonuç olarak, bu yaklaşım maliyeti az bir değişiklik ile Doğal Dil İşleme görevlerinde performansı artırmak için kullanılabilir.
Özet (Çeviri)
Word embeddings are representations of words in Natural Language Processing (NLP). This approach is applied in NLP tasks successfully in recent years. Word embedding methods provide vector representations of a terms in a corpus while encoding semantic similarity of words. The choice of word embeddings is a significant hyperparameter for NLP tasks, since it has been observed that different embedding models tend to provide stronger representations for different types of downstream tasks. It is also known that ensembles of machine learning models tend to perform better than their individual parts. It makes sense, then, to combine different embeddings in order improve performance. The word2vec and fastText models are two popular vector models in NLP. These models train two vectors per word: a word and a context vector. Typically, the context vectors are discarded after training, even though they may contain useful information for different NLP tasks. Therefore, in this thesis, we combine word and context vectors in the framework of meta-embeddings. Our experiments show performance increases at several NLP tasks include text classification, word similarity and word analogy in different datasets. In conclusion, this approach can be used to increase performance at downstream tasks while requiring minimal additional computational resources.
Benzer Tezler
- Enriching contextual word embeddings with character information
Bağlamsal kelime gömmelerinin karakter bilgisi ile zenginleştirilmesi
OZAN POLATBİLEK
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİzmir Yüksek Teknoloji EnstitüsüBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SELMA TEKİR
- Disclosing zipfian regularities in semantic breadth of words via multimodal gaussian embeddings
Çok modlu gauss kelime temsilleri ile sözcüklerin anlamsal genişliğindeki zipf'sel düzenliliklerin ortaya çıkarımı
FURKAN ŞAHİNUÇ
Yüksek Lisans
İngilizce
2021
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYKUT KOÇ
PROF. DR. MEMDUH HALDUN ÖZAKTAŞ
- Evaluation of deep learning algorithms in sentiment analysis
Duygu analizinde derin öğrenme algoritmalarının karşılaştırılması
SANİ KAMIŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYeditepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DIONYSIS GOULARAS
- Topluluk sınıflandırıcıları ve özellik seçme metotlarıyla geliştirilen uzay ormanları
Improved space forests with an ensemble of classifiers and feature selection methods
ZEYNEP HİLAL KİLİMCİ
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEVİNÇ İLHAN OMURCA
- Mention extraction and normalization using ontologies in the biomedical domain
Biyomedikal alanda varlık ismi tanıma ve ontolojileri kullanarak normalize etme
MERT TİFTİKCİ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN