Analysis of context embeddings in word sense induction

Bağlam gömülerinin sözcük anlamı tümevarımda incelenmesi

PDF İndir

Tez No: 414049
Yazar: OSMAN BAŞKAYA
Danışmanlar: DOÇ. DR. DENİZ YURET
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 77

Özet

Bir kelimenin anlamlarını elle hazırlanmış sözcüksel bir veritabanı ile temsil etmenin birden çok problemi bulunmaktadır. Bu tip sözlükler bir kelimeye ait tahmin ettiğimiz anlamı işaret edecek bir kayıt bulundurmayabilirler; zirâ sözlükler çok genel hazırlanmaktadırlar. Bu sözlükler bir kelimenin çok nâdir kullanılan anlamlarını içerirler fakat alana özgü anlamları barındırmayabilirler. Sözcük anlamı tümevarımı (word sense induction) kelimenin anlamlarını (kullanımlarını) ayırırken elle oluşturulmuş, durağan bir kaynak yardımı almadığından bu tip problemleri çözmektedir. Diğer popüler çözümlerin (muğlaklığı giderilmek istenen kelimenin birinci dereceden ya da ikinci dereceden birlikte görüldüğü diğer kelimeleri kullanarak elde edilen bir temsil üzerine kümeleme ya da çizge bölümlemesi gibi) aksine tezde takip ettiğimiz yöntem; muğlaklığını gidermek istediğimiz kelimeyle aynı bağlamda kullanılması ihtimâli yüksek olan kelimeleri ve bu kelimelerin olasılıklarını bir dil modeli yardımıyla bulup, bunları S-CODE adlı Öklitsel gömme (embedding) algoritması vasıtasıyla modellemektir. Bu algoritma ile kelime türü gömülerine (word embedding) ek olarak, kullandığımız yöntemle bağlam gömülerini (context embedding) de elde etmekteyiz. Bağlam gömüleri daha sonra $k$-means algoritması yardımıyla kümelenerek hedef kelimemize ait farklı kullanımlar ayrıştırılmaktadır. Bu yöntemin benzerleri önceki yıllarda gözetimsiz sözcük türü tümevarımı (unsupervised part-of-speech induction) ve gözetimli bağlılık ayrıştırması problemlerinde başarılı olmuşlardır. Yöntemimizi SemEval 2010, SemEval 2013 kelime anlamı tümevarımı yarışmalarında hazırlanmış veri kümelerinde ve OntoNotes projesinin (versiyon 5.0) işaretlediği cümleleri kullanarak bizim oluşturduğumuz, yüksek uzlaşmaya (>%90) ve en az 500 örneğe sahip kelimelerin bulunduğu bir sözcük veri kümesinde test ettik. Bu tezin literatüre katkısı şöyle özetlenebilir. (1) Sözcük anlamı tümevarımı problemi için bağlam temsillerinden yararlanan bir yöntem öneriyoruz. (2) (a) Literatürde önerilen kelime temsillerini, aynı bağlamda kullanılması ihtimâli yüksek olan kelimelerin olasılıklarını kullanarak bağlam temsillerine dönüstürüp kendi onerdigimiz bağlam temsilleriyle kıyasladık. (b) Farklı kümeleme algoritmalarını ($k$-means, Spectral Clustering, DBSCAN) ve bu algoritmaların Sözcük Anlamı Tümevarımı problemine özel farklı yaklaşımlarını (lokâl yaklaşım, sözcük türüne bağlı yaklaşım) kıyasladık. Son olarak, OntoNotes projesini kullanarak olusturduğumuz veri kümesini hazırlayan prosedürü, ilerde aynı problemle uğraşacak araştırmacılara yardımı dokunması ümidiyle paylaştık. Araştırmacılar aynı parametrelerle aynı veri kümesini üretip, bizim önerdiğimiz yöntem ile kendi sistemlerini karşılaştırabilir; yâhut farklı parametrelerle kendilerine uyacak bir veri kümesi üretebilirler. Yapılan çalışmayı ve alınan sonuçları tekrarlamak için gerekli kodlara https://github.com/osmanbaskaya/wsid adresinden ulaşılabilir.

Özet (Çeviri)

There exist several drawbacks of representing the word senses with a fixed list of definitions of a manually constructed lexical database. There is no guarantee that they reflect the exact meaning of a target word in a given context, since they usually contain definitions that are too general. More so, lexical databases often include many rare senses while missing corpus/domain-specific senses. Word Sense Induction (WSI) focuses on discriminating the usages of a polysemous word with- out using a fixed list of definitions or any hand-crafted resources. In contrast to the most common approach in WSI, which is to apply clustering or graph partitioning on a representation of first- or second-order co-occurrences of a word, my method obtains a probability distribution for each context suggested by a statistical model. This distribution helps to create context embeddings us- ing the co-occurrence framework that represents the context with low-dimensional, dense vectors in Euclidean space. Then, these context embeddings are clustered by k-means clustering algorithm to discriminate usages (senses) of a word. This method proved its usefulness in Unsupervised Part-of-Speech Induction, and su- pervised tasks such as Multilingual Dependency Parsing. I examine this method on SemEval 2010 and SemEval 2013 Word Sense Induction lexical sample tasks, and the dataset I created using OntoNotes 5.0. This new lexical sample dataset has high inter-annotator agreement (IAA) (>90%) and number of instances for each word type is more than any previous lexical sample tasks (>500 instances). The contributions in this thesis are as follows: (1) I suggest a method to attack the Word Sense Induction problem. (2) I provide a comprehensive analysis (a) in embedding step by comparing other popular word embeddings by transforming each of them to context embeddings using substitute word distributions for each context, and (b) in clustering step by comparing different clustering algorithms (k- means, Spectral Clustering, DBSCAN) and different clustering approaches (local approach where instances of each word type clustered separately, and part-of-speech based approach where instances tagged with same-part-of-speech clusters indepen- dently). The code to replicate the results in this thesis can be found at https://github.com /osmanbaskaya/wsid.

Benzer Tezler

Tez No
22079
IEEE 1149.1 standardı kullanarak test edilebilir lojik devre tasarımı
Testable lojik circit design by using IEEE 1149.1 standard
A.BETÜL TUNCER
Yüksek Lisans
Türkçe
1992
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. AHMET DERVİŞOĞLU
Tez No
731530
Görsel soru cevaplama probleminde bağlamsal vektörlerin performans analizi
Performance analysis of contextual vectors in visual question answering problem
ÖZLEM HAKDAĞLI
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bursa Uludağ Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. METİN BİLGİN
Tez No
496320
Building of Turkish propbank and semantic role labeling of Turkish
Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi
GÖZDE GÜL ŞAHİN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
Tez No
758409
Cross-level typing the logical form for open-domain semantic parsing
Açık alan anlambilimsel ayrıştırma için mantıksal forma düzeyler arası tür atanması
İSMET ADNAN ÖZTÜREL
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişsel Bilim Ana Bilim Dalı
PROF. DR. HÜSEYİN CEM BOZŞAHİN
Tez No
952982
Discovering market insights from online product reviews through sentiment analysis
Çevrimiçi müşteri yorumları ile duygu analizi ve pazar payı için bir içgörü aracı
MUHAMMET ALİ KADIOĞLU
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI

Geri Dön