Geri Dön

Analysis of context embeddings in word sense induction

Bağlam gömülerinin sözcük anlamı tümevarımda incelenmesi

  1. Tez No: 414049
  2. Yazar: OSMAN BAŞKAYA
  3. Danışmanlar: DOÇ. DR. DENİZ YURET
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Bir kelimenin anlamlarını elle hazırlanmış sözcüksel bir veritabanı ile temsil etmenin birden çok problemi bulunmaktadır. Bu tip sözlükler bir kelimeye ait tahmin ettiğimiz anlamı işaret edecek bir kayıt bulundurmayabilirler; zirâ sözlükler çok genel hazırlanmaktadırlar. Bu sözlükler bir kelimenin çok nâdir kullanılan anlamlarını içerirler fakat alana özgü anlamları barındırmayabilirler. Sözcük anlamı tümevarımı (word sense induction) kelimenin anlamlarını (kullanımlarını) ayırırken elle oluşturulmuş, durağan bir kaynak yardımı almadığından bu tip problemleri çözmektedir. Diğer popüler çözümlerin (muğlaklığı giderilmek istenen kelimenin birinci dereceden ya da ikinci dereceden birlikte görüldüğü diğer kelimeleri kullanarak elde edilen bir temsil üzerine kümeleme ya da çizge bölümlemesi gibi) aksine tezde takip ettiğimiz yöntem; muğlaklığını gidermek istediğimiz kelimeyle aynı bağlamda kullanılması ihtimâli yüksek olan kelimeleri ve bu kelimelerin olasılıklarını bir dil modeli yardımıyla bulup, bunları S-CODE adlı Öklitsel gömme (embedding) algoritması vasıtasıyla modellemektir. Bu algoritma ile kelime türü gömülerine (word embedding) ek olarak, kullandığımız yöntemle bağlam gömülerini (context embedding) de elde etmekteyiz. Bağlam gömüleri daha sonra $k$-means algoritması yardımıyla kümelenerek hedef kelimemize ait farklı kullanımlar ayrıştırılmaktadır. Bu yöntemin benzerleri önceki yıllarda gözetimsiz sözcük türü tümevarımı (unsupervised part-of-speech induction) ve gözetimli bağlılık ayrıştırması problemlerinde başarılı olmuşlardır. Yöntemimizi SemEval 2010, SemEval 2013 kelime anlamı tümevarımı yarışmalarında hazırlanmış veri kümelerinde ve OntoNotes projesinin (versiyon 5.0) işaretlediği cümleleri kullanarak bizim oluşturduğumuz, yüksek uzlaşmaya (>%90) ve en az 500 örneğe sahip kelimelerin bulunduğu bir sözcük veri kümesinde test ettik. Bu tezin literatüre katkısı şöyle özetlenebilir. (1) Sözcük anlamı tümevarımı problemi için bağlam temsillerinden yararlanan bir yöntem öneriyoruz. (2) (a) Literatürde önerilen kelime temsillerini, aynı bağlamda kullanılması ihtimâli yüksek olan kelimelerin olasılıklarını kullanarak bağlam temsillerine dönüstürüp kendi onerdigimiz bağlam temsilleriyle kıyasladık. (b) Farklı kümeleme algoritmalarını ($k$-means, Spectral Clustering, DBSCAN) ve bu algoritmaların Sözcük Anlamı Tümevarımı problemine özel farklı yaklaşımlarını (lokâl yaklaşım, sözcük türüne bağlı yaklaşım) kıyasladık. Son olarak, OntoNotes projesini kullanarak olusturduğumuz veri kümesini hazırlayan prosedürü, ilerde aynı problemle uğraşacak araştırmacılara yardımı dokunması ümidiyle paylaştık. Araştırmacılar aynı parametrelerle aynı veri kümesini üretip, bizim önerdiğimiz yöntem ile kendi sistemlerini karşılaştırabilir; yâhut farklı parametrelerle kendilerine uyacak bir veri kümesi üretebilirler. Yapılan çalışmayı ve alınan sonuçları tekrarlamak için gerekli kodlara https://github.com/osmanbaskaya/wsid adresinden ulaşılabilir.

Özet (Çeviri)

There exist several drawbacks of representing the word senses with a fixed list of definitions of a manually constructed lexical database. There is no guarantee that they reflect the exact meaning of a target word in a given context, since they usually contain definitions that are too general. More so, lexical databases often include many rare senses while missing corpus/domain-specific senses. Word Sense Induction (WSI) focuses on discriminating the usages of a polysemous word with- out using a fixed list of definitions or any hand-crafted resources. In contrast to the most common approach in WSI, which is to apply clustering or graph partitioning on a representation of first- or second-order co-occurrences of a word, my method obtains a probability distribution for each context suggested by a statistical model. This distribution helps to create context embeddings us- ing the co-occurrence framework that represents the context with low-dimensional, dense vectors in Euclidean space. Then, these context embeddings are clustered by k-means clustering algorithm to discriminate usages (senses) of a word. This method proved its usefulness in Unsupervised Part-of-Speech Induction, and su- pervised tasks such as Multilingual Dependency Parsing. I examine this method on SemEval 2010 and SemEval 2013 Word Sense Induction lexical sample tasks, and the dataset I created using OntoNotes 5.0. This new lexical sample dataset has high inter-annotator agreement (IAA) (>90%) and number of instances for each word type is more than any previous lexical sample tasks (>500 instances). The contributions in this thesis are as follows: (1) I suggest a method to attack the Word Sense Induction problem. (2) I provide a comprehensive analysis (a) in embedding step by comparing other popular word embeddings by transforming each of them to context embeddings using substitute word distributions for each context, and (b) in clustering step by comparing different clustering algorithms (k- means, Spectral Clustering, DBSCAN) and different clustering approaches (local approach where instances of each word type clustered separately, and part-of-speech based approach where instances tagged with same-part-of-speech clusters indepen- dently). The code to replicate the results in this thesis can be found at https://github.com /osmanbaskaya/wsid.

Benzer Tezler

  1. IEEE 1149.1 standardı kullanarak test edilebilir lojik devre tasarımı

    Testable lojik circit design by using IEEE 1149.1 standard

    A.BETÜL TUNCER

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. AHMET DERVİŞOĞLU

  2. Görsel soru cevaplama probleminde bağlamsal vektörlerin performans analizi

    Performance analysis of contextual vectors in visual question answering problem

    ÖZLEM HAKDAĞLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBursa Uludağ Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. METİN BİLGİN

  3. Building of Turkish propbank and semantic role labeling of Turkish

    Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi

    GÖZDE GÜL ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  4. Cross-level typing the logical form for open-domain semantic parsing

    Açık alan anlambilimsel ayrıştırma için mantıksal forma düzeyler arası tür atanması

    İSMET ADNAN ÖZTÜREL

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. HÜSEYİN CEM BOZŞAHİN

  5. Evaluating the performance of different continous vector representation methods for turkish words

    Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi

    GÖKHAN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ