Geri Dön

Intrinsic and extrinsic evaluation of word embedding models

Kelime gömevlerinin içsel ve dışsal değerlendirmesi

  1. Tez No: 599031
  2. Yazar: GÖKÇE YEŞİLTAŞ
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Bir kelimeyi matematiksel olarak temsil etmek doğal dil işleme uygulamarında önemli bir konudur. Bengio ve arkadaşlarının 2003'te basit sinir ağları kullanarak kelime vektör temsilleri elde etmelerinin ardından, kelimeleri sürekli vektör uzayında temsil etmek daha popüler hale gelmiştir. Mikolov ve arkadaşları 2013'te, word2vec adında yeni bir yöntem öne sürerek, kelime gömevlerinin sözdizimsel ve anlamsal benzerlikleri yakalayabildiğini gösterdi. O zamandan beri İngilizce için birçok yöntem geliştirildi ve uygulamalar yapıldı. Ancak, Türkçe'de kelime temsilleri üzerine yapılan sadece birkaç çalışma vardır. Bu çalışmada kelime gömevi yöntemlerinin hem Türkçe hem de İngilizce'de nasıl çalıştığını analiz etmeyi amaçladık. Word2vec kelime gömevi modeline odaklandık ve kelime temsillerinin kalitesini artırmak için bu modeli geliştirmeye çalıştık. Ek olarak, farklı pencere ve vektör boyutlarına sahip birçok model eğittik. Farklı konfigürasyonların kelime temsillerinin kalitesi üzerindeki etkisini hem içsel hem de dışsal olarak analiz ettik. İçsel değerlendirme için kelime benzeşim görevlerini ve dışsal değerlendirme için ise kelime benzerlik görevlerini kullandık. Sonuç olarak, önerilen modellerimizin Türkçe için, çoğu benzeşim kategorisinde, orijinal word2vec modeline göre daha iyi performans sergilediği gözlemlendi. Ayrıca, pencere ve vektör boyutlarının arttırılmasının, farklı benzeşim kategorilerinde farklı sonuçlar verdiğini gözlemledik. Pencere ve vektör boyutundaki artışın her zaman olumlu sonuçlanmadığını gördük. Bazı kelime benzeşim ve kelime benzerliği görevleri için pencere ve vektör boyutu arttıkça sonuçların kötüleştiğini gözlemledik.

Özet (Çeviri)

In natural language processing tasks, representing a word is an important issue. After Bengio et al. introduced a simple neural network language model that learns word vector representations in 2003, representing words in continuous vector space has become more popular. Mikolov et al. introduced a method named word2vec and showed that word embedding could capture meaningful syntactic and semantic similarities in 2013. Many methods and implementations have been proposed for English since then. However, there are only a few studies on word representations in Turkish. In this study, we aimed to understand and analyze how word embedding models work on both Turkish and English. We focused on the word2vec word embedding model and tried to modify it to improve the quality of word representations. Additionally, we trained many models with different window sizes and dimensions. The impact of different configurations on the quality of word representations was analyzed both intrinsically and extrinsically. We reported the accuracy on word analogy tasks for intrinsic evaluation and word similarity tasks for extrinsic evaluation. Our results show that our proposed models perform better on most of the word analogy task categories for Turkish. We also showed that increasing window sizes and dimensions does not always affect the accuracy in a positive direction. For some analogy and word similarity tasks, it affects negatively.

Benzer Tezler

  1. Anormal uterin kanama nedeni ile mirena uygulanan hastalarda uterin arter, radial arter ve spiral arter doppler parametrelerin incelenmesi

    The doppler evaluation of uterin, radial and spiral artery in the patients treated due to abnormal uterine bleeding by mirena spiral device

    HANİFİ ŞAHİN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2014

    Kadın Hastalıkları ve DoğumMustafa Kemal Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    YRD. DOÇ. DR. ARİF GÜNGÖREN

  2. Herzberg'in çift faktör kuramı açısından ilköğretim I. kademe öğretmenlerinin motivasyon düzeylerinin değerlendirilmesi

    An evaluation of the motivation levels of primary school teachers in terms Herzberg?s two-factor theory

    BORA YILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Eğitim ve ÖğretimBeykent Üniversitesi

    İşletme Yönetimi Ana Bilim Dalı

    YRD. DOÇ. DR. FERDA ŞULE KAYA

  3. Akne rozaseada hastalık şiddeti ile CRP/albümin oranı ve diğer inflamatuar kan parametreleri arasındaki ilişkinin değerlendirilmesi

    Evaluation of the relationship between disease severity and CRP/albumin ratio and other inflammatory blood parameters in acne rosacea

    AHMET ONUR SOĞUKSU

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    DermatolojiAtatürk Üniversitesi

    Deri ve Zührevi Hast. Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERDAL PALA

  4. 5 yaş çocuklarının sosyal becerilerinin bazı değişkenler açısından değerlendirilmesi

    Multi-variable evaluation of 5 year olds? social skills

    SEMA ELİBOL GÜLTEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    Eğitim ve ÖğretimAnkara Üniversitesi

    İlköğretim Ana Bilim Dalı

    PROF. DR. ÇAĞLAYAN DİNÇER

  5. An experimental evaluation of relative reconstruction algorithms

    Göreli rekonstrüksiyon algoritmalarının deneysel değerlendirmesi

    YAKUP GENÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    1995

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of Illinois at Urbana-Champaign

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. JEAN PONCE