Geri Dön

Measuring and improving interpretability of word embeddings using lexical resources

Sözcüksel kaynaklar kullanarak kelime temsillerinin yorumlanabilirliklerinin ölçülmesi ve iyileştirilmesi

  1. Tez No: 575116
  2. Yazar: LÜTFİ KEREM ŞENEL
  3. Danışmanlar: DOÇ. DR. TOLGA ÇUKUR, DR. ÖĞR. ÜYESİ AYKUT KOÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Linguistics, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Doğal dil işlemede (DDİ) yaygın bir yöntem olan kelime temsilleri, kelimelerin anlamsal özelliklerini yoğun vektörler kullanarak temsil etmek için sıklıkla kullanılmaktadır. Çok sayıda DDİ uygulamasında elde edilen en iyi performansları sağladıklarından popülerlikleri giderek artmıştır. Kelime temsilleri özellikle kelimeler arasındaki anlamsal ilişkileri yakalamakta başarılı olduklarından, bu temsil uzayları içlerinde anlamlı bir semantik yapı barındırmalıdırlar. Ancak genellikle bu anlamsal yapı uzayın boyutları arasında heterojen bir şekilde dağılmaktadır. Başka bir ifadeyle, kelimelere karşılık gelen vektörler sadece birbirlerine göre anlam taşırlar. Bir kelime vektörünün ve bu vektörün boyutlarının tek başına mutlak bir anlamı yoktur ve bu durum boyutların yorumlanmasını zorlaştırmaktadır. Bu tezde, yoğun kelime temsil uzaylarında altta yatan saklı anlamsal yapıyı ortaya çıkarmak için istatistiksel bir yöntem önerilmiştir. Buna ek olarak, kelime temsil uzaylarının yorumlanabilirlik düzeylerini sayısal olarak ölçmeye yarayan bir yöntem önerilmiştir. Önerilen yöntem, literatürde yorumlanabilirliği ölçmek için kullanılan ve insan değerlendirmesine gereksinim duyan kelime ihlal testine pratik bir alternatif olma potansiyeline sahiptir. Ayrıca, orijinal öğrenme mekanizmasını etkilemeden kelime temsillerinin yorumlanabilirliklerini arttırmak amacıyla, GloVe kelime temsil algoritmalasının amaç fonksiyonuna yeni bir terim eklenmiştir. Eklenen terim, önceden tanımlanan konular ile anlamsal olarak ilişkili olan kelimelerin vektörlerinin temsil uzayının belirli boyutlarında yüksek değerler almasını sağlamaktadır. Kavram gruplarını oluşturmak amacıyla Roget's Thesaurus kaynak olarak kullanılmıştır. Elde edilen kavram gruplarının içerisindeki kelimelerin vektörlerinin temsil uzayının belirli boyutlarında yüksek değerler almaları sağlanmıştır. Önerilen yöntemin kelime temsil uzayının yorumlanabilirliğini, uzayın anlamsal yapısına zarar vermeden, önemli derecede arttırdığı yapılan ayrıntılı değerlendirme ve ölçümler ile gösterilmiştir. Ayrıca önerilen yöntemin uygun kavram grupları ile beraber kullanıldığında denektaşı sınamalarında önemli performans artışı sağladığı ve kelime temsillerinde bulunan cinsiyet önyargısını düşürdüğü gösterilmiştir.

Özet (Çeviri)

As an ubiquitous method in natural language processing, word embeddings are extensively employed to map semantic properties of words into a dense vector representations. They have become increasingly popular due to their state-of-the-art performances in many natural language processing (NLP) tasks. Word embeddings are substantially successful in capturing semantic relations among words, so a meaningful semantic structure must be present in the respective vector spaces. However, in many cases, this semantic structure is broadly and heterogeneously distributed across the embedding dimensions. In other words, vectors corresponding to the words are only meaningful relative to each other. Neither the vector nor its dimensions have any absolute meaning, making interpretation of dimensions a big challenge. We propose a statistical method to uncover the underlying latent semantic structure in the dense word embeddings. To perform our analysis, we introduce a new dataset (SEMCAT) that contains more than 6,500 words semantically grouped under 110 categories. We further propose a method to quantify the interpretability of the word embeddings that is a practical alternative to the classical word intrusion test that requires human intervention. Moreover, in order to improve the interpretability of word embeddings while leaving the original semantic learning mechanism mostly unaffected, we introduce an additive modification to the objective function of the embedding learning algorithm, GloVe, that promotes the vectors of words that are semantically related to a predefined concept to take larger values along a specified dimension. We use Roget's Thesaurus to extract concept groups and align the words in these groups with embedding dimensions using modified objective function. By performing detailed evaluations, we show that proposed method improves interpretability drastically while preserving the semantic structure. We also demonstrate that imparting method with suitable concept groups can be used to significantly improve performance on benchmark tests and to measure and reduce gender bias present in the word embeddings.

Benzer Tezler

  1. Hanehalkı yoksulluk düzeyinin makine öğrenmesi ve yapay sinir ağları ile tahmini: Türkiye örneği

    Estimation of household poverty level via machine learning and artificial neural networks: The case of Türkiye

    BEYZANUR ABACI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    MaliyeNecmettin Erbakan Üniversitesi

    Maliye Ana Bilim Dalı

    PROF. DR. ALTUĞ MURAT KÖKTAŞ

  2. Measuring and improving mental rotation ability in three dimensions: A holistic investigation

    Zihinsel döndürme becerisini üç boyutlu ortamda ölçmek ve geliştirmek: Bütünsel bir araştırma

    ZEYNEP PİRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    DOÇ. DR. GÖKNUR KAPLAN

  3. Sosyal hizmet mesleğinde algılanan yetkinliğin ölçülmesi ve geliştirilmesi

    Measuring and improving of perceived competence in social work profession

    HABİBULLAH AKINCI

    Doktora

    Türkçe

    Türkçe

    2022

    Sosyal HizmetYalova Üniversitesi

    Sosyal Hizmet Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RECEP ÇELİK

  4. Hizmet kalitesini ölçme ve iyileştirmede yeni bir yaklaşım: Kritik olaylar teniği (KOT) ve Nevşehir'de faaliyet gösteren üç, dört ve beş yıldızlı otellerde bir uygulama

    A New approach for measuring and improving service quality: Critical incidenst technique (CIT), and an investigation in three, four and five star hotels in Nevşehir

    İBRAHİM YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    İşletmeHacettepe Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. BAHTIŞEN KAVAK

  5. Örgüt performansının ölçülmesi ve geliştirilmesinde kıyaslama yöntemi ve imalat şirketlerinde kıyaslama uygulamaları

    Benchmarking on measuring and improving organizational performance and application of Benchmarking in the manufacturing industry

    HATİCE SARIALTIN

    Doktora

    Türkçe

    Türkçe

    2003

    İşletmeSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. RECAİ COŞKUN