Measuring and improving interpretability of word embeddings using lexical resources

Sözcüksel kaynaklar kullanarak kelime temsillerinin yorumlanabilirliklerinin ölçülmesi ve iyileştirilmesi

PDF İndir

Tez No: 575116
Yazar: LÜTFİ KEREM ŞENEL
Danışmanlar: DOÇ. DR. TOLGA ÇUKUR, DR. ÖĞR. ÜYESİ AYKUT KOÇ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Linguistics, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 97

Özet

Doğal dil işlemede (DDİ) yaygın bir yöntem olan kelime temsilleri, kelimelerin anlamsal özelliklerini yoğun vektörler kullanarak temsil etmek için sıklıkla kullanılmaktadır. Çok sayıda DDİ uygulamasında elde edilen en iyi performansları sağladıklarından popülerlikleri giderek artmıştır. Kelime temsilleri özellikle kelimeler arasındaki anlamsal ilişkileri yakalamakta başarılı olduklarından, bu temsil uzayları içlerinde anlamlı bir semantik yapı barındırmalıdırlar. Ancak genellikle bu anlamsal yapı uzayın boyutları arasında heterojen bir şekilde dağılmaktadır. Başka bir ifadeyle, kelimelere karşılık gelen vektörler sadece birbirlerine göre anlam taşırlar. Bir kelime vektörünün ve bu vektörün boyutlarının tek başına mutlak bir anlamı yoktur ve bu durum boyutların yorumlanmasını zorlaştırmaktadır. Bu tezde, yoğun kelime temsil uzaylarında altta yatan saklı anlamsal yapıyı ortaya çıkarmak için istatistiksel bir yöntem önerilmiştir. Buna ek olarak, kelime temsil uzaylarının yorumlanabilirlik düzeylerini sayısal olarak ölçmeye yarayan bir yöntem önerilmiştir. Önerilen yöntem, literatürde yorumlanabilirliği ölçmek için kullanılan ve insan değerlendirmesine gereksinim duyan kelime ihlal testine pratik bir alternatif olma potansiyeline sahiptir. Ayrıca, orijinal öğrenme mekanizmasını etkilemeden kelime temsillerinin yorumlanabilirliklerini arttırmak amacıyla, GloVe kelime temsil algoritmalasının amaç fonksiyonuna yeni bir terim eklenmiştir. Eklenen terim, önceden tanımlanan konular ile anlamsal olarak ilişkili olan kelimelerin vektörlerinin temsil uzayının belirli boyutlarında yüksek değerler almasını sağlamaktadır. Kavram gruplarını oluşturmak amacıyla Roget's Thesaurus kaynak olarak kullanılmıştır. Elde edilen kavram gruplarının içerisindeki kelimelerin vektörlerinin temsil uzayının belirli boyutlarında yüksek değerler almaları sağlanmıştır. Önerilen yöntemin kelime temsil uzayının yorumlanabilirliğini, uzayın anlamsal yapısına zarar vermeden, önemli derecede arttırdığı yapılan ayrıntılı değerlendirme ve ölçümler ile gösterilmiştir. Ayrıca önerilen yöntemin uygun kavram grupları ile beraber kullanıldığında denektaşı sınamalarında önemli performans artışı sağladığı ve kelime temsillerinde bulunan cinsiyet önyargısını düşürdüğü gösterilmiştir.

Özet (Çeviri)

As an ubiquitous method in natural language processing, word embeddings are extensively employed to map semantic properties of words into a dense vector representations. They have become increasingly popular due to their state-of-the-art performances in many natural language processing (NLP) tasks. Word embeddings are substantially successful in capturing semantic relations among words, so a meaningful semantic structure must be present in the respective vector spaces. However, in many cases, this semantic structure is broadly and heterogeneously distributed across the embedding dimensions. In other words, vectors corresponding to the words are only meaningful relative to each other. Neither the vector nor its dimensions have any absolute meaning, making interpretation of dimensions a big challenge. We propose a statistical method to uncover the underlying latent semantic structure in the dense word embeddings. To perform our analysis, we introduce a new dataset (SEMCAT) that contains more than 6,500 words semantically grouped under 110 categories. We further propose a method to quantify the interpretability of the word embeddings that is a practical alternative to the classical word intrusion test that requires human intervention. Moreover, in order to improve the interpretability of word embeddings while leaving the original semantic learning mechanism mostly unaffected, we introduce an additive modification to the objective function of the embedding learning algorithm, GloVe, that promotes the vectors of words that are semantically related to a predefined concept to take larger values along a specified dimension. We use Roget's Thesaurus to extract concept groups and align the words in these groups with embedding dimensions using modified objective function. By performing detailed evaluations, we show that proposed method improves interpretability drastically while preserving the semantic structure. We also demonstrate that imparting method with suitable concept groups can be used to significantly improve performance on benchmark tests and to measure and reduce gender bias present in the word embeddings.

Benzer Tezler

Tez No
871417
Hanehalkı yoksulluk düzeyinin makine öğrenmesi ve yapay sinir ağları ile tahmini: Türkiye örneği
Estimation of household poverty level via machine learning and artificial neural networks: The case of Türkiye
BEYZANUR ABACI
Yüksek Lisans
Türkçe
2024
Maliye Necmettin Erbakan Üniversitesi
Maliye Ana Bilim Dalı
PROF. DR. ALTUĞ MURAT KÖKTAŞ
Tez No
720670
Sosyal hizmet mesleğinde algılanan yetkinliğin ölçülmesi ve geliştirilmesi
Measuring and improving of perceived competence in social work profession
HABİBULLAH AKINCI
Doktora
Türkçe
2022
Sosyal Hizmet Yalova Üniversitesi
Sosyal Hizmet Ana Bilim Dalı
DR. ÖĞR. ÜYESİ RECEP ÇELİK
Tez No
794437
Measuring and improving mental rotation ability in three dimensions: A holistic investigation
Zihinsel döndürme becerisini üç boyutlu ortamda ölçmek ve geliştirmek: Bütünsel bir araştırma
ZEYNEP PİRİ
Doktora
İngilizce
2023
Eğitim ve Öğretim Orta Doğu Teknik Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. GÖKNUR KAPLAN
Tez No
132840
Hizmet kalitesini ölçme ve iyileştirmede yeni bir yaklaşım: Kritik olaylar teniği (KOT) ve Nevşehir'de faaliyet gösteren üç, dört ve beş yıldızlı otellerde bir uygulama
A New approach for measuring and improving service quality: Critical incidenst technique (CIT), and an investigation in three, four and five star hotels in Nevşehir
İBRAHİM YILMAZ
Yüksek Lisans
Türkçe
2003
İşletme Hacettepe Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. BAHTIŞEN KAVAK
Tez No
136910
Örgüt performansının ölçülmesi ve geliştirilmesinde kıyaslama yöntemi ve imalat şirketlerinde kıyaslama uygulamaları
Benchmarking on measuring and improving organizational performance and application of Benchmarking in the manufacturing industry
HATİCE SARIALTIN
Doktora
Türkçe
2003
İşletme Sakarya Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. RECAİ COŞKUN

Geri Dön