Intrinsic and extrinsic evaluation of word embedding models
Kelime gömevlerinin içsel ve dışsal değerlendirmesi
- Tez No: 599031
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 83
Özet
Bir kelimeyi matematiksel olarak temsil etmek doğal dil işleme uygulamarında önemli bir konudur. Bengio ve arkadaşlarının 2003'te basit sinir ağları kullanarak kelime vektör temsilleri elde etmelerinin ardından, kelimeleri sürekli vektör uzayında temsil etmek daha popüler hale gelmiştir. Mikolov ve arkadaşları 2013'te, word2vec adında yeni bir yöntem öne sürerek, kelime gömevlerinin sözdizimsel ve anlamsal benzerlikleri yakalayabildiğini gösterdi. O zamandan beri İngilizce için birçok yöntem geliştirildi ve uygulamalar yapıldı. Ancak, Türkçe'de kelime temsilleri üzerine yapılan sadece birkaç çalışma vardır. Bu çalışmada kelime gömevi yöntemlerinin hem Türkçe hem de İngilizce'de nasıl çalıştığını analiz etmeyi amaçladık. Word2vec kelime gömevi modeline odaklandık ve kelime temsillerinin kalitesini artırmak için bu modeli geliştirmeye çalıştık. Ek olarak, farklı pencere ve vektör boyutlarına sahip birçok model eğittik. Farklı konfigürasyonların kelime temsillerinin kalitesi üzerindeki etkisini hem içsel hem de dışsal olarak analiz ettik. İçsel değerlendirme için kelime benzeşim görevlerini ve dışsal değerlendirme için ise kelime benzerlik görevlerini kullandık. Sonuç olarak, önerilen modellerimizin Türkçe için, çoğu benzeşim kategorisinde, orijinal word2vec modeline göre daha iyi performans sergilediği gözlemlendi. Ayrıca, pencere ve vektör boyutlarının arttırılmasının, farklı benzeşim kategorilerinde farklı sonuçlar verdiğini gözlemledik. Pencere ve vektör boyutundaki artışın her zaman olumlu sonuçlanmadığını gördük. Bazı kelime benzeşim ve kelime benzerliği görevleri için pencere ve vektör boyutu arttıkça sonuçların kötüleştiğini gözlemledik.
Özet (Çeviri)
In natural language processing tasks, representing a word is an important issue. After Bengio et al. introduced a simple neural network language model that learns word vector representations in 2003, representing words in continuous vector space has become more popular. Mikolov et al. introduced a method named word2vec and showed that word embedding could capture meaningful syntactic and semantic similarities in 2013. Many methods and implementations have been proposed for English since then. However, there are only a few studies on word representations in Turkish. In this study, we aimed to understand and analyze how word embedding models work on both Turkish and English. We focused on the word2vec word embedding model and tried to modify it to improve the quality of word representations. Additionally, we trained many models with different window sizes and dimensions. The impact of different configurations on the quality of word representations was analyzed both intrinsically and extrinsically. We reported the accuracy on word analogy tasks for intrinsic evaluation and word similarity tasks for extrinsic evaluation. Our results show that our proposed models perform better on most of the word analogy task categories for Turkish. We also showed that increasing window sizes and dimensions does not always affect the accuracy in a positive direction. For some analogy and word similarity tasks, it affects negatively.
Benzer Tezler
- Anormal uterin kanama nedeni ile mirena uygulanan hastalarda uterin arter, radial arter ve spiral arter doppler parametrelerin incelenmesi
The doppler evaluation of uterin, radial and spiral artery in the patients treated due to abnormal uterine bleeding by mirena spiral device
HANİFİ ŞAHİN
Tıpta Uzmanlık
Türkçe
2014
Kadın Hastalıkları ve DoğumMustafa Kemal ÜniversitesiKadın Hastalıkları ve Doğum Ana Bilim Dalı
YRD. DOÇ. DR. ARİF GÜNGÖREN
- Herzberg'in çift faktör kuramı açısından ilköğretim I. kademe öğretmenlerinin motivasyon düzeylerinin değerlendirilmesi
An evaluation of the motivation levels of primary school teachers in terms Herzberg?s two-factor theory
BORA YILDIZ
Yüksek Lisans
Türkçe
2010
Eğitim ve ÖğretimBeykent Üniversitesiİşletme Yönetimi Ana Bilim Dalı
YRD. DOÇ. DR. FERDA ŞULE KAYA
- Akne rozaseada hastalık şiddeti ile CRP/albümin oranı ve diğer inflamatuar kan parametreleri arasındaki ilişkinin değerlendirilmesi
Evaluation of the relationship between disease severity and CRP/albumin ratio and other inflammatory blood parameters in acne rosacea
AHMET ONUR SOĞUKSU
Tıpta Uzmanlık
Türkçe
2023
DermatolojiAtatürk ÜniversitesiDeri ve Zührevi Hast. Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDAL PALA
- 5 yaş çocuklarının sosyal becerilerinin bazı değişkenler açısından değerlendirilmesi
Multi-variable evaluation of 5 year olds? social skills
SEMA ELİBOL GÜLTEKİN
Yüksek Lisans
Türkçe
2008
Eğitim ve ÖğretimAnkara Üniversitesiİlköğretim Ana Bilim Dalı
PROF. DR. ÇAĞLAYAN DİNÇER
- An experimental evaluation of relative reconstruction algorithms
Göreli rekonstrüksiyon algoritmalarının deneysel değerlendirmesi
YAKUP GENÇ
Yüksek Lisans
İngilizce
1995
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of Illinois at Urbana-ChampaignBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. JEAN PONCE