Evaluating the performance of different continous vector representation methods for turkish words
Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi
- Tez No: 618417
- Danışmanlar: DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 59
Özet
Metinlerin çeşitli hesaplamalarda kullanılma ihtiyacı daha etkili metin temsili yöntemlerine duyulan ihtiyacı ve bu sebeple alandaki popülerliğini artırmıştır. İlk kullanımlarından bugüne kadar çeşitli yöntemlerle yapılan metin temsilleri son zamanlarda da Doğal Dil İşleme çalışmalarında ana odak noktalarından biri olmuştur. İlk olarak One-Hot sözcük temsilleriyle başlayan metin temsili yöntemleri bugünlerde bağlamdan bağımsız ve bağlamsal sözcük vektörleriyle gözde bir konu olmaya devam etmektedir. İlk metin temsili yöntemlerinden olan One-Hot sözcük temsilleri, metindeki tüm kelimlerden oluşan bir sözlük yapısına dayanır. Her bir sözcüğün temsili sözlük boyutunda bir vektörle ifade edilir. Bu vektörde sözcüğün sözlükteki pozisyonunda 1 değeri varken diğer tüm değerler 0'dır. Bu şekilde bir metin herhangi bir hesaplamaya tabi tutulacağı zaman içerisindeki tüm sözcükler One-Hot vektörlerle ifade edilir. Bu metotun sorunlarından biri devasa alan kullanımıydı. Her sözcük için sözlük boyutunda vektör kullanmak metin temsillerinin boyutlarını yükseltiyordu. Bir diğer sorun ise vektörlerin kendi içerisinde veya birbirlerinin arasında herhangi bir anlam ilişkisi bulundurmamasıydı. Daha sonra One-Hot sözcük temsiline alternatif olarak bu tezin de çalışma konusu olan sürekli sözcük temsili geliştirildi. Bu temsillerde sözcükler yine bir vektörle temsil edilmekle birlikte vektör içerisindeki değerler belirli bir aralıkta olan reel sayılardır. Vektörler ise herhangi bir boyutta olabilir. En yaygın sürekli vektörlerden biri olan word2vec modeli basit bir sinir ağı eğiterek sözcük vektörleri elde edebilir. Eğitim metninde kayan pencere kullanarak her bir sözcük grubunu tek gizli katmanlı bir sinir ağını eğitmek için kullanır. Sözcük grubunun ortasındaki sözcüğü hedef sözcük, diğer sözcükleri ise bağlam olarak kabul eder. Eğitim için sinir ağı modeline girdi olarak bağlam sözcüklerinin One-Hot vektörlerini verirken çıktı olarak hedef sözcüğün One-Hot vektörünü hedefler (veya tam tersi). Bu tür sürekli vektörler ucuz eğitim maaliyetine karşı anlam barındırma olarak yüksek sonuçlar verebiliyor. Belirli anlam ilişkileri ise sözcük vektörleri arasında korunabiliyor. Bu bakımdan One-Hot vektörlerin boyut ve anlamsızlık sorunlarına çözüm olarak kullanılabiliyorlar. Sürekli sözcük vektörlerine yönelik eleştirilerden biri bağlamdan bağımsız vektörler olmalarıdır. Her sözcüğe ait sadece bir vektör barındırması sözcüklerin farklı bağlamlarda farklı anlamlara gelebilme ihtimalini yok saymaktadır. Bu soruna çözüm olarak son yıllarda geliştirilen bağlamsal sözcük vektörleri her ne kadar bağlamdan bağımsız sözcük vektörlerinden daha iyi sonuçlar verse de eğitimleri son derece masraflıdır ve herkes tarafından ulaşılabilir değildir. Bu nedenle bu çalışmada herkes tarafından kolaylıkla eğitilebilen bağlamdan bağımsız sözcük vektörleri üzerinde çalışılmıştır. Bağlamdan bağımsız sözcük vektörlerinin bir başka sorunu ise sözcüklerin morfolojik yapılabilirini ihmal edip sabit bir parça olarak kabul etmesidir. Bu durum iki temel soruna neden olmaktadır. İlk sorun, her sözcük çekimi farklı sözcük kabul edildiğinden bu çekimlerin geçtiği bağlamlar sözcüğün eğitimine dahil edilmemesidir. İkinci sorun ise bazı sözcük çekimleri dilde az sayıda kullanıldığından yeteri kadar tekrar edilmemekte, bu nedenle doğru vektör değerlerinin bulunması için yeteri kadar eğitilememektedir. Doğal Dil İşleme'de popüler olarak kullanılan İngilizce ve diğer Avrpa kökenli diller için bu durum büyük bir sorun teşkil etmemektedir zira sözcük çekimlerinin sayısı ok az olduğundan her çekime metin içerisinde yeterli sayıda rastlanılmaktadır. Fakat Türkçe, Fince, Macarca gibi sözcüklerin morfolojik yapısı zengin sondan eklemeli dillerde bu durum vektör eğitimlerinde göz ardı edilemeyecek bir sorun haline gelmektedir. Bu çalışmada bu sorun üzerine gidilmekte ve bağlamdan bağımsız sözcük vektörleri oluştururken Türkçe'nin zengin morfolojik yapısını kullanarak temsillerin nasıl zenginleştirilebileceği araştırılmıştır. Bunun için son zamanlarda en iyi başarım sıçramasını elde eden word2vec modeli üzerinden 5 farklı model oluşturulmuş ve bu modeller fastText modeliyle birlikte farklı testler üzerinden karşılaştırılmıştır. Çalışmada kullanılan 1. model (yüzey modeli) word2vec modelinin sözcüklerin yüzey formlarının üzerinde eğitilmesiyle, 2. model (gövde modeli) ise gövde formları üzerinde eğitilmesiyle elde edilmiştir. 3. model (ayrık model) sözcükler gövde ve ekler olarak ikiye bölünerek eğitilmiştir. 4. model (türetilmiş model) için her ek grubu için yüzey vektörleri kullanılarak bir vektör türetilmiştir. Bunun için her bir ek grubu için, bu ek grubunun bulunduğu tüm sözcükler tespit edilmiş, her biri için gövde vektörü yüzey vektöründen çıkarılmıştır. Söz konusu ek grubunun vektörü, bu farkların ortalaması alınarak bulunmuştur. Bu model kullanılırken, karşılaşılan her sözcük gövde ve eklerine ayrılır, gövde modelinden gövde vektörü, türetilmiş modelde ek grubu vektörü elde edilir ve bu iki vektör toplanır. 5. model (SP modeli) SentencePiece parçalayıcısı kullanır. Metin eğitilmeden önce SentencePiece parçalayıcısıyla işlenir ve eğitim işlenmiş metin üzerinde yapılır ve parça başına vektör türetilir. Kullanım esnasında her sözcük bu parçalayıcısıyla parçalarına bölünür, parçalarının vektörleri toplanır ve sözcük vektörü olarak kullanılır. 6. model olarak fastText modeli kullanılmıştır. Modellerin 4 farklı testte başarımları ölçülmüştür: sözcük paralelliği, metin sınıflandırması, duygu analizi ve dil modellemesi. Sözcük paralelliği testinde word2vec modelinin sağladığı sözcükler arasındaki anlamsal ilişkiyi koruma özelliği kullanılmış ve bu özelliğin ne kadar iyi saklandığı test edilmiştir. Her birimde 2 adet benzer sözcük çiftinin bulunduğu (ör. Fransa/Paris, Almanya/Berlin) bu testte ilk çiftteki anlam ilişkisi bu sözcüklerin vektörleri çıkartılarak bulunur. Daha sonra bu fark vektörü ikinci çiftteki ilk sözcükten çıkartılarak son sözcüğün vektörü hedeflenir. Hesaplanan bu vektör sözlükteki tüm sözcük vektörleriyle karşılaştırılır ve son sözcüğün vektörünün bu vektöre en yakın sözcükler arasında bulunması beklenmektedir. Sözcük paralelliğinde üç çeşit test seti kullanılmıştır. Birinci sette sözcük çiftleri sözdizimsel özelliklerine göre seçilmiştir (ör. Ev/Evler, Araba/Arabalar). İkinci setteki çiftler anlamsal paralellik göstermektedir (ör. Erkek/Baba, Kadın/Anne). Üçüncü sette ise ilk iki setten farklı olarak altı sözcüklü bir grup içinde diğerlerinden farklı olan sözcüğün tespiti hedeflenmiştir (ör. Türkiye, Rusya, Kanada, Paris, İspanya, Japonya). Metin sınıflandırmasında modeller belirli kategorilerdeki haberlerin sınıflandırılmasında kullanılmıştır. Haber metinlerinin ilk belirli sayıdaki sözcüklerin vektörleri LSTM yapısına sokularak kategori sınıflandırması yapılmıştır. Duygu analizinde kitap yorumları kullanılmış ve olumlu, olumsuz veya nötr olarak etiketlenmesi test edilmiştir. Yine yorumların ilk belirli sayıdaki sözcüklerin vektörleri LSTM yapısına sokularak etiketleme yapılmıştır. Dil modellemesinde önceden hazırlanan cümleler kullanılmış ve belirli sözcük dizisinden sonra hangi sözcüğün gelmesinin daha olası olduğu test edilmiştir. Bunun için bir RNN yapısı kullanılmış ve belirli sözcük vektörü dizisi girdi olarak verilirken çıktı olarak dizinin sonuna gelmesi gereken sözcük hedeflenmiştir. Hedef sözcük için verilen olasılık değerleri kullanılarak çapraşıklık değeri ölçülmüştür ve bu değerler karşılaştırılmıştır. Sözcük paralelliği testlerinde farklı setlerde farklı modeller en iyi sonucu vermiştir. Sözdizimsel testlerde en iyi sonucu fastText modeli vermiştir. Ayrık model ve türetilmiş model ilk tahminde doğru sözcüğü bulma konusunda temel alınan yüzey modelinden daha iyi sonuçlar verseler de fastText modelini bu konuda geçememişlerdir. Anlamsal testlerde yüzey modelleri en iyi sonuçları vermiş, sözcükleri parçalama üzerine dayalı diğer modeller anlamsal özelliği tutmada başarısız olmuştur. Grup testlerinde ise en iyi sonucu yine fastText modeli vermiştir. Metin sınıflandırmada SentencePiece kullanan SP modeli ve fastText modeli en iyi sonuçları vermiştir. Yüzey modeli ise az bir farkla daha kötü sonuçlar üretmiştir. Duygu analizinde ise SP modeli ve yüzey modeli en iyi sonuçları verirken fastText modeli fastText modeli küçük bir farkla geride kalmıştır. Dil modellemede ise en küçük çarpıklık değerlerini türetilmiş model ve SP modeli çıkarmıştır. Sonuçlara bakıldığında özelikle günlük hayatta kullanılan harici görevlerde SP modeli istikrarlı bir şekilde en iyi sonuçları üretmiştir. Yapısı gereği çok küçük bir sözlük barındırdığı da göz önüne alındığında en başarılı model olarak göze çarpmaktadır.
Özet (Çeviri)
Text representations are essential to use texts in computations for different NLP tasks and come up in many different representation methods. One earlier popular solution was one-hot representation: vectors with size of the vocabulary that only vocabulary index of the corresponding word is set as 1 while all other elements are 0. However, bloated size of vectors and not being able to preserve any relational meaning between vectors led researchers to develop another solution: continuous word embeddings. Continuous word embeddings are vectors with variable length and contain real numbers instead of zeros and ones. It is possible with continuous word vectors to contain meaningful relations between vectors. Obtaining these vectors is generally done by training by different kinds of models. One problem with these models are that they treat each token as a different word, disregarding they might be the same word with different word forms. Each word form is treated as a different word and has a different vector. This can be questioned as dividing the meaning of a word into different forms. Another issue is that with the increased number of word forms, occurrences for each token decrease in parallel. This is not a big problem for English or other European languages since they have relatively limited vocabulary size. However, for agglutinative languages like Turkish, Finnish and Hungarian, more than a thousand word forms can be generated from just a single lemma. Due to very productive inflectional and derivational morphology, the size of the corpus should be infeasibly large to cover all word forms. Even in a large corpus, this morphological productivity leads large number of out-of-vocabulary words. In this study, we have trained context-free word embeddings on different morphological forms of words. We have trained 6 embedding models; 5 word2vec models and 1 fastText model. The first model is trained on surface forms and the second model is trained on lemma forms. The third model is trained on a text where words are splitted into their lemmas and suffixes. For the fourth model, a suffix vector is derived for each suffix by using vectors from the surface vectors and they are added to lemma vectors to derive a word vector. The fifth model is trained on the text splitted into tokens by using SentencePiece. The sixth model is trained by fastText model. After training, we compared these methods on tasks of word analogy, text classification, sentimental analysis and language modeling. In word analogy task, vectors are tested to keep the meaning relations between the same kind of word pairs. In text classification task, 600 news from each of 13 categories are categorized by using vectors. In sentimental analysis 2100 book reviews are grouped as positive, negative or neutral by using vectors. In language modeling task, Perplexities for 1000 sentences are calculated by vectors. In results, we observed that even though the forth model achieves the top result for a specific condition, in general surface vectors and fastText vectors produce the best results in analogy task. However in extrinsic tasks, which are text classification, sentimental analysis and language modeling, SentencePiece vectors shows results similar to or better than surface and fastText vectors. Considering vocabulary size is much smaller than other embeddings, SentencePiece embedding is concluded to be the most desirable model for extrinsic tasks.
Benzer Tezler
- Mimari tasarımda yapay zekâ yaklaşımı: Makine öğrenmesi ile mekân işlevlerinin tanınması ve üretken çekişmeli ağlarla mimari plan üretimi
Artificial intelligence approach in architectural design: Recognition of space functions with machine learning and architectural plan generation with generative adversarial networks
BERFİN YILDIZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. GÜLEN ÇAĞDAŞ
DR. ÖĞR. ÜYESİ İBRAHİM ZİNCİR
- Gemi dalga direncinin kaynak-panel yöntemiyle sayısal hesabı
Calculation of ship wave resistance by the source panel method
ŞAKİR BAL
- Giydirme cephe çift cam ünitelerinde rasyonel boyut seçimi
Selection of rational sizes for double glazing units in curtaion walls
NECMETTİN MURAT AYGÜN
- Tek sahneli sıkıştırılmış videoda anomali tespiti
Anomaly detection in single scene compressed video
SÜMEYYE ÇAVAŞ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN