Learning word-vector quantization: A study in morphological disambiguation of turkish

Sözcük vektörü nicelleştirme öğrenmesi: TÜrkçe için biçimbirimsel belirsizlik giderme çalışması

PDF İndir

Tez No: 609281
Yazar: ENİS ARSLAN
Danışmanlar: DOÇ. DR. UMUT ORHAN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Üsküdar Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 128

Özet

NLP uygulamalarının başarısı, dillerin temel birimi olan kelimelerin doğru biçimbirimsel analizine bağlıdır. Kökler, kelime türü etiketleri ve biçimbirimsel özellikler, bir kelimenin temel birimleridir. Türkçe gibi biçimbirimsel olarak karmaşık olan diller zengin özelliklere sahiptir. Türkçe'nin türetimsel olarak üretken yapısı gözönüne alındığında, bir kök kelimeden binlerce kelime üretilebilmekte ve bu durum seyrekleşmeye yol açmaktadır. Biçimbirimsel analizörler, bir kök kelimenin biçimbirim analizini yapan araçlardır. Biçimbirimsel analizörler, tek bir kelime için birden fazla ayrıştırma üretebilir ve bu durum ise belirsizliği göstermektedir. Belirsizlik giderme işlemi, Türkçe gibi morfolojik olarak karmaşık diller için oldukça zor bir işlemdir. Bu problemin giderilmesi için sunulan çalışmalarda yüksek doğruluk değerleri elde edilmiş olmasına rağmen, daha gidilecek yol vardır. Seyreklik ve yüksek miktarda denetimli verinin bulunmuyor olması, daha uzun çalışma sürelerine ve daha düşük doğruluk değerlerine sebep olabilmektedir. Son zamanlarda biçimbirimsel belirsizliklerin giderilmesi çalışmaları genellikle sinir öğrenme modelleri ile yapılmaktadır. Bildiğimiz kadarıyla, Türkçe için, kelimelerin vektör uzayında eğitilerek konumlandırılmasıyla biçimbirimsel belirsizliği gideren bir yöntem henüz önerilmemiştir. Bu eksiklikten hareketle, bu tezde, belirsiz kelimenin doğru adaylarını belirsiz olmayan komşuların yanına yerleştirerek biçimbirimsel belirsizliği çözen bir vektör uzay modeli geliştirilmiş ve uygulanmıştır. Sözcük vektörü nicelleştirme öğrenmesi (LWQ) adlı model, iyi bilinen bir öğrenme algoritması olan vektörel nicelleştirme öğrenmesi (LVQ)'nin bir türevidir. LWQ, literatürde sunulan diğer algoritmalara göre daha iyi başarı oranları elde etmektedir.

Özet (Çeviri)

Nowadays, most of the NLP applications are dependent on the accurate morphological analysis of the basic language units: words. Root words, part-of-speech (POS) tags and morphological features are the basic units of a word. Morphologically complex languages like Turkish have rich feature sets. When combined with productive inflectional and derivational morphology, thousands of words can be produced from a root word and this leads to sparsity. Morphological analyzers are the tools that perform the morphological analysis of a word. They can produce multiple parses for a single word where this indicates ambiguity. Disambiguation is the removal process of ambiguity where it is a much complicated task for morphologically complex languages like Turkish. Although high accuracy values are obtained for the studies performed on this task, there is still a challenge. Sparsity and insufficiency of high volume supervised data is the cause of longer running times and accuracy loss. Recent studies for morphological disambiguation are generally presented on neural learning models. To our best knowledge, a disambiguation method which takes the advantage of training of words in a vector-space has not been proposed. Motivated by this shortcoming, in this thesis, we have developed and implemented a vector-space model that solves morphological ambiguity by locating the correct candidates of ambiguous words near to the unambiguous neighbors. The model, named learning word-vector quantization (LWQ), is an adaptation of a well-known learning algorithm, learning vector quantization (LVQ). LWQ outperforms the algorithms presented in the literature for the morphological disambiguation of Turkish.

Benzer Tezler

Tez No
335532
Türkçe dokümanlar için yazar tanıma
Author recognition for Turkish documents
ÖZCAN KOLYİĞİT
Yüksek Lisans
Türkçe
2013
Matematik Adnan Menderes Üniversitesi
Matematik Ana Bilim Dalı
YRD. DOÇ. DR. RIFAT AŞLIYAN
Tez No
539573
Spam detection by using word-vector learning algorithm in online social networks
Çevrimiçi sosyal ağlarda kelime-vektör öğrenme algoritması kullanarak spam belirleme
ASO KHALEEL AMEEN SALIHI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BUKET KAYA
Tez No
539284
Learning word representations with deep neural networks for Turkish
Türkçe için derin sinir ağları ile sözcük gösteriminin öğrenilmesi
ENES BURAK DÜNDAR
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET İBRAHİM ETHEM ALPAYDIN
Tez No
885338
Metin ön işleme fazının makine öğrenmesinde sınıflandırmaya etkileri
Effects of text preprocessing phase on classification in machine learning
ESME GÜL TOPRAK
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Haliç Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜLVİYE HACIZADE
Tez No
819727
Türkiye Büyük Millet Meclisi Genel Kurul tutanaklarının yapay zeka tabanlı metin analizi
Artificial intelligence based text analysis of grand national assembly of Türkiye Plenary Session Minutes
MESUT KÖRPE
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN POLAT

Geri Dön