Geri Dön

Learning word-vector quantization: A study in morphological disambiguation of turkish

Sözcük vektörü nicelleştirme öğrenmesi: TÜrkçe için biçimbirimsel belirsizlik giderme çalışması

  1. Tez No: 609281
  2. Yazar: ENİS ARSLAN
  3. Danışmanlar: DOÇ. DR. UMUT ORHAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Üsküdar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 128

Özet

NLP uygulamalarının başarısı, dillerin temel birimi olan kelimelerin doğru biçimbirimsel analizine bağlıdır. Kökler, kelime türü etiketleri ve biçimbirimsel özellikler, bir kelimenin temel birimleridir. Türkçe gibi biçimbirimsel olarak karmaşık olan diller zengin özelliklere sahiptir. Türkçe'nin türetimsel olarak üretken yapısı gözönüne alındığında, bir kök kelimeden binlerce kelime üretilebilmekte ve bu durum seyrekleşmeye yol açmaktadır. Biçimbirimsel analizörler, bir kök kelimenin biçimbirim analizini yapan araçlardır. Biçimbirimsel analizörler, tek bir kelime için birden fazla ayrıştırma üretebilir ve bu durum ise belirsizliği göstermektedir. Belirsizlik giderme işlemi, Türkçe gibi morfolojik olarak karmaşık diller için oldukça zor bir işlemdir. Bu problemin giderilmesi için sunulan çalışmalarda yüksek doğruluk değerleri elde edilmiş olmasına rağmen, daha gidilecek yol vardır. Seyreklik ve yüksek miktarda denetimli verinin bulunmuyor olması, daha uzun çalışma sürelerine ve daha düşük doğruluk değerlerine sebep olabilmektedir. Son zamanlarda biçimbirimsel belirsizliklerin giderilmesi çalışmaları genellikle sinir öğrenme modelleri ile yapılmaktadır. Bildiğimiz kadarıyla, Türkçe için, kelimelerin vektör uzayında eğitilerek konumlandırılmasıyla biçimbirimsel belirsizliği gideren bir yöntem henüz önerilmemiştir. Bu eksiklikten hareketle, bu tezde, belirsiz kelimenin doğru adaylarını belirsiz olmayan komşuların yanına yerleştirerek biçimbirimsel belirsizliği çözen bir vektör uzay modeli geliştirilmiş ve uygulanmıştır. Sözcük vektörü nicelleştirme öğrenmesi (LWQ) adlı model, iyi bilinen bir öğrenme algoritması olan vektörel nicelleştirme öğrenmesi (LVQ)'nin bir türevidir. LWQ, literatürde sunulan diğer algoritmalara göre daha iyi başarı oranları elde etmektedir.

Özet (Çeviri)

Nowadays, most of the NLP applications are dependent on the accurate morphological analysis of the basic language units: words. Root words, part-of-speech (POS) tags and morphological features are the basic units of a word. Morphologically complex languages like Turkish have rich feature sets. When combined with productive inflectional and derivational morphology, thousands of words can be produced from a root word and this leads to sparsity. Morphological analyzers are the tools that perform the morphological analysis of a word. They can produce multiple parses for a single word where this indicates ambiguity. Disambiguation is the removal process of ambiguity where it is a much complicated task for morphologically complex languages like Turkish. Although high accuracy values are obtained for the studies performed on this task, there is still a challenge. Sparsity and insufficiency of high volume supervised data is the cause of longer running times and accuracy loss. Recent studies for morphological disambiguation are generally presented on neural learning models. To our best knowledge, a disambiguation method which takes the advantage of training of words in a vector-space has not been proposed. Motivated by this shortcoming, in this thesis, we have developed and implemented a vector-space model that solves morphological ambiguity by locating the correct candidates of ambiguous words near to the unambiguous neighbors. The model, named learning word-vector quantization (LWQ), is an adaptation of a well-known learning algorithm, learning vector quantization (LVQ). LWQ outperforms the algorithms presented in the literature for the morphological disambiguation of Turkish.

Benzer Tezler

  1. Türkçe dokümanlar için yazar tanıma

    Author recognition for Turkish documents

    ÖZCAN KOLYİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    MatematikAdnan Menderes Üniversitesi

    Matematik Ana Bilim Dalı

    YRD. DOÇ. DR. RIFAT AŞLIYAN

  2. Spam detection by using word-vector learning algorithm in online social networks

    Çevrimiçi sosyal ağlarda kelime-vektör öğrenme algoritması kullanarak spam belirleme

    ASO KHALEEL AMEEN SALIHI

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BUKET KAYA

  3. Learning word representations with deep neural networks for Turkish

    Türkçe için derin sinir ağları ile sözcük gösteriminin öğrenilmesi

    ENES BURAK DÜNDAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET İBRAHİM ETHEM ALPAYDIN

  4. Metin ön işleme fazının makine öğrenmesinde sınıflandırmaya etkileri

    Effects of text preprocessing phase on classification in machine learning

    ESME GÜL TOPRAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHaliç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜLVİYE HACIZADE

  5. Türkiye Büyük Millet Meclisi Genel Kurul tutanaklarının yapay zeka tabanlı metin analizi

    Artificial intelligence based text analysis of grand national assembly of Türkiye Plenary Session Minutes

    MESUT KÖRPE

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HÜSEYİN POLAT