Geri Dön

Kırgız dili için doğal dil işleme yapı bileşenlerinin geliştirilmesi

Development of natural language processing principal constituents for Kyrgyz language

  1. Tez No: 917493
  2. Yazar: İBRAHİM BENLİ
  3. Danışmanlar: DOÇ. DR. BAKIT ŞARŞEMBAYEV
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Kırgızistan-Türkiye Manas Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 152

Özet

Doğal Dil İşleme (NLP), dillerin morfolojik, sözdizimsel ve anlamsal yapılarının matematiksel modellerle işlenmesine olanak sağlayan disiplinler arası bir alandır. Bu alandaki çalışmalar, dillerin anlaşılması, dil modellerinin oluşturulması ve makine öğrenimi süreçlerinde kullanımı için vazgeçilmez kaynaklar sunmaktadır. Ancak, NLP araştırmaları genellikle yüksek kaynaklara sahip, yaygın olarak konuşulan dillere odaklanmakta, bu nedenle Kırgızca gibi düşük kaynaklı diller için yeterli veri bulunmamaktadır. NLP teknikleri, dilin yapısal ve anlamsal özelliklerinin bilgisayarlar tarafından işlenebilir bir biçimde temsil edilmesi ihtiyacına dayanır. Kelime temsili modelleri, metinlerdeki kelimeleri vektörlerle ifade ederek anlamsal ilişkileri analiz etmeyi amaçlar. Son yıllarda geliştirilen Word2Vec, GloVe, FastText, ELMo, BERT ve OntoLex gibi modeller, NLP uygulamalarında büyük başarı elde etmiş ve anlam ilişkilerini analiz etmede etkin yaklaşımlar olarak öne çıkmıştır. Kırgızca, eklemeli (agglutinative) yapısıyla Türk dilleri arasında kendine has morfolojik ve sözdizimsel özelliklere sahiptir. Kırgızca üzerine yapılacak NLP çalışmaları, dilin özgün yapısını ve anlam derinliğini daha doğru bir şekilde ortaya koyarak, Türk dilleri arasındaki konumunu anlamlandırmaya katkıda bulunacaktır. Universal Dependencies (UD), dilbilimsel yapıların dil bağımsız bir çerçevede tanımlanmasını amaçlayan, çok dilli NLP projelerine yönelik bir etiketleme standardı sunar. UD'nin ana hedefi, farklı dillerin sözdizimsel ve morfolojik özelliklerini ortak bir şemada tanımlayarak, bu diller arasında karşılaştırılabilir yapılar oluşturmaktır. Bu standart, çok dilli NLP uygulamalarını desteklerken diller arası transfer öğrenme, çok dilli model geliştirme ve veri paylaşımı gibi alanlarda önemli katkılar sağlar. Bu çalışma, Kırgız dilinin dilbilimsel yapısını evrensel standartlar çerçevesinde analiz etmek amacıyla UD Kyrgyz KTMU adlı bir ağaç bankasının oluşturulmasını hedeflemektedir. UD topluluğu, dillerin bağımlılık yapılarının ortak bir şemada analiz edilmesi amacıyla küresel bir projeyi yönetmektedir. UD projeleri, dilin yapısal özelliklerini dil bağımsız bir şekilde ifade etmek ve bu özelliklerin diller arası karşılaştırılabilirliğini sağlamak için geliştirilmiş bir etiketleme standardı sunar. Kırgız dili için geliştirilen UD Kyrgyz KTMU ağaç bankası, bu dilin bağımlılık yapılarının ve morfolojik özelliklerinin evrensel bağımlılık kuralları çerçevesinde sistematik olarak analiz edilmesini sağlayacaktır. UD'nin sunduğu temel yapılar çerçevesinde, her dildeki cümleler“kök”(root) olarak tanımlanan ana bir bileşenden başlayarak bağımlı ve bağımsız dil öğeleriyle analiz edilir; her kelime, bir diğerine bağlı olarak hiyerarşik bir yapı oluşturur ve bu yapının merkezinde kök kelime yer alır. UD Kyrgyz KTMU ağaç bankası geliştirilirken, veri kaynağı olarak çoğunlukla Kırgızca içerik sunan internet haber sitelerinden faydalanılmıştır. Ağaç bankası toplamda 20.000 kelime içerip, 10.000 kelime eğitim verisi, 10.000 kelime ise test verisi olarak ayrılmıştır. Bu veri ayrımı, Kırgızca için geliştirilecek dil modellerinin doğruluğunu ve genel performansını artırma amacına yöneliktir. Etiketleme sürecinde 17 UPOS, XPOS etiketinden 13 tanesi ve 26 bağımlılık ayrıştırma rolü kullanılmıştır. UD Kyrgyz KTMU modelinin %80.46 UAS ve %69.79 LAS değerleri, dünya genelinde birçok modelle rekabet edebilecek seviyede olduğunu göstermektedir. Özellikle İngilizce, Türkçe, Rusça ve Çekçe gibi daha yüksek Labeled Attachment Score (LAS) değerleri elde eden modellerle kıyaslandığında, düşük kaynaklı bir dil olan Kırgızca için bu başarı, modelin NLP araştırmalarında yararlı bir kaynak olabileceğini göstermektedir.

Özet (Çeviri)

Natural Language Processing (NLP) is an interdisciplinary field that facilitates the processing of languages' morphological, syntactic, and semantic structures through mathematical models. Research in this field provides essential resources for understanding languages, developing language models, and implementing them in machine learning processes. However, NLP studies predominantly focus on high-resource languages with large speaker populations, resulting in limited linguistic resources for low-resource languages, such as Kyrgyz. NLP techniques rely on the necessity to represent the structural and semantic features of languages in a computer-processable form. Word representation models aim to capture semantic relationships by expressing words in texts as vectors. Recent models like Word2Vec, GloVe, FastText, ELMo, BERT, and OntoLex have achieved significant success in NLP applications and stand out as effective approaches for semantic analysis. The Kyrgyz language, with its agglutinative structure, exhibits unique morphological and syntactic characteristics within the Turkic language family. NLP research on Kyrgyz holds the potential to more accurately reveal the language's unique structure and semantic depth, contributing to a better understanding of its position within the Turkic languages. Universal Dependencies (UD) provides a labeling standard that aims to define linguistic structures in a language-independent framework, making it suitable for multilingual NLP projects. UD's main objective is to establish comparable structures across different languages by defining syntactic and morphological properties within a unified schema. This standard supports multilingual NLP applications, contributing significantly to areas such as cross-lingual transfer learning, multilingual model development, and data sharing. This study aims to develop a treebank for Kyrgyz, named UD Kyrgyz KTMU, to analyze the linguistic structures of the language according to universal standards. The UD community oversees a global project aimed at analyzing dependency structures of languages within a common framework. UD projects provide an annotation standard designed to represent the structural features of languages independently and ensure their comparability across languages. The UD Kyrgyz KTMU treebank will facilitate the systematic analysis of Kyrgyz's dependency structures and morphological properties within the framework of universal dependency rules. Among the fundamental structures provided by UD, each sentence is analyzed with dependent and independent linguistic elements beginning from a main component defined as the“root.”In this hierarchical structure, each word depends on another, with the root word placed at the center. In developing the UD Kyrgyz KTMU treebank, data were primarily sourced from Kyrgyz-language internet news sites. The treebank consists of a total of 20,000 words, with 10,000 words allocated as training data and 10,000 as test data, aiming to improve the accuracy and overall performance of language models developed for Kyrgyz. During the annotation process, 13 out of 17 UPOS and XPOS tags and 26 dependency parsing roles were used. The UD Kyrgyz KTMU model's Unlabeled Attachment Score (UAS) of 80.46% and Labeled Attachment Score (LAS) of 69.79% demonstrate its competitive performance alongside numerous models globally. Compared with models that achieve higher LAS scores in languages such as English, Turkish, Russian, and Czech, this success for Kyrgyz—a low-resource language—suggests that the model could serve as a valuable resource in NLP research.

Benzer Tezler

  1. Parts-of-speech tagging of adverbs in the kyrgyz corpus

    Kırgızca derlemdeki zarfların sözcük türü olarak işaretlenmesi

    AİZHAN SATYBEKOVA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Mütercim-TercümanlıkKırgızistan-Türkiye Manas Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    DOÇ. DR. AİDA KASİEVA

  2. Текстти Автоматтык Түрдө Иштетүүдө Лемматизация Маселелери

    Otomatik metin işlemede kök çözümleme problemleri

    AYKERİM MUKANBETOVA

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırgızistan-Türkiye Manas Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BAKIT ŞARŞEMBAEV

  3. Farklı dille öğretimin temel eğitim düzleminde eğitsel doğurgularına ilişkin öğretmen ve veli görüşlerinin değerlendirilmesi Kırgızistan ve Rusça örneği

    Evaluating the educational results of teaching with different language on basic education with the connection of teachers and parents' points. the example of Kyrgyzstan and Russian language

    HASAN KARACAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    DilbilimDicle Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF.DR. HASAN AKGÜNDÜZ

  4. 'манас' эпосундагы тарыхый түрк тилдерине таандык тилдик каражаттар

    Manas Destanında tarihî Türk lehçelerine аit dil unsurları

    AYCAMAL ASKARBEK KIZI

    Yüksek Lisans

    Kırgızca

    Kırgızca

    2018

    Türk Dili ve EdebiyatıKırgızistan-Türkiye Manas Üniversitesi

    Türkoloji Ana Bilim Dalı

    YRD. DOÇ. DR. NURDİN USEEV