Geri Dön

Morphlaz: A finite-state morphological analyzer for laz

Morphlaz: Laz için sonlu durum biçimbilimsel çözümleyici

  1. Tez No: 698468
  2. Yazar: ESRA ÖNAL
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, PROF. DR. BALKIZ BAŞARAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

This thesis is a part of documentation and revitalization efforts of the endangered Laz language, a member of South Caucasian language family mainly spoken on the northeastern coastline of Turkey. It introduces the implementation of the first automatic language analysis tool for Laz, specifically for Pazar dialect designed as a rule-based morphological analyzer developed with two-level morphology using finite-state networks. Additional language resources such as lexicon and corpus were collected for the purposes of increasing the coverage power and evaluating the performance of the analyzer. Morphologically rich languages create many challenges for natural language processing (NLP) tasks. In order to develop high or low-level NLP systems such as lemmatization, part-of-speech-tagging, spelling correction and machine translation, in any NLP pipeline, the first aim is usually to do some sort of morphological analysis on text or speech. Among different approaches to the computational study of morphology, for this study, due to the low amount of language and computational resources, I chose a rule-based approach that is highly accepted and used for formalizing morphotactics and morphophonemics, namely two-level morphology and finite-state transducers. The evaluation is based on naïve coverage of the analyzer over text data and error analysis. The results show 78.2% of coverage over the unique tokens in Pazar Laz corpus (PLC), 92.1% of coverage over Laz Treebank and 74.3% on Fındıklı Laz corpus (FLC). Error analysis on PLC results indicates that most of the word forms that could not be analyzed are due to missing word stems.

Özet (Çeviri)

Bu tez, ağırlıklı olarak Türkiye'nin kuzeydoğu kıyı şeridinde konuşulan ve Güney Kafkas dil ailesi üyesi nesli tükenmekte bir dil olan Lazca'nın, hesaplamalı dilbilim perspektifinden belgelenmesi ve yeniden canlandırılması çalışmalarının bir parçasıdır. Sonlu durum teknolojisi ve iki seviyeli morfoloji kullanılarak Lazca'nın Pazar lehçesi üzerine geliştirilen, kural tabanlı bir morfolojik çözümleyici olarak tasarlanan ilk otomatik dil analiz aracının uygulamasını sunar. Sırasıyla kapsam gücünü artırmak ve çözümleyicinin performansını değerlendirmek amacıyla sözlük ve derlem gibi ek dil kaynakları toplanmıştır. Herhangi bir ardışık işleme yapan NLP boru hattında kök çözümleme, sözcük türü etiketleme, yazım hataları düzeltme ve makine çevirisi gibi yüksek veya düşük seviyeli NLP sistemleri geliştirmek için, ilk amaç genellikle metin veya konuşma üzerinde bir tür biçimbilim analizi yapmaktır. Biçimbilim hesaplamalı çalışmasına yönelik farklı yaklaşımlar arasında, bu çalışma için, dil ve hesaplama kaynaklarının azlığı nedeniyle, biçim bilgisi ve biçimbilimsel ses bilgisini tanımlamak için yüksek oranda kabul gören kural tabanlı bir yaklaşımla iki düzeyli biçimbilimi ve sonlu durum dönüştürücüleri kullandım. Değerlendirme, metin verileri üzerinde çözümleyicinin naïve kapsamına ve hata analizine dayanmaktadır. Sonuçlar, çözümleyicinin Pazar derleminde bulunan özgün kelimelerin %78.2'sini, Laz Treebank'in %92.1'ini ve Fındıklı lehçesi derleminin (FLC) %74.3'ü üzerinde kapsamı olduğunu göstermektedir. PLC sonuçlarındaki hata analizi, analiz edilmeyen kelime biçimlerinin çoğunun eksik kelime köklerinden kaynaklandığını göstermektedir.

Benzer Tezler