Geri Dön

A comprehensive analysis of subword tokenizers for morphologically rich languages

Morfolojisi zengin diller için kelime bölümleme algoritmalarının kapsamlı bir analizi

  1. Tez No: 761338
  2. Yazar: ERENCAN ERKAYA
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Dönüştürücü dil modelleri, çok çeşitli doğal dil işleme görevlerinde olağanüstü başarıların yolunu açmıştır. Dönüştürücü dil modellerinde ilk adım, girdiyi jetonlara bölmektir. Yıllar boyunca, çeşitli bölümleme yaklaşımları ortaya atılmıştır. Bu yaklaşımlar, karakter ve kelime seviyesindeki temsillerden alt kelime seviyesindeki temsillere doğru daha da gelişmiştir. Bununla birlikte, özellikle morfolojik olarak zengin diller için, kelime bölümleme algoritmalarının model performansı üzerindeki etkisi tam olarak tartışılmamıştır. Bu tezde, çekimli ve morfolojik açıdan oldukça zengin bir dil olan Türkçe için alt kelime bölümleme algoritmalarının kapsamlı bir şekilde analizi yapılmıştır. Bölümleme algoritmalarının Türkçenin morfolojisini ne kadar iyi kodladığını değerlendirmek için çeşitli metrikler tanımlanmıştır. Ayrıca, sözcük dağarcığı ve derlem boyutu gibi farklı belirteç parametrelerinin belirteçlerin özelliklerini nasıl değiştirdiği incelenmiştir. Ek olarak, sondan eklemeli ve morfolojik olarak zengin diller için yeni bir bölümleme algoritması önerilmiştir. Önerilen kelime bölümleme algoritmasının daha iyi genelleme performansı sağladığı gösterilmiştir. Doğal dil işleme deneyleri, kelime bölümlemede morfoloji denetiminin model performansını iyileştirdiğini göstermektedir.

Özet (Çeviri)

Transformer language models have paved the way for outstanding achievements on a wide variety of natural language processing tasks. The first step in transformer models is dividing the input into tokens. Over the years, various tokenization approaches have emerged. These approaches have further evolved from character and word-level representations to subword-level representations. However, the impact of tokenization on models performance has not been thoroughly discussed, especially for morphologically rich languages. In this thesis, we comprehensively analyze subword tokenizers for Turkish, which is a highly inflected and morphologically rich language. We define various metrics to evaluate how well tokenizers encode Turkish morphology. Also, we examine how the tokenizer parameters like vocabulary and corpus size change the characteristics of tokenizers. Additionally, we propose a new tokenizer for agglutinative and morphologically rich languages. We demonstrate that our tokenizer reduces overall perplexity and enables better generalization performance. Downstream task experiments show that morphology supervision in tokenization improves model performance.

Benzer Tezler

  1. Aspect-based sentiment analysis for turkish using deep learning model combinations

    Türkçe için derin öğrenme modelleri kullanarak özellik bazlı duygu analizi

    ALİ ERKAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Orta asya Türk Cumhuriyetleri ve Türkiye bankacılık sisteminin karşılaştırmalı analizi

    A comprehensive analysis of Central Asian Turkish republics with Turkish banking systems

    BEGENCHMYRAT DURDYYEV

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    BankacılıkMarmara Üniversitesi

    Bankacılık Ana Bilim Dalı

    YRD. DOÇ. HAYATİ ERİŞ

  4. Henri Dutilleux'nün 'Tout un Monde Lointain...' (Bütün Bir Uzak Dünya...) adlı müziğinin bestecilik teknikleri açısından incelenmesi

    Analysis of Henri Dutilleux?s ?Tout un Monde Lointain...? (A Whole Distant World...) in terms of compositional techniques

    YİĞİT KOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2009

    MüzikHacettepe Üniversitesi

    Kompozisyon, Koro ve Orkestra Şefliği Ana Sanat Dalı

    YRD. DOÇ. TURGAY ERDENER

  5. A comprehensive analysis of edible and non-edible biodiesel feedstocks

    Yenilebilir ve yenilebilir olmayan biyodizel hammaddelerinin kapsamlı bir analizi

    ABDELAZIZ EMADELDİN ABDELAZİZ MOHAMED

    Doktora

    İngilizce

    İngilizce

    2014

    EnerjiUniversiti Malaya UM

    Makine Ana Bilim Dalı

    PROF. DR. MASJUKİ BİN HAJİ HASSAN