Geri Dön

A comprehensive analysis of subword tokenizers for morphologically rich languages

Morfolojisi zengin diller için kelime bölümleme algoritmalarının kapsamlı bir analizi

  1. Tez No: 761338
  2. Yazar: ERENCAN ERKAYA
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Dönüştürücü dil modelleri, çok çeşitli doğal dil işleme görevlerinde olağanüstü başarıların yolunu açmıştır. Dönüştürücü dil modellerinde ilk adım, girdiyi jetonlara bölmektir. Yıllar boyunca, çeşitli bölümleme yaklaşımları ortaya atılmıştır. Bu yaklaşımlar, karakter ve kelime seviyesindeki temsillerden alt kelime seviyesindeki temsillere doğru daha da gelişmiştir. Bununla birlikte, özellikle morfolojik olarak zengin diller için, kelime bölümleme algoritmalarının model performansı üzerindeki etkisi tam olarak tartışılmamıştır. Bu tezde, çekimli ve morfolojik açıdan oldukça zengin bir dil olan Türkçe için alt kelime bölümleme algoritmalarının kapsamlı bir şekilde analizi yapılmıştır. Bölümleme algoritmalarının Türkçenin morfolojisini ne kadar iyi kodladığını değerlendirmek için çeşitli metrikler tanımlanmıştır. Ayrıca, sözcük dağarcığı ve derlem boyutu gibi farklı belirteç parametrelerinin belirteçlerin özelliklerini nasıl değiştirdiği incelenmiştir. Ek olarak, sondan eklemeli ve morfolojik olarak zengin diller için yeni bir bölümleme algoritması önerilmiştir. Önerilen kelime bölümleme algoritmasının daha iyi genelleme performansı sağladığı gösterilmiştir. Doğal dil işleme deneyleri, kelime bölümlemede morfoloji denetiminin model performansını iyileştirdiğini göstermektedir.

Özet (Çeviri)

Transformer language models have paved the way for outstanding achievements on a wide variety of natural language processing tasks. The first step in transformer models is dividing the input into tokens. Over the years, various tokenization approaches have emerged. These approaches have further evolved from character and word-level representations to subword-level representations. However, the impact of tokenization on models performance has not been thoroughly discussed, especially for morphologically rich languages. In this thesis, we comprehensively analyze subword tokenizers for Turkish, which is a highly inflected and morphologically rich language. We define various metrics to evaluate how well tokenizers encode Turkish morphology. Also, we examine how the tokenizer parameters like vocabulary and corpus size change the characteristics of tokenizers. Additionally, we propose a new tokenizer for agglutinative and morphologically rich languages. We demonstrate that our tokenizer reduces overall perplexity and enables better generalization performance. Downstream task experiments show that morphology supervision in tokenization improves model performance.

Benzer Tezler

  1. Aspect-based sentiment analysis for turkish using deep learning model combinations

    Türkçe için derin öğrenme modelleri kullanarak özellik bazlı duygu analizi

    ALİ ERKAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma

    Dependency parsing with deep learning methods in Turkish

    MÜCAHİT ALTINTAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Kafeik asit fenetil esterin tiroit kanseri hücre hattında sitotoksisite, antimetastaz, antiproliferatif aktivite, apoptoz, oksidatif stres ve mitokondriyal membran potansiyeli üzerindeki etkileri

    Effects of caffeic acid phenethyl ester on cytotoxicity, antimetastasis, antiproliferative activity, apoptosis, oxidative stress, and mitochondrial membrane potential in thyroid cancer cell line

    HÜMEYRA BUCAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Moleküler TıpVan Yüzüncü Yıl Üniversitesi

    Tıbbi Biyoloji Ana Bilim Dalı

    PROF. DR. YASİN TÜLÜCE

  4. A comprehensive analysis of turkish sea level changes and future modeling using machine learning methods

    Türk deniz seviyesi değişikliklerinin kapsamlı analizi ve makine öğrenimi yöntemleriyle gelecek modellemesi

    ELİF KARTAL

    Doktora

    İngilizce

    İngilizce

    2025

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDÜSSELAM ALTUNKAYNAK

  5. Orta asya Türk Cumhuriyetleri ve Türkiye bankacılık sisteminin karşılaştırmalı analizi

    A comprehensive analysis of Central Asian Turkish republics with Turkish banking systems

    BEGENCHMYRAT DURDYYEV

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    BankacılıkMarmara Üniversitesi

    Bankacılık Ana Bilim Dalı

    YRD. DOÇ. HAYATİ ERİŞ