A comprehensive analysis of subword tokenizers for morphologically rich languages
Morfolojisi zengin diller için kelime bölümleme algoritmalarının kapsamlı bir analizi
- Tez No: 761338
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Dönüştürücü dil modelleri, çok çeşitli doğal dil işleme görevlerinde olağanüstü başarıların yolunu açmıştır. Dönüştürücü dil modellerinde ilk adım, girdiyi jetonlara bölmektir. Yıllar boyunca, çeşitli bölümleme yaklaşımları ortaya atılmıştır. Bu yaklaşımlar, karakter ve kelime seviyesindeki temsillerden alt kelime seviyesindeki temsillere doğru daha da gelişmiştir. Bununla birlikte, özellikle morfolojik olarak zengin diller için, kelime bölümleme algoritmalarının model performansı üzerindeki etkisi tam olarak tartışılmamıştır. Bu tezde, çekimli ve morfolojik açıdan oldukça zengin bir dil olan Türkçe için alt kelime bölümleme algoritmalarının kapsamlı bir şekilde analizi yapılmıştır. Bölümleme algoritmalarının Türkçenin morfolojisini ne kadar iyi kodladığını değerlendirmek için çeşitli metrikler tanımlanmıştır. Ayrıca, sözcük dağarcığı ve derlem boyutu gibi farklı belirteç parametrelerinin belirteçlerin özelliklerini nasıl değiştirdiği incelenmiştir. Ek olarak, sondan eklemeli ve morfolojik olarak zengin diller için yeni bir bölümleme algoritması önerilmiştir. Önerilen kelime bölümleme algoritmasının daha iyi genelleme performansı sağladığı gösterilmiştir. Doğal dil işleme deneyleri, kelime bölümlemede morfoloji denetiminin model performansını iyileştirdiğini göstermektedir.
Özet (Çeviri)
Transformer language models have paved the way for outstanding achievements on a wide variety of natural language processing tasks. The first step in transformer models is dividing the input into tokens. Over the years, various tokenization approaches have emerged. These approaches have further evolved from character and word-level representations to subword-level representations. However, the impact of tokenization on models performance has not been thoroughly discussed, especially for morphologically rich languages. In this thesis, we comprehensively analyze subword tokenizers for Turkish, which is a highly inflected and morphologically rich language. We define various metrics to evaluate how well tokenizers encode Turkish morphology. Also, we examine how the tokenizer parameters like vocabulary and corpus size change the characteristics of tokenizers. Additionally, we propose a new tokenizer for agglutinative and morphologically rich languages. We demonstrate that our tokenizer reduces overall perplexity and enables better generalization performance. Downstream task experiments show that morphology supervision in tokenization improves model performance.
Benzer Tezler
- Aspect-based sentiment analysis for turkish using deep learning model combinations
Türkçe için derin öğrenme modelleri kullanarak özellik bazlı duygu analizi
ALİ ERKAN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Derin öğrenme yöntemleri ile Türkçede bağlılık ayrıştırma
Dependency parsing with deep learning methods in Turkish
MÜCAHİT ALTINTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Orta asya Türk Cumhuriyetleri ve Türkiye bankacılık sisteminin karşılaştırmalı analizi
A comprehensive analysis of Central Asian Turkish republics with Turkish banking systems
BEGENCHMYRAT DURDYYEV
- Henri Dutilleux'nün 'Tout un Monde Lointain...' (Bütün Bir Uzak Dünya...) adlı müziğinin bestecilik teknikleri açısından incelenmesi
Analysis of Henri Dutilleux?s ?Tout un Monde Lointain...? (A Whole Distant World...) in terms of compositional techniques
YİĞİT KOLAT
Yüksek Lisans
Türkçe
2009
MüzikHacettepe ÜniversitesiKompozisyon, Koro ve Orkestra Şefliği Ana Sanat Dalı
YRD. DOÇ. TURGAY ERDENER
- A comprehensive analysis of edible and non-edible biodiesel feedstocks
Yenilebilir ve yenilebilir olmayan biyodizel hammaddelerinin kapsamlı bir analizi
ABDELAZIZ EMADELDİN ABDELAZİZ MOHAMED
Doktora
İngilizce
2014
EnerjiUniversiti Malaya UMMakine Ana Bilim Dalı
PROF. DR. MASJUKİ BİN HAJİ HASSAN