Geri Dön

Improving self-attention based transformer performance for morphologically rich languages

Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

  1. Tez No: 884898
  2. Yazar: YİĞİT BEKİR KAYA
  3. Danışmanlar: DOÇ. DR. AHMET CÜNEYD TANTUĞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 106

Özet

Bu tezde, geleneksel tekrarlayan sinir ağlarından daha gelişmiş dönüştürücü tabanlı modellere önemli bir geçişe işaret eden Dönüşümcülerden Çift Yönlü Kodlayıcı Temsilleri (BERT) algoritmasının Doğal Dil İşleme (DDİ) üzerindeki etkisini araştırıyoruz. Öz dikkat mekanizmalarının devreye girmesi ve zengin denetimsiz verilerin kullanılmasıyla ortaya çıkan bu paradigma değişimi, dil temsil modellerini önemli ölçüde geliştirmiş ve DDİ alanında bir kilometre taşını temsil etmiştir. BERT'i bu evrimde bir mihenk taşı olarak kabul etmemizin sebebi dili aynı anda hem sol hem de sağ bağlamlarda koşullandırarak yorumlayabilmesidir. Bu yetenek, dilsel yapıların daha incelikli ve kapsamlı bir şekilde anlaşılmasına imkan sağlar. BERT'in uyarlanabilirliği, karmaşık soru yanıtlamadan incelikli dil çıkarımına kadar çeşitli DDİ görevlerinde etkili olduğunu kanıtlayarak çok yönlülüğünü ve etkinliğini ortaya koymuştur. BERT'in pratik uygulamaları, Google'ın arama motorundaki uygulamasının da gösterdiği gibi, teorik modellerin ötesine geçmektedir. Anahtar kelime merkezli bir paradigmadan daha sofistike bir semantik arama paradigmasına geçiş, bu teknolojinin gerçek dünyadaki etkisinin altını çizmektedir. Ayrıca BERT'in biyomedikal metin madenciliği için BioBERT gibi belirli alanlara uyarlanmasını araştırıyor ve bu modellerin önemli hesaplama gereksinimlerini ele alıyoruz. Ayrıca, daha fazla kaynak verimli ön eğitim görevlerinin ve ELECTRA gibi alternatiflerin araştırılmasını da yaptık. Tezimizin özünde, özellikle biçimbilimsel açıdan zengin diller için dönüşümsel modellerin başarımını Türkçe'ye odaklanarak iyileştirme hedefi yer almaktadır. Türkçe'nin benzersiz dilbilimsel özelliklerini ve karmaşıklıklarını ele alarak, dönüşüm modellerini, daha yaygın olarak çalışılan dillerde bulunanlardan belirgin şekilde farklı olan karmaşık morfolojik yapılarına daha iyi uyum sağlayacak şekilde optimize etmek için zemin hazırlıyoruz. Daha sonra, özellikle Türkçe gibi morfolojik açıdan zengin dillerin işlenmesiyle ilgili benzersiz zorluklara ve metodolojilere odaklanarak, doğal dil işlemenin temel yönlerini kapsamlı bir şekilde araştırmaya başlıyoruz. Metin sınıflandırma ve adlandırılmış varlık tanıma gibi çeşitli aşağı akış DDİ görevlerine ayrıntılı bir genel bakış sunarak, Türkçe'ye uygulandıklarında karmaşıklıklarını vurguluyoruz. Bu keşif, Transformer ve BERT mimarilerinin inceliklerinin daha fazla araştırılması için zemin hazırlıyor ve DDİ'deki öncü rollerini vurguluyor. Odak noktamız, özellikle karmaşık morfolojik özellikleriyle bilinen Türkçe gibi dillerin işlenmesi üzerindeki etkisi olan tokenizasyondur. Bu temel anlayışa dayanarak, araştırmamız Türkçe DDİ görevlerindeki son durumu kapsamlı bir şekilde gözden geçirmektedir. Özellikle BERT ve türevlerinin uygulama ve etkisine odaklanarak, ilk kural tabanlı yaklaşımlardan gelişmiş sinir modellerine kadar Türkçe DDİ'ye uygulanan metodolojilerin evrimini titizlikle izliyoruz. Bu sistematik inceleme, alandaki ilerlemenin ve sınırlamaların eleştirel bir değerlendirmesi için zemin hazırlamakta, Türkçede tokenizasyon ve kelime boyutuna yönelik incelikli yaklaşımlara duyulan ihtiyacı vurgulamakta ve BERT tabanlı modellerin bu zorlukların üstesinden gelme potansiyelini göstermektedir. Çalışmamızın merkezinde, Türkçe Adlandırılmış Varlık Tanıma (NER) için en uygun sözcük dağarcığı boyutunun araştırılması yer almaktadır. Türkçenin morfolojik zenginliği, özellikle de kelime dağarcığı dışında kalan (OOV) kelimelerin yaygınlığı, benzersiz zorluklar ortaya koymaktadır. Araştırmamız, kelime dağarcığı boyutundan etkilenen tokenizasyon ayrıntı düzeyinin, BERT tabanlı modellerin Türkçe NER görevlerindeki performansını nasıl etkilediğini anlamayı amaçlamaktadır. Kelime boyutunun etkisine odaklanarak, standart tokenizasyon algoritmalarının ve hiperparametrelerinin sınırlamalarını eleştirel bir şekilde tartışıyoruz. Bu sorunları ele almak için, her biri farklı kelime boyutları ve normalizasyon ayarları ile eğitilmiş ve ayarlanmış, Türkçeye özgü orijinal BERT dil modellerini sunuyoruz. Bu deneysel modeller, gelişmiş NER performansı için tokenizasyon granülerliğini optimize etmeyi amaçlamaktadır. Sonuçlarımız, daha büyük kelime dağarcığı boyutlarının, kelimelerin belirteçler olarak daha kapsamlı ve nüanslı temsili sayesinde Türkçe gibi diller için NER performansını tipik olarak iyileştirdiğini göstermektedir. Ayrıca normalleştirmenin bazı bağlamlarda avantajlar sunarken, genel etkinliğinin eldeki görevin türüne ve özelliğine göre değiştiğini görüyoruz. Araştırmamız ilerledikçe, tokenizasyon ayrıntı düzeyinin Türkçe Büyük Dil Modellerinin (LLM'ler) performansı üzerindeki etkisini inceliyoruz. DDİ'deki genel zorlukları ve dönüştürücü tabanlı modellerin, özellikle de BERT'in, bağlama duyarlı kelime temsilleriyle bu alanda nasıl devrim yarattığını tartışıyoruz. Çok Dilli BERT'in (mBERT) İngilizce dışındaki dillerin spesifik dilsel nüanslarını yakalamadaki sınırlamaları, Türkçe'ye odaklanarak incelenmektedir. Araştırmamızın kritik bir parçası, kelime eğitimi için kullanılan derlem, ön işleme operasyonları, tokenizasyon yöntemleri ve en önemlisi kelime büyüklüğü dahil olmak üzere Türkçe BDM'lerin performansını etkileyen faktörlerin kapsamlı bir şekilde araştırılmasıdır. Sözcük dağarcığı boyutuna ilişkin keyfi veya deneme yanılma yoluyla verilen kararların, özellikle sondan eklemeli yapısı nedeniyle Türkçe için modelin performansını nasıl önemli ölçüde etkileyebileceğini vurguluyoruz. Deneylerimiz, daha büyük kelime dağarcığı boyutlarının, daha az tokenizasyon granülerliği ve dilin morfolojik karmaşıklığının daha etkili bir şekilde yakalanması nedeniyle Türkçe DDİ görevleri için tipik olarak daha iyi performans sağladığını göstermektedir. Ayrıca, ayrıntı düzeyini ölçmek ve çeşitli DDİ görevleri üzerindeki etkisini araştırmak için yeni bir metrik olan tokenizasyon ayrıntı oranını tanıtıyoruz. Bu bulgular, Türkçe DDİ'ler için sözcük dağarcığı boyutunun dikkatli bir şekilde seçilmesinin önemini vurgulamaktadır. Bir başka öncü adımda, Türkçe gibi sondan eklemeli dillerin morfolojik karmaşıklığını daha iyi yakalamak için iki boyutlu konumsal katıştırmaları kullanan BERT2D modelini tanıtıyoruz. Bu yenilikçi model, standart BERT'teki doğrusal, tek boyutlu konumsal katıştırmaların sınırlamalarını, özellikle de yüksek tokenizasyon granülaritesi nedeniyle sofistike konumsal kodlama gerektiren diller için ele almaktadır. BERT2D, tüm kelimeler ve alt kelimeler için ikili konumsal katıştırmalarıyla, titiz ön eğitim, ince ayar ve değerlendirme deneyleriyle doğrulanmıştır. Sonuçlarımız, BERT2D'nin, özellikle tam kelime maskeleme ile birleştirildiğinde, çeşitli DDİ görevlerinde kıyaslama modellerinden sürekli olarak daha iyi performans gösterdiğini ve Türkçe DDİ uygulamalarında yeni standartlar belirlediğini göstermektedir. Araştırmamızın kümülatif sonuçları ve katkıları, özellikle Türkçenin zengin morfolojik yapısıyla başa çıkabilmek için dönüşüm modellerinin geliştirilmesinde kaydedilen önemli ilerlemenin altını çizmektedir. İsimlendirilmiş Varlık Tanıma (NER) alanında, araştırmamız Türkçeye özgü ITUTurkBERT modelinin çok dilli BERT'e göre üstün performansını ortaya koymaktadır. Bu başarı, modelin dile özgü olguları yakalama konusundaki gelişmiş yeteneğini vurgulamakta ve Türkçe'nin morfolojik karmaşıklığıyla başa çıkmada kelime dağarcığı büyüklüğünün kritik rolünü pekiştirmektedir. İlk bulguları tekrar gözden geçiriyor ve ITUTurkBERT'in çeşitli Türkçe aşağı akış görevlerindeki dikkate değer başarısını yineliyoruz. Araştırmamız, genellikle 64K'yı aşan farklı görevler için optimum kelime boyutlarının değişkenliğine ışık tutuyor ve normalleştirme, morfolojik belirteçleştirme ve derlem boyutunu azaltma gibi stratejilerin temel dil modeline kıyasla karışık etkinliğini inceliyor. Ayrıca, BERT2D modellerine odaklanmamız, iki boyutlu konumsal gömme kavramını tanıtmaktadır. BERT2D modelleri, token sınıflandırma ve metin sınıflandırma gibi görevlerde standart BERT tabanlı modellerle tutarlı bir şekilde eşleşmekte veya bu modelleri aşmakta ve model parametrelerine minimum eklemelerle üstün performans elde etmektedir. Tam kelime maskelemenin entegrasyonu, metin sınıflandırma görevleri için özellikle faydalı olduğunu kanıtlamaktadır. Son olarak, gelecekteki araştırmalar için çeşitli yönergeleri özetliyoruz. Bunlar arasında testlerin diğer isimlendirilmiş varlık tanıma veri kümelerine genişletilmesi, isimlendirilmiş varlık tanıma için dikkat hesaplamasının zenginleştirilmesi, BERT'in kasalı ve daha yeni sürümleriyle diğer alt görevlerin araştırılması ve BERT'in çıktı yapısında farklı katman türlerinin denenmesi yer almaktadır. Buna ek olarak, önerilen hiyerarşik öneri ağının uygulamasının alanlar arası öneri problemlerine genişletilmesi, gelecekteki keşif ve iyileştirmeler için önemli bir alan olarak ortaya çıkmaktadır.

Özet (Çeviri)

This dissertation examines the transformative impact of the Bidirectional Encoder Representations from Transformers (BERT) algorithm on Natural Language Processing (NLP), with a particular focus on its application to Turkish, a morphologically rich language. The advent of BERT marked a significant shift from traditional recurrent neural networks to transformer-based models. This shift introduced self-attention mechanisms and the use of rich unsupervised data. The capacity to condition on both left and right contexts simultaneously enables a more nuanced and comprehensive understanding of linguistic structures. The versatility of BERT is evident in its application to a range of NLP tasks, including complex question answering and nuanced language inference. Its real-world impact is demonstrated by its implementation in Google's search engine, which has shifted from keyword-centric to semantic search paradigms. The research investigates the unique challenges presented by Turkish, a language with complex morphological structures that differ significantly from more commonly studied languages. Traditional tokenization methods and vocabulary sizes often prove inadequate for processing Turkish effectively. The dissertation traces the evolution of Turkish NLP from rule-based approaches to advanced neural models, critically assessing the progress and limitations in the field. This assessment highlights the need for nuanced approaches to tokenization and vocabulary size in Turkish NLP tasks. A key objective of the research is to ascertain the optimal vocabulary size for Turkish Named Entity Recognition (NER). The morphological richness of Turkish presents unique challenges, particularly the prevalence of out-of-vocabulary (OOV) words. The study examines the impact of tokenization granularity, influenced by vocabulary size, on the performance of BERT-based models on Turkish NER tasks. To address these issues, we developed Turkish-specific BERT language models, each trained and tuned with different vocabulary sizes and normalization settings. The results indicate that larger vocabulary sizes typically improve NER performance for languages like Turkish, thanks to their more comprehensive and nuanced representation of words as tokens. The dissertation discusses the factors influencing the performance of LLM, including the corpus used for vocabulary training, preprocessing operations, tokenization methods, and vocabulary size. It introduces a novel metric, the tokenization granularity rate, to quantify the level of granularity and explore its impact on various NLP tasks. These findings underscore the significance of meticulous vocabulary size selection for Turkish LLMs. Larger sizes tend to result in enhanced performance, largely due to reduced tokenization granularity and more efficacious capture of the language's morphological intricacies. A notable contribution of the research is the introduction of the BERT2D model, which employs two-dimensional positional embeddings to more effectively capture the morphological intricacies of agglutinative languages like Turkish. This innovative model addresses the limitations of linear, one-dimensional positional embeddings in standard BERT, particularly for languages that necessitate sophisticated positional encoding due to high tokenization granularity. The efficacy of BERT2D is validated through a series of rigorous experiments, including pretraining, fine-tuning, and evaluation. These experiments employ dual positional embeddings for whole words and subwords. The results demonstrate that BERT2D, particularly when combined with whole-word masking, consistently outperforms benchmark models in various NLP tasks, establishing new standards in Turkish NLP applications. The research establishes the superior performance of the Turkish-specific ITU-TurkBERT model over the multilingual BERT in various Turkish downstream tasks. This achievement highlights the model's enhanced ability to capture language-specific phenomena and reinforces the critical role of vocabulary size in dealing with the morphological complexity of Turkish. The study finds that optimal vocabulary sizes for different tasks often exceed 64K, and examines the mixed effectiveness of strategies such as normalization, morphological tokenization, and corpus size reduction compared to the base language model. The BERT2D models presented in this research demonstrate consistent performance, exceeding that of standard BERT-based models, in tasks such as token classification and text classification. This superior performance is achieved with minimal additions to the model parameters. The incorporation of whole-word masking has been demonstrated to be especially advantageous for text classification tasks. These findings contribute to the advancement of Turkish processing and offer insights that may be applicable to other morphologically rich languages. The dissertation concludes with an outline of several potential avenues for future research. Further research should be conducted to extend the tests to other named entity recognition datasets, enrich the attention calculation for named entity recognition, explore other downstream tasks with cased and newer versions of BERT, and experiment with different types of layers in BERT's output structure. Furthermore, the application of the proposed hierarchical recommendation network to cross-domain recommendation problems represents an important area for future exploration and improvement. Overall, this research significantly advances the field of Turkish NLP by addressing the unique challenges posed by the language's rich morphological structure, paving the way for more effective and nuanced NLP applications across diverse linguistic landscapes.

Benzer Tezler

  1. Efficient deep learning approaches for signal and image analysis applications

    Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları

    ONUR CAN KOYUN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  2. Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi

    Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques

    YEŞİM AKAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA SERT

  3. Süreç özdeğerlendirmesi için bir model önerisi

    A Model proposaş for process self assesment

    BARIŞ DEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN VEHBİ KOÇ

  4. Yapay kas uygulamaları için nanokompozit malzeme geliştirilmesi

    Development of nanocomposite material for artificial muscle applications

    AYŞE KÜBRA AYDINALEV

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Biyomühendislikİstanbul Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. MELEK MÜMİNE EROL TAYGUN

  5. Süreç yönetimi ve bir süreç geliştirme uygulaması

    Process management and an application of process development

    GÜLCAN PAMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEÇKİN POLAT