Geri Dön

Exploring neural entity linking with pre-trained transformer models for turkish

Türkçe için önceden eğitilmiş dönüştürücü modelleriyle sinirsel varlık ilişkilendirme probleminin keşfedilmesi

  1. Tez No: 826696
  2. Yazar: FATİH BEYHAN
  3. Danışmanlar: PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Doğal Dil İşleme'nin hayati bir bileşeni olan Varlık İlişkilendirme, belirli bir metindeki adlandırılmış varlıkları bir bilgi tabanındaki karşılığı olan gerçek dünya varlıklarına bağlamayı amaçlar. Bu çalışma, Türk diline uyarlanmış Dönüştürücü tabanlı Sinirsel Varlık İlişkilendirme modellerinin verisetlerindeki yazım tipi ve tür değişimlerindeki performansına odaklanarak bir araştırma sunmaktadır. Orijinal olarak İngilizce için tasarlanmış iki gelişmiş Sinirsel Varlık İlişkilendirme modeli Türkçe'ye uyarlanmıştır. Daha sonra, uyarlanan bu modellerin farklı Türkçe veri setlerinde performansları incelenmiştir. Ayriyetten, EntityBERT adlı geliştirdiğimiz ve karşılaştırma için bir referans noktası işlevi gören yeni bir yöntem ayrıntılı olarak değerlendirilmiştir. EntityBERT, önceden eğitilmiş Türkçe Dönüştürücü modelini ve bu modellerin `bağlamsal öğrenme' (contextual-learning) yeteneklerini kullanan basit bir Sinirsel Varlık İlişkilendirme modelidir. Sistemlerin performans değerlendirmesi tarafımızca yeni oluşturulmuş bir veri seti de dahil olmak üzere üç farklı veri seti üzerinde gerçekleştirilmiştir. Bulgular, Sinirsel Varlık İlişkilendirme modellerinin, dil ve içerik türü geçişlerinde güçlü performans sergilediğini ve çeşitli metin türlerine uyum sağlayabildiklerini ortaya koymuştur. Bununla birlikte, araştırmamız kayda değer bir dezavantajı da vurgulamaktadır: Sinirsel Varlık İlişkilendirme modelleri yazım tipi (Vikipedi metinleri ve Tweetler) değişiklikleri karşısında performans kaybetmektedir. Genel olarak, bu çalışma, Türkçe'deki Sinirsel Varlık İlişkilendirme modellerinin potansiyeline ve dezavantajlarına ışık tutmakta, Türkçe Tweet'lerden oluşan bir değerlendirme seti sunmakta ve son olarak, İngilizce dışındaki dillerde NLP alanında ilerleme sağlamak için değerli bilgiler sunmaktadır.

Özet (Çeviri)

Entity Linking, a vital component of Natural Language Processing (NLP), aims to link named entities in a given text to their corresponding real-world entities in a knowledge base. This work presents an exploration of transformer-based Neural Entity Linking models adapted to the Turkish language, focusing on their robustness across genre and domain shifts. We take two advanced Neural Entity Linking models originally designed for English and adapt them to Turkish. We then thoroughly assess how well these adapted models perform on different Turkish datasets, along with a new method we developed called EntityBERT, which serves as a reference point for comparison. EntityBERT is a simple Neural Entity Linking model which exploits pretrained Turkish transformer model and contextualized learning capabilities of transformer models. The evaluation was conducted on three distinct datasets, including one newly created dataset, publicly available for further research. The findings revealed that Neural Entity Linking models exhibited robust performance across language and genre shifts, demonstrating their adaptability to Turkish and diverse textual genres. Nonetheless, our investigation also highlights a noteworthy limitation: the susceptibility of Neural Entity Linking models to domain shift challenges. Despite their favorable performance in general settings, adapting to domains with distinctive characteristics poses considerable difficulties. Overall, this study sheds light on the potential and limitations of Neural Entity Linking models in Turkish, provides an evaluation dataset of Turkish tweets, and finally delivers valuable insights for advancing the field of natural language processing in non-English languages.

Benzer Tezler

  1. Semi-supervised learning based named entity recognition for morphologically rich languages

    Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma

    HAKAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  2. Güneşsel ve atmosferik nötrino problemleri

    Solar and atmospheric neutrino problems

    HAKAN ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Fizik ve Fizik MühendisliğiÇukurova Üniversitesi

    Fizik Ana Bilim Dalı

    DOÇ. DR. EDA EŞKUT AKKUŞ

  3. Neural network based publication recommender for article submission

    Makale gönderimi için sinir ağ tabanlı yayın tavsiyesi

    SETH JACOB MICHAIL

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ JOSEPH WILLIAM LEDET

  4. Exploring transfer learning strategies with pre-trained convolutional neural network for skin cancer classification

    Cilt kanserinin sınıflandırılmasına yönelik önceden eğitimli evrımsel sinir ağlarıyla transfer öğrenme stratejilerinin keşfedilmesi

    RIYAM QADRI MANHEE AL-SAHLANEE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAHI ABDU IBRAHIM

  5. Exploring mini-batch sample selection strategies for deep learning based speech recognition

    Derin öğrenme tabanlı ses tanıma için mini-yığın örnek seçim stratejilerinin araştırılması

    YEŞİM DOKUZ

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEKERİYA TÜFEKCİ