Exploring neural entity linking with pre-trained transformer models for turkish
Türkçe için önceden eğitilmiş dönüştürücü modelleriyle sinirsel varlık ilişkilendirme probleminin keşfedilmesi
- Tez No: 826696
- Danışmanlar: PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Doğal Dil İşleme'nin hayati bir bileşeni olan Varlık İlişkilendirme, belirli bir metindeki adlandırılmış varlıkları bir bilgi tabanındaki karşılığı olan gerçek dünya varlıklarına bağlamayı amaçlar. Bu çalışma, Türk diline uyarlanmış Dönüştürücü tabanlı Sinirsel Varlık İlişkilendirme modellerinin verisetlerindeki yazım tipi ve tür değişimlerindeki performansına odaklanarak bir araştırma sunmaktadır. Orijinal olarak İngilizce için tasarlanmış iki gelişmiş Sinirsel Varlık İlişkilendirme modeli Türkçe'ye uyarlanmıştır. Daha sonra, uyarlanan bu modellerin farklı Türkçe veri setlerinde performansları incelenmiştir. Ayriyetten, EntityBERT adlı geliştirdiğimiz ve karşılaştırma için bir referans noktası işlevi gören yeni bir yöntem ayrıntılı olarak değerlendirilmiştir. EntityBERT, önceden eğitilmiş Türkçe Dönüştürücü modelini ve bu modellerin `bağlamsal öğrenme' (contextual-learning) yeteneklerini kullanan basit bir Sinirsel Varlık İlişkilendirme modelidir. Sistemlerin performans değerlendirmesi tarafımızca yeni oluşturulmuş bir veri seti de dahil olmak üzere üç farklı veri seti üzerinde gerçekleştirilmiştir. Bulgular, Sinirsel Varlık İlişkilendirme modellerinin, dil ve içerik türü geçişlerinde güçlü performans sergilediğini ve çeşitli metin türlerine uyum sağlayabildiklerini ortaya koymuştur. Bununla birlikte, araştırmamız kayda değer bir dezavantajı da vurgulamaktadır: Sinirsel Varlık İlişkilendirme modelleri yazım tipi (Vikipedi metinleri ve Tweetler) değişiklikleri karşısında performans kaybetmektedir. Genel olarak, bu çalışma, Türkçe'deki Sinirsel Varlık İlişkilendirme modellerinin potansiyeline ve dezavantajlarına ışık tutmakta, Türkçe Tweet'lerden oluşan bir değerlendirme seti sunmakta ve son olarak, İngilizce dışındaki dillerde NLP alanında ilerleme sağlamak için değerli bilgiler sunmaktadır.
Özet (Çeviri)
Entity Linking, a vital component of Natural Language Processing (NLP), aims to link named entities in a given text to their corresponding real-world entities in a knowledge base. This work presents an exploration of transformer-based Neural Entity Linking models adapted to the Turkish language, focusing on their robustness across genre and domain shifts. We take two advanced Neural Entity Linking models originally designed for English and adapt them to Turkish. We then thoroughly assess how well these adapted models perform on different Turkish datasets, along with a new method we developed called EntityBERT, which serves as a reference point for comparison. EntityBERT is a simple Neural Entity Linking model which exploits pretrained Turkish transformer model and contextualized learning capabilities of transformer models. The evaluation was conducted on three distinct datasets, including one newly created dataset, publicly available for further research. The findings revealed that Neural Entity Linking models exhibited robust performance across language and genre shifts, demonstrating their adaptability to Turkish and diverse textual genres. Nonetheless, our investigation also highlights a noteworthy limitation: the susceptibility of Neural Entity Linking models to domain shift challenges. Despite their favorable performance in general settings, adapting to domains with distinctive characteristics poses considerable difficulties. Overall, this study sheds light on the potential and limitations of Neural Entity Linking models in Turkish, provides an evaluation dataset of Turkish tweets, and finally delivers valuable insights for advancing the field of natural language processing in non-English languages.
Benzer Tezler
- Semi-supervised learning based named entity recognition for morphologically rich languages
Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma
HAKAN DEMİR
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Güneşsel ve atmosferik nötrino problemleri
Solar and atmospheric neutrino problems
HAKAN ÖZTÜRK
Yüksek Lisans
Türkçe
1997
Fizik ve Fizik MühendisliğiÇukurova ÜniversitesiFizik Ana Bilim Dalı
DOÇ. DR. EDA EŞKUT AKKUŞ
- Neural network based publication recommender for article submission
Makale gönderimi için sinir ağ tabanlı yayın tavsiyesi
SETH JACOB MICHAIL
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ JOSEPH WILLIAM LEDET
- Exploring transfer learning strategies with pre-trained convolutional neural network for skin cancer classification
Cilt kanserinin sınıflandırılmasına yönelik önceden eğitimli evrımsel sinir ağlarıyla transfer öğrenme stratejilerinin keşfedilmesi
RIYAM QADRI MANHEE AL-SAHLANEE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULLAHI ABDU IBRAHIM
- Exploring mini-batch sample selection strategies for deep learning based speech recognition
Derin öğrenme tabanlı ses tanıma için mini-yığın örnek seçim stratejilerinin araştırılması
YEŞİM DOKUZ
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEKERİYA TÜFEKCİ