Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models

Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme

PDF İndir

Tez No: 784700
Yazar: BUSE ÇARIK
Danışmanlar: DR. REYYAN YENİTERZİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
Sayfa Sayısı: 82

Özet

Adlandırılmış Varlık Tanıma (AVT), kişi ve konum adları gibi adlandırılmış varlıkları algılamayı ve sınıflandırmayı amaçlayan, bilgi çıkarımının temel görevlerinden birisidir. Bu görevin kullanım alanlarından bazılarına haberlerin kategorize edilmesi, metinlerin gizliliğin sağlanması için anonimleştirilmesi, tıp alanında elektronik sağlık kayıtlarından hastalık ve ilaçların tespit edilmesi örnek olarak verilebilir. Bununla birlikte, her alanın kendine ait zorlukları ve bilgi gereksinimleri vardır. AVT'deki zorlu alanlardan birisi, gürültülü doğası ve bağlam eksikliği nedeniyle sosyal medya verileridir. Ayrıca, kitap veya film başlıkları gibi belirsiz ve karmaşık varlıkları kapsayan yeni adlandırılmış varlık sınıflarının da bu alana dahil edilmesi görevi daha da zorlaştırmıştır. Bu sorunlar nedeniyle modeller, haber makaleleri gibi iyi yazılmış metinlere kıyasla sosyal medya verilerinde daha düşük performans göstermektedirler. Bu çalışmada, Vikipedi gibi bir bilgi tabanından gelen harici bilgileri denetimsiz bir şekilde dönüştürücü tabanlı bir modele entegre ederek modellerin özellikle karmaşık varlıklarda ve bağlam eksikliğinde performanslarını iyileştirmeyi amaçladık. Dış bağlamı seçmek ve BERT modeline eklemek için iki ayrı yöntem önerdik. İlk yaklaşımımızda, EL_BERT ve EL_MultiBERT adlı iki yöntemimiz ile Vikipedi'den olası adlandırılmış varlıkları bulmaya çalıştık ve tespit edebildiğimiz sayfalardan harici bilgi olarak yararlandık. Ancak Vikipedi'de adlandırılmış her varlığı tespit etmek her zaman mümkün olmadığı için ikinci yaklaşımımız olan EL_Semantic'te bağlamsal olarak daha yakın sayfaları vurgulayarak önceki yaklaşımımızı geliştirdik. EL_BERT ve EL_MultiBERT modellerimiz ile çok sayıda kısa örnek ve karmaşık varlıklar içeren MultiCoNER veri setinde dönüştürücü tabanlı modellere kıyasla önemli bir gelişme sağladık. Ayrıca, EL_Semantic yöntemimizde anlamsal olarak yakın içerikleri eklemeyerek, gürültülü metinlerden oluşan veri setlerinde BERTurk modelinden daha iyi performans elde etmeyi başardık. Öncelikle Türkçe AVT'deki sosyal medya veri setleri eski ve yetersiz olduğu için yeni bir Twitter veri seti oluşturduk. Dahası, mevcut sosyal medya veri kümeleri daha önce dönüştürücü tabanlı modellerle değerlendirilmediği için bu modellerin varyasyonlarını eğittik ve BiLSTM-CRF mimarisi ile bu veri setleri üzerinde karşılaştırdık. Daha sonra dönüştürücü tabanlı modellerin üzerlerine etiketler arasındaki ilişkileri yakalayarak performanslarını iyileştirmek için CRF ve BiLSTM katmanları uyguladık. BERT-CRF modeli, harici bilgi eklemeyi önerdiğimiz metodlardan daha iyi performans göstermiştir, ancak kısa örnekler ve karmaşık adlandırılmış varlıklarla dolu olan MultiCoNER veri setinde, yöntemimizle karşılaştırıldığında oldukça kötü bir sonuç elde etmiştir. BiLSTM katmanı eklemek ise hiçbir gelişme göstermemiş ve diğer dönüştürücü tabanlı yaklaşımların gerisinde kalmıştır.

Özet (Çeviri)

Named Entity Recognition (NER) is a core component in extraction information that aims to detect and classify named entities, such as person and location names. Applications of this task include the detection of named entities in raw texts from various domains. Categorizing news articles, anonymizing texts to ensure privacy, and identifying diseases and drugs from electronic health records in the medical field are some of the usage areas of this task. However, each domain has its own challenges and knowledge requirements. One of the challenging domains in NER is social media because of its noisy nature and context deficiency. In addition, newly named entity classes are included in this domain, covering ambiguous and complex entities such as book or movie titles. Because of these issues, models perform poorly in this domain compared to well-written texts such as news articles. In this work, we aim to improve the performance of models, particularly in complex entities and lack of context, by integrating external information from a knowledge base, like Wikipedia, into a transformer-based model in an unsupervised manner. To select the external context and add it to the BERT model, we proposed two different methods. In the first approach, the two pipelines called EL_BERT and EL_MultiBERT attempted to find possible named entities on Wikipedia and utilized the pages they found as external information. Our second method, EL_Semantic, improved the previous approach by emphasizing the contextually closer pages since detecting every named entity in Wikipedia is not always possible. With EL_BERT and EL_MultiBERT, we achieved significant improvement on the MultiCoNER dataset, which contains many short samples and complex entities, compared to vanilla transformer-based models. Moreover, by incorporating semantically similar content in the EL_Semantic, we outperformed the BERTurk model on all datasets with noisy text. Since the social media datasets in Turkish NER are either old or insufficient, we first constructed a new Twitter dataset. Moreover, since the existing social media datasets have not been evaluated with transformer-based models, we trained variations of these models and compared them with BiLSTM-CRF architecture on social media datasets. We also implemented CRF and BiLSTM layers on top of transformer-based models to improve their performances by capturing relations among labels. The BERT-CRF model outperformed our pipelines with external knowledge, however, it performed poorly compared to our pipelines for the dataset full of short samples and complex entities, namely MultiCoNER. The BERT-BiLSTM-CRF model, on the other hand, performed poorly and lagged behind other transformer-based approaches.

Benzer Tezler

Tez No
660472
Türkiye'de su hakkı
The right to water in Turkey
YILDIZ AKEL ÜNAL
Doktora
Türkçe
2021
Hukuk Galatasaray Üniversitesi
Kamu Hukuku Ana Bilim Dalı
PROF. DR. ERDOĞAN BÜLBÜL
Tez No
454601
Çokkültürlülük ve kültürel kimlik inşası bağlamında Türkiye'deki çokkültürcü medya uygulaması: TRT Kûrdi
Multiculturalist media application in Turkey in the context of multicultural and cultural identity building: TRT Kurdi
AYSEL AY
Doktora
Türkçe
2017
Radyo-Televizyon Marmara Üniversitesi
Radyo Televizyon Ana Bilim Dalı
PROF. DR. FİLİZ AYDOĞAN BOSCHELE
Tez No
865214
Elazığ - Sivrice ve Gezin civarının yeraltı yapısının gravite verileri kullanılarak modellenmesi
Modelling of the subsurface structures of Elazığ - Sivrice and Gezin region by using gravity data
NEDİM GÖKHAN AYDIN
Doktora
Türkçe
2024
Jeofizik Mühendisliği İstanbul Teknik Üniversitesi
Jeofizik Mühendisliği Ana Bilim Dalı
PROF. DR. TURGAY İŞSEVEN
Tez No
904798
Reklamcılıkta kültürel etkileşim ve grafik tasarımdaki kullanımı
Cultural interaction in advertising and its use in graphic design
SİNAN KAVAK
Yüksek Lisans
Türkçe
2024
Güzel Sanatlar İstanbul Arel Üniversitesi
Grafik Tasarım Ana Bilim Dalı
DOÇ. DR. MEHMET TARAGAY AYÇE
Tez No
39898
Factoring
Factoring
FATİH SALBARS
Yüksek Lisans
Türkçe
1994
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
DOÇ.DR. ERTUĞRUL TOKDEMİR

Geri Dön