Geri Dön

Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models

Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme

  1. Tez No: 784700
  2. Yazar: BUSE ÇARIK
  3. Danışmanlar: DR. REYYAN YENİTERZİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 82

Özet

Adlandırılmış Varlık Tanıma (AVT), kişi ve konum adları gibi adlandırılmış varlıkları algılamayı ve sınıflandırmayı amaçlayan, bilgi çıkarımının temel görevlerinden birisidir. Bu görevin kullanım alanlarından bazılarına haberlerin kategorize edilmesi, metinlerin gizliliğin sağlanması için anonimleştirilmesi, tıp alanında elektronik sağlık kayıtlarından hastalık ve ilaçların tespit edilmesi örnek olarak verilebilir. Bununla birlikte, her alanın kendine ait zorlukları ve bilgi gereksinimleri vardır. AVT'deki zorlu alanlardan birisi, gürültülü doğası ve bağlam eksikliği nedeniyle sosyal medya verileridir. Ayrıca, kitap veya film başlıkları gibi belirsiz ve karmaşık varlıkları kapsayan yeni adlandırılmış varlık sınıflarının da bu alana dahil edilmesi görevi daha da zorlaştırmıştır. Bu sorunlar nedeniyle modeller, haber makaleleri gibi iyi yazılmış metinlere kıyasla sosyal medya verilerinde daha düşük performans göstermektedirler. Bu çalışmada, Vikipedi gibi bir bilgi tabanından gelen harici bilgileri denetimsiz bir şekilde dönüştürücü tabanlı bir modele entegre ederek modellerin özellikle karmaşık varlıklarda ve bağlam eksikliğinde performanslarını iyileştirmeyi amaçladık. Dış bağlamı seçmek ve BERT modeline eklemek için iki ayrı yöntem önerdik. İlk yaklaşımımızda, EL_BERT ve EL_MultiBERT adlı iki yöntemimiz ile Vikipedi'den olası adlandırılmış varlıkları bulmaya çalıştık ve tespit edebildiğimiz sayfalardan harici bilgi olarak yararlandık. Ancak Vikipedi'de adlandırılmış her varlığı tespit etmek her zaman mümkün olmadığı için ikinci yaklaşımımız olan EL_Semantic'te bağlamsal olarak daha yakın sayfaları vurgulayarak önceki yaklaşımımızı geliştirdik. EL_BERT ve EL_MultiBERT modellerimiz ile çok sayıda kısa örnek ve karmaşık varlıklar içeren MultiCoNER veri setinde dönüştürücü tabanlı modellere kıyasla önemli bir gelişme sağladık. Ayrıca, EL_Semantic yöntemimizde anlamsal olarak yakın içerikleri eklemeyerek, gürültülü metinlerden oluşan veri setlerinde BERTurk modelinden daha iyi performans elde etmeyi başardık. Öncelikle Türkçe AVT'deki sosyal medya veri setleri eski ve yetersiz olduğu için yeni bir Twitter veri seti oluşturduk. Dahası, mevcut sosyal medya veri kümeleri daha önce dönüştürücü tabanlı modellerle değerlendirilmediği için bu modellerin varyasyonlarını eğittik ve BiLSTM-CRF mimarisi ile bu veri setleri üzerinde karşılaştırdık. Daha sonra dönüştürücü tabanlı modellerin üzerlerine etiketler arasındaki ilişkileri yakalayarak performanslarını iyileştirmek için CRF ve BiLSTM katmanları uyguladık. BERT-CRF modeli, harici bilgi eklemeyi önerdiğimiz metodlardan daha iyi performans göstermiştir, ancak kısa örnekler ve karmaşık adlandırılmış varlıklarla dolu olan MultiCoNER veri setinde, yöntemimizle karşılaştırıldığında oldukça kötü bir sonuç elde etmiştir. BiLSTM katmanı eklemek ise hiçbir gelişme göstermemiş ve diğer dönüştürücü tabanlı yaklaşımların gerisinde kalmıştır.

Özet (Çeviri)

Named Entity Recognition (NER) is a core component in extraction information that aims to detect and classify named entities, such as person and location names. Applications of this task include the detection of named entities in raw texts from various domains. Categorizing news articles, anonymizing texts to ensure privacy, and identifying diseases and drugs from electronic health records in the medical field are some of the usage areas of this task. However, each domain has its own challenges and knowledge requirements. One of the challenging domains in NER is social media because of its noisy nature and context deficiency. In addition, newly named entity classes are included in this domain, covering ambiguous and complex entities such as book or movie titles. Because of these issues, models perform poorly in this domain compared to well-written texts such as news articles. In this work, we aim to improve the performance of models, particularly in complex entities and lack of context, by integrating external information from a knowledge base, like Wikipedia, into a transformer-based model in an unsupervised manner. To select the external context and add it to the BERT model, we proposed two different methods. In the first approach, the two pipelines called EL_BERT and EL_MultiBERT attempted to find possible named entities on Wikipedia and utilized the pages they found as external information. Our second method, EL_Semantic, improved the previous approach by emphasizing the contextually closer pages since detecting every named entity in Wikipedia is not always possible. With EL_BERT and EL_MultiBERT, we achieved significant improvement on the MultiCoNER dataset, which contains many short samples and complex entities, compared to vanilla transformer-based models. Moreover, by incorporating semantically similar content in the EL_Semantic, we outperformed the BERTurk model on all datasets with noisy text. Since the social media datasets in Turkish NER are either old or insufficient, we first constructed a new Twitter dataset. Moreover, since the existing social media datasets have not been evaluated with transformer-based models, we trained variations of these models and compared them with BiLSTM-CRF architecture on social media datasets. We also implemented CRF and BiLSTM layers on top of transformer-based models to improve their performances by capturing relations among labels. The BERT-CRF model outperformed our pipelines with external knowledge, however, it performed poorly compared to our pipelines for the dataset full of short samples and complex entities, namely MultiCoNER. The BERT-BiLSTM-CRF model, on the other hand, performed poorly and lagged behind other transformer-based approaches.

Benzer Tezler

  1. Türkiye'de su hakkı

    The right to water in Turkey

    YILDIZ AKEL ÜNAL

    Doktora

    Türkçe

    Türkçe

    2021

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ERDOĞAN BÜLBÜL

  2. Çokkültürlülük ve kültürel kimlik inşası bağlamında Türkiye'deki çokkültürcü medya uygulaması: TRT Kûrdi

    Multiculturalist media application in Turkey in the context of multicultural and cultural identity building: TRT Kurdi

    AYSEL AY

    Doktora

    Türkçe

    Türkçe

    2017

    Radyo-TelevizyonMarmara Üniversitesi

    Radyo Televizyon Ana Bilim Dalı

    PROF. DR. FİLİZ AYDOĞAN BOSCHELE

  3. Elazığ - Sivrice ve Gezin civarının yeraltı yapısının gravite verileri kullanılarak modellenmesi

    Modelling of the subsurface structures of Elazığ - Sivrice and Gezin region by using gravity data

    NEDİM GÖKHAN AYDIN

    Doktora

    Türkçe

    Türkçe

    2024

    Jeofizik Mühendisliğiİstanbul Teknik Üniversitesi

    Jeofizik Mühendisliği Ana Bilim Dalı

    PROF. DR. TURGAY İŞSEVEN

  4. Reklamcılıkta kültürel etkileşim ve grafik tasarımdaki kullanımı

    Cultural interaction in advertising and its use in graphic design

    SİNAN KAVAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Güzel Sanatlarİstanbul Arel Üniversitesi

    Grafik Tasarım Ana Bilim Dalı

    DOÇ. DR. MEHMET TARAGAY AYÇE

  5. Factoring

    Factoring

    FATİH SALBARS

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    DOÇ.DR. ERTUĞRUL TOKDEMİR