Geri Dön

Neural named entity recognition for morphologically rich languages

Biçimbilimsel açıdan zengin dillerde sinir ağı tabanlı varlık ismi tanıma

  1. Tez No: 669110
  2. Yazar: ONUR GÜNGÖR
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR, ÖĞR. GÖR. SUZAN ÜSKÜDARLI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 141

Özet

Varlık ismi tanıma (VİT), doğal dil işleme (DDİ) alanınındaki önemli bir görevdir. VİT etiketleyicileri verili bir cümledeki varlıkları etiketlemek için sinir ağı tabanlı modellerin yeniden doğuşuna kadar geleneksel yapay öğrenme yöntemleri veya sınırlı durumlu dönüştürücüleri kullanmaktaydı. Dizi tabanlı modelleri veya sözcük temsillerini kullanan sinir ağları o zamana kadar elde edilmiş en iyi başarımları ilerletti. Bu yaklaşımlar sözcüklerin yüzey biçimlerindeki biçimbilimsel anlam ifade eden bilgiyi görmezden gelmiştir. Bu tezde, biçimbilimsel bilgiyi kullanan iki VİT etiketleyicisi sunulmakta ve bu tür bilginin kullanılmasının biçimbilimsel açıdan zengin dillerdeki başarıyı önemli derecede artırdığı gösterilmektedir. Bu etiketleyiciler kullanılarak Türkçe, Çekçe, Macarca, Fince ve İspanyolca VİT görevinde o zamana kadar elde edilmiş en iyi başarımlar ilerletilmiştir. Modelin çeşitli kesimlerini etkin veya devredışı kılarak yaptığımız deneylerle bu ilerlemenin biçimbilimsel bilginin modele dahil edilmesinden kaynaklandığı gösterilmiştir. Bunlara ek olarak, olası tüm biçimbilimsel çözümlemelerden doğru olanı seçme işinin her zaman elde edilmesi mümkün olmayan harici çözümleyiciler kullanmadan sinir ağının bir parçası olarak yapılabileceği gösterilmiştir. Tezin ikinci kısmında, bilinen bir öznitelik ilişkilendirme yöntemi temel alınarak herhangi bir model türüne özgü olmayan bir açıklama getirme yöntemi geliştirilmiştir. Bu yöntemin ürettiği açıklamaların ikna ediciliği ilk kısımda geliştirilen VİT etiketleyiciler kullanılarak çeşitli özgün deneylerle gösterilmiştir.

Özet (Çeviri)

Named entity recognition (NER) is an important task in natural language processing (NLP). Until the revival of neural network based models for NLP, NER taggers employed traditional machine learning approaches or finite-state transducers to detect the entities in a given sentence. Neural models improved the state-of-the-art performance with sequence-based models and word embeddings. These approaches neglect the morphological information embedded in the surface forms of the words. In this thesis, we introduce two NER taggers that utilize such information, which we show to be significant for morphologically rich languages. Using these taggers, we improve the state-of-the-art performance levels for Turkish, Czech, Hungarian, Finnish, and Spanish. The ablation studies show that these improvements result from the inclusion of morphological information. We also show that it is possible for the neural network to also learn how to disambiguate morphological analyses, thereby, eliminating the dependence on external morphological disambiguators that are not always available. In the second part of this thesis, we propose a model agnostic approach for explaining any sequence-based NLP task by extending a well-known feature-attribution method. We assess the plausibility of the explanations for our NER tagger for Turkish and Finnish through several novel experiments.

Benzer Tezler

  1. Semi-supervised learning based named entity recognition for morphologically rich languages

    Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma

    HAKAN DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  2. Deep neural networks for named entity recognition on social media

    Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları

    EMRE KAĞAN AKKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  3. Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings

    Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma

    EDA OKUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN

  4. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Financial named entity recognition for turkish news texts

    Türkçe haber metinlerinde finansal varlık ismi tanıma

    DUYGU DİNÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. PINAR KARAGÖZ