Neural named entity recognition for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde sinir ağı tabanlı varlık ismi tanıma
- Tez No: 669110
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR, ÖĞR. GÖR. SUZAN ÜSKÜDARLI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 141
Özet
Varlık ismi tanıma (VİT), doğal dil işleme (DDİ) alanınındaki önemli bir görevdir. VİT etiketleyicileri verili bir cümledeki varlıkları etiketlemek için sinir ağı tabanlı modellerin yeniden doğuşuna kadar geleneksel yapay öğrenme yöntemleri veya sınırlı durumlu dönüştürücüleri kullanmaktaydı. Dizi tabanlı modelleri veya sözcük temsillerini kullanan sinir ağları o zamana kadar elde edilmiş en iyi başarımları ilerletti. Bu yaklaşımlar sözcüklerin yüzey biçimlerindeki biçimbilimsel anlam ifade eden bilgiyi görmezden gelmiştir. Bu tezde, biçimbilimsel bilgiyi kullanan iki VİT etiketleyicisi sunulmakta ve bu tür bilginin kullanılmasının biçimbilimsel açıdan zengin dillerdeki başarıyı önemli derecede artırdığı gösterilmektedir. Bu etiketleyiciler kullanılarak Türkçe, Çekçe, Macarca, Fince ve İspanyolca VİT görevinde o zamana kadar elde edilmiş en iyi başarımlar ilerletilmiştir. Modelin çeşitli kesimlerini etkin veya devredışı kılarak yaptığımız deneylerle bu ilerlemenin biçimbilimsel bilginin modele dahil edilmesinden kaynaklandığı gösterilmiştir. Bunlara ek olarak, olası tüm biçimbilimsel çözümlemelerden doğru olanı seçme işinin her zaman elde edilmesi mümkün olmayan harici çözümleyiciler kullanmadan sinir ağının bir parçası olarak yapılabileceği gösterilmiştir. Tezin ikinci kısmında, bilinen bir öznitelik ilişkilendirme yöntemi temel alınarak herhangi bir model türüne özgü olmayan bir açıklama getirme yöntemi geliştirilmiştir. Bu yöntemin ürettiği açıklamaların ikna ediciliği ilk kısımda geliştirilen VİT etiketleyiciler kullanılarak çeşitli özgün deneylerle gösterilmiştir.
Özet (Çeviri)
Named entity recognition (NER) is an important task in natural language processing (NLP). Until the revival of neural network based models for NLP, NER taggers employed traditional machine learning approaches or finite-state transducers to detect the entities in a given sentence. Neural models improved the state-of-the-art performance with sequence-based models and word embeddings. These approaches neglect the morphological information embedded in the surface forms of the words. In this thesis, we introduce two NER taggers that utilize such information, which we show to be significant for morphologically rich languages. Using these taggers, we improve the state-of-the-art performance levels for Turkish, Czech, Hungarian, Finnish, and Spanish. The ablation studies show that these improvements result from the inclusion of morphological information. We also show that it is possible for the neural network to also learn how to disambiguate morphological analyses, thereby, eliminating the dependence on external morphological disambiguators that are not always available. In the second part of this thesis, we propose a model agnostic approach for explaining any sequence-based NLP task by extending a well-known feature-attribution method. We assess the plausibility of the explanations for our NER tagger for Turkish and Finnish through several novel experiments.
Benzer Tezler
- Semi-supervised learning based named entity recognition for morphologically rich languages
Morfolojik açıdan zengin dillerde yarı güdümlü öğrenme tekniğiyle varlık ismi tanıma
HAKAN DEMİR
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Deep neural networks for named entity recognition on social media
Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları
EMRE KAĞAN AKKAYA
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
- Named entity recognition for turkish microblog texts using semi-supervised learning with word embeddings
Türkçe mı̇kroblog metı̇nlerı̇nde yarı güdümlü öğrenme teknı̇ğı̇yle kelı̇me temsı̇llerı̇ kullanarak varlık ı̇smı̇ tanıma
EDA OKUR
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Improving self-attention based transformer performance for morphologically rich languages
Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi
YİĞİT BEKİR KAYA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ