Deep neural networks for named entity recognition on social media

Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları

PDF İndir

Tez No: 543987
Yazar: EMRE KAĞAN AKKAYA
Danışmanlar: DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2018
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 127

Özet

Gürültülü veri, özellikle kullanıcı tarafından oluşturulan içerik (örn. çevrimiçi yorum, tweet), üzerinde varlık ismi tanıma metnin bozuk yapısından dolayı zorlu bir görevdir. Bu kapsamda, İngilizce gibi göreli morfolojik olarak fakir diller üzerindeki araştırmalar son yıllarda hızla ilerlerken, Türkçe gibi morfolojik olarak zengin dillerde gürültülü veri üzerindeki araştırmalar geri kalmıştır. Bu çoğunlukla Türkçe dilinin morfolojik olarak zengin ve sondan eklemeli olması ile az miktarda etiketli veriye sahip olması nedeniyledir. Türkçe'de varolan araştırmalar hem gürültü hem de resmi (örn. haber metni) veri üzerinde çoğunlukla hala el yapımı öznitelikler ve/veya alana-özgü harici kaynaklardan (isim listeleri) faydalanmaktadır. Bu tezdeyse, el yapımı öznitelikler ve/veya alana-özgü harici kaynaklar kullanmayan yapay sinir ağlarının etkileri incelenmektedir. Öyle ki, önerilen model farklı morfolojik olarak dillerde ve farklı alanlarda da kullanılabilsin. Bununla birlikte, farklı kelime ve kelime-altı (örn. morfem ve karakter n-gram seviyesinde) embedding teknikleriyle de deneyler gerçekleştirdik ve morfolojik olarak zengin diller için kelime-altı embedding'lerin sözdizimi ve anlamsal açıdan daha iyi kelime temsili sunduğunu savunuyoruz. Bu amaçla, temel aldığımız LSTM-CRF mimarisinin uzantısı olan bir transfer öğrenme modeli önermekteyiz. Söz konusu model, resmi veriden gürültülü veriye bilgi aktarımı amacıyla aynı anda iki farklı veri kümesi üzerinde eğitilmekte olup; morfem, karakter n-gram ve ortografik embedding'lerden faydalanır. Sonuç olarak, Türkçe gürültülü veri kümesi üzerinde %65.72 ve İngilizce WNUT'17 veri kümesinde %41.97 F1 puanı elde ettik.

Özet (Çeviri)

Named entity recognition (NER) on noisy data, specifically user-generated content (e.g. online reviews, tweets) is a challenging task because of the presence of ill-formed text. In this regard, while studies on morphologically-poor languages such as English has been rapidly advancing in recent years, studies on morphologically-rich languages such as Turkish has fallen behind for noisy data. This is mostly due to Turkish being an agglutinative language, having a rich morphology and also having scarce annotated data. Existing studies on Turkish both for noisy and formal (e.g. news text) data still make use of hand-crafted features and/or external domain-specific resources (e.g. gazetteers). In this thesis, we investigate the effects of neural architectures without the help of any external domain-specific resources and/or manually-constructed features. So that the proposed model can also be used for different morphologically-rich languages and for different domains. Moreover, we also experimented with different word and sub-word level (e.g. morpheme, character or character n-gram level) embedding techniques and we argue that sub-word level embeddings provide better word representations for morphologically-rich languages syntactically and semantically. For this purpose, we propose a transfer learning model that is an extension of a baseline, bidirectional LSTM-CRF architecture. The model is trained on two different datasets simultaneously for the purpose of transfer learning from formal to noisy data and it exploits morpheme-level, character n-gram level and orthographic character-level embeddings as its feature set. Consequently, we have obtained an F1 score of 65.72% on Turkish tweet dataset and 41.97% on English WNUT'17 dataset.

Benzer Tezler

Tez No
590746
Türkçe dizi etiketleme için sinir ağ modelleri
Neural models for Turkish sequence labeling
YASİN EŞREF
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
Tez No
855969
Natural language processing applications for cybersecurity
Siber güvenlik için doğal dil işleme uygulamaları
AHMET ÇAĞRI SARIYILDIZ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ŞAFAK DURUKAN ODABAŞI
Tez No
511546
Türkçe'de varlık ismi tanıma
Named entity recognition in Turkish
ASIM GÜNEŞ
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
540656
Named entity recognition in turkish using deep learning methods and joint learning
Türkçe varlık isimlerinin tanınması için derin öğrenme ve birlikte öğrenme
ARDA AKDEMİR
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
Tez No
846902
Information extraction from radiology reports
Radyoloji raporlarından bilgi çıkarma
ABUBAKAR AHMAD ABDULLAHI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT CAN GANİZ

Geri Dön