Geri Dön

Deep neural networks for named entity recognition on social media

Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları

  1. Tez No: 543987
  2. Yazar: EMRE KAĞAN AKKAYA
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 127

Özet

Gürültülü veri, özellikle kullanıcı tarafından oluşturulan içerik (örn. çevrimiçi yorum, tweet), üzerinde varlık ismi tanıma metnin bozuk yapısından dolayı zorlu bir görevdir. Bu kapsamda, İngilizce gibi göreli morfolojik olarak fakir diller üzerindeki araştırmalar son yıllarda hızla ilerlerken, Türkçe gibi morfolojik olarak zengin dillerde gürültülü veri üzerindeki araştırmalar geri kalmıştır. Bu çoğunlukla Türkçe dilinin morfolojik olarak zengin ve sondan eklemeli olması ile az miktarda etiketli veriye sahip olması nedeniyledir. Türkçe'de varolan araştırmalar hem gürültü hem de resmi (örn. haber metni) veri üzerinde çoğunlukla hala el yapımı öznitelikler ve/veya alana-özgü harici kaynaklardan (isim listeleri) faydalanmaktadır. Bu tezdeyse, el yapımı öznitelikler ve/veya alana-özgü harici kaynaklar kullanmayan yapay sinir ağlarının etkileri incelenmektedir. Öyle ki, önerilen model farklı morfolojik olarak dillerde ve farklı alanlarda da kullanılabilsin. Bununla birlikte, farklı kelime ve kelime-altı (örn. morfem ve karakter n-gram seviyesinde) embedding teknikleriyle de deneyler gerçekleştirdik ve morfolojik olarak zengin diller için kelime-altı embedding'lerin sözdizimi ve anlamsal açıdan daha iyi kelime temsili sunduğunu savunuyoruz. Bu amaçla, temel aldığımız LSTM-CRF mimarisinin uzantısı olan bir transfer öğrenme modeli önermekteyiz. Söz konusu model, resmi veriden gürültülü veriye bilgi aktarımı amacıyla aynı anda iki farklı veri kümesi üzerinde eğitilmekte olup; morfem, karakter n-gram ve ortografik embedding'lerden faydalanır. Sonuç olarak, Türkçe gürültülü veri kümesi üzerinde %65.72 ve İngilizce WNUT'17 veri kümesinde %41.97 F1 puanı elde ettik.

Özet (Çeviri)

Named entity recognition (NER) on noisy data, specifically user-generated content (e.g. online reviews, tweets) is a challenging task because of the presence of ill-formed text. In this regard, while studies on morphologically-poor languages such as English has been rapidly advancing in recent years, studies on morphologically-rich languages such as Turkish has fallen behind for noisy data. This is mostly due to Turkish being an agglutinative language, having a rich morphology and also having scarce annotated data. Existing studies on Turkish both for noisy and formal (e.g. news text) data still make use of hand-crafted features and/or external domain-specific resources (e.g. gazetteers). In this thesis, we investigate the effects of neural architectures without the help of any external domain-specific resources and/or manually-constructed features. So that the proposed model can also be used for different morphologically-rich languages and for different domains. Moreover, we also experimented with different word and sub-word level (e.g. morpheme, character or character n-gram level) embedding techniques and we argue that sub-word level embeddings provide better word representations for morphologically-rich languages syntactically and semantically. For this purpose, we propose a transfer learning model that is an extension of a baseline, bidirectional LSTM-CRF architecture. The model is trained on two different datasets simultaneously for the purpose of transfer learning from formal to noisy data and it exploits morpheme-level, character n-gram level and orthographic character-level embeddings as its feature set. Consequently, we have obtained an F1 score of 65.72% on Turkish tweet dataset and 41.97% on English WNUT'17 dataset.

Benzer Tezler

  1. Türkçe dizi etiketleme için sinir ağ modelleri

    Neural models for Turkish sequence labeling

    YASİN EŞREF

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  2. Natural language processing applications for cybersecurity

    Siber güvenlik için doğal dil işleme uygulamaları

    AHMET ÇAĞRI SARIYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ŞAFAK DURUKAN ODABAŞI

  3. Türkçe'de varlık ismi tanıma

    Named entity recognition in Turkish

    ASIM GÜNEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Named entity recognition in turkish using deep learning methods and joint learning

    Türkçe varlık isimlerinin tanınması için derin öğrenme ve birlikte öğrenme

    ARDA AKDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. Information extraction from radiology reports

    Radyoloji raporlarından bilgi çıkarma

    ABUBAKAR AHMAD ABDULLAHI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT CAN GANİZ