Geri Dön

Identification of verbal multiword expressions using deep learning architectures and representation learning methods

Çok sözcüklü fiil ifadelerinin derin öğrenme mimarileri ve gösterim öğrenme metotları ile saptanması

  1. Tez No: 603286
  2. Yazar: BERNA ERDEN
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Çok sözcüklü ifadelerini (ÇSİ) anlamak Doğal Dil İşleme'de ayrıştırma, makine çevirisi gibi uygulamalar için önemlidir. ÇSİ'leri saptama metinde otomatik olarak ÇSİ'leri tanımlama ve sınıflandırma işlemidir. ÇSİ'ler temel karakterlerinden dolayı zorlayıcıdır. PARSEME ağının çok sözcüklü fiil ifadeleri (ÇSFİ) üzerine yaptığı güncel çalışmaları takip ederek, ÇSFİ saptanması üzerine odaklandık. PARSEME Türkçe eğitim ve test derlemi 1.0'ı (2017), PARSEME Türkçe eğitim ve geliştirme derlemi 1.1 (2018) olarak güncelledik. PARSEME Türkçe test derlemi 1.1'i oluşturduk. Ek olarak, çift yönlü uzun kısa-vadeli bellek ve koşullu rastgele alanlar ağını ve gappy 1-level etiketleme şeması ile kullanan çok dilli ÇSFİ'leri saptayan bir sistem geliştirdik. Çalışmamızı ilerletmek için, veri gösterim formatının ÇSFİ saptama işlemi üzerindeki etkisini inceledik. Bigappy-unicrossy etiketleme formatını dizi etiketleme işlemlerinde çakışmaları tanımlamak için geliştirdik. Sonuçlarımız, veri gösterim formatının süreksiz ÇSFİ'leri tanımada önemli olduğunu gösterdi. Ayrıca, değişkenlik problemi için sinir ağları ile otomatik olarak öğrenilmiş gömmeleri kullanarak sistemimizi zenginleştirdik. Karakter seviyesinde evrişimli sinir ağlarını ve karakter seviyesinde çift yönlü uzun kısa-vadeli sinir ağlarını karşılaştırdık. İki farklı ek bilgisi gösterim şeklini çift yönlü uzun kısa-vadeli sinir ağları kullanarak inceledik. Sonuçlarımız karakter ve ek bilgisi gömmelerinin performansı genel olarak geliştirdiğini gösteriyor. Gösterim öğrenme metotu seçimi dile bağlıdır.

Özet (Çeviri)

Understanding multiword expressions (MWEs) plays an instrumental role in Natural Language Processing applications such as parsing and machine translation. MWE identification is a task that automatically detects and classifies MWEs in running text. As with the basic characteristics of MWEs, significant challenges exist in MWE identification. Considering the recent attempts of the PARSEME network on verbal multiword expressions (VMWEs), we focus on the identification of VMWEs. We update the PARSEME Turkish train and test corpora 1.0 (2017) as the PARSEME Turkish train and development corpora 1.1 (2018). We construct the PARSEME Turkish test corpus 1.1. In addition, we develop a multilingual VMWE identification system based on bidirectional long short term memory with conditional random fields networks accompanied with the gappy 1-level tagging scheme. To extend our study, we examine the impact of data representation format on the VMWE identification task. We introduce the bigappy-unicrossy tagging scheme to recognize overlaps in sequence labelling tasks. Our results show that data representation format is important to identify discontinuous VMWEs. Moreover, we enhance our neural VMWE identification model with automatically learned embeddings by neural networks to respond to the variability challenge. We compare character-level convolutional neural networks and character-level bidirectional long short-term (BiLSTM) networks. We analyze two different schemes to represent morphological information using BiLSTM networks. Our results demonstrate that character embeddings and morphological embeddings improve performance in general. The choice of representation learning method depends on language.

Benzer Tezler

  1. Multilingual identification of verbal multiword expressions using bidirectional long short-term memory based architectures

    Çift yönlü uzun-kısa vadeli bellek tabanlı mimariler kullanılarak çok sözcüklü fiil ifadelerinin çok dilli saptanması

    GÖZDE BERK

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Konuşma sesi bozukluğu olan okul öncesi çocuklarda sözel çalışma belleği, hızlı isimlendirme ve sesbilgisel farkındalık becerilerinin incelenmesi

    Investigation of verbal working memory, rapid naming and phonological awareness skills in preschool children with speech sound disorder

    NESRİN KURTARAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimÜsküdar Üniversitesi

    Dil ve Konuşma Terapisi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ŞAZİYE SEÇKİN YILMAZ

  3. Authorship recognition in online social platforms

    Çevrimiçi sosyal platformlarda yazar tanıma

    RIDVAN SALİH KUZU

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Sistem ve Kontrol Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALBERT ALİ SALAH

  4. Evaluation of the victim-offender mediation process from the perspective of mediators

    Mağdur fail arabuluculuğu sürecinin, uzlaştırmacıların perspektifinden araştırma yoluyla değerlendirilmesi

    HAYRİYE TÜRNÜKLÜ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    HukukDokuz Eylül Üniversitesi

    İşletme (İngilizce) Ana Bilim Dalı

    DOÇ. DR. TARKAN KAÇMAZ

  5. Sağlık çalışanlarına yönelik şiddetin değerlendirilmesi

    Assessment of violence towards health care workers

    ŞENOL DEMİRCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Sağlık Kurumları YönetimiHacettepe Üniversitesi

    Sağlık Yönetimi Ana Bilim Dalı

    DOÇ. DR. ÖZGÜR UĞURLUOĞLU