Geri Dön

Multilingual identification of verbal multiword expressions using bidirectional long short-term memory based architectures

Çift yönlü uzun-kısa vadeli bellek tabanlı mimariler kullanılarak çok sözcüklü fiil ifadelerinin çok dilli saptanması

  1. Tez No: 603287
  2. Yazar: GÖZDE BERK
  3. Danışmanlar: PROF. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 81

Özet

Çok sözcüklü fiil ifadesi saptama birçok doğal dil işleme çalışmaları için zorlayıcı bir görevdir. Bu çalışmada, stokastik modeller ve IOB etiketleme şemasının varyantları eşliğinde dizi etiketleme yaklaşımı çok sözcüklü fiil ifadesi saptaması için kullanılmaktadır. Bu tez kapsamında, PARSEME ortak çalışmanın ilk bölümü olan birçok dilde çok sözcüklü fiil ifadesi etiketli derlemlerin oluşturulması dahilinde çok sözcüklü fiil ifadesi etiketli Türkçe derlem oluşturulmuştur. Ek olarak, Deep-BGT adında çok dilli bir sistem, PARSEME ortak çalışmanın ikinci bölümü olan dilden bağımsız çok sözcüklü fiil ifadesi saptama sistemlerinin birinci bölümde oluşturulan derlemlerin kullanılarak geliştirilmesi kapsamında geliştirilmiştir. Türkçe derlemi ortak çalışmadaki en büyük derlemlerden biridir. PARSEME ortak çalışma 1.0'da yayınlanmış eğitim ve test derlemleri yeni etiketleme kurallarına göre düzenlenerek PARSEME ortak çalışma 1.1 eğitim ve geliştirme derlemleri olarak güncellenmiştir. Sıfırdan yeni bir test derlemi oluşturulmuştur. Deep-BGT üstte koşullu rastgele alanlar katmanı ile birlikte çift yönlü uzun-kısa vadeli bellek (BiLSTM-CRF) modelini kullanmaktadır. Bildiğimiz kadarıyla, bu çalışma çok sözcüklü fiil ifadesi saptaması için BiLSTM-CRF modelini kullanan ilk çalışmadır. Deep-BGT genel sıralama ölçevine göre açık yarışta ikinci olmuştur. Buna ek olarak, zorlayıcı çakışan çok sözcüklü fiil ifadelerinin üstesinden gelmek için bigappy-unicrossy adında yeni bir etiketleme şeması tanıtılmaktadır. Son olarak, çok sözcüklü fiil ifadesi saptama sistemi, etiketleme şeması, ünite sayısı, BiLSTM katmanı sayısı ve sınıflandırıcıdan oluşan bir üst değişkenler altkümesinin değerlendirilmesiyle geliştirilmiştir. Çok sözcüklü fiil ifadelerinin çok dilli saptanması için BiLSTM tabanlı mimarilerin kapsamlı bir analizi bu doğrultuda sunulmuştur.

Özet (Çeviri)

Verbal multiword expression (VMWE) identification is a challenging task for many natural language processing studies. In this study, sequence tagging approach accompanied with stochastic models and variants of IOB tagging scheme is used for VMWE identification. In the scope of this thesis, a VMWE annotated Turkish corpus is constructed as the first part of the PARSEME shared task 1.1 which is constructing VMWE annotated corpora in many languages. Additionally, a multilingual system called Deep-BGT is developed as the second part of the shared task which is developing language-independent VMWE identification systems using the corpora constructed in the first part. The Turkish corpus is one of the biggest corpora in the shared task. The training and test corpora that were published in the PARSEME shared task 1.0 are updated as the PARSEME shared task 1.1 training and development corpora according to the new guidelines. A new test corpus is constructed from scratch. Deep-BGT uses the bidirectional Long Short-Term Memory model with a Conditional Random Field layer on top (BiLSTM-CRF). To the best of our knowledge, this study is the first one that employs the BiLSTM-CRF model for VMWE identification. Deep-BGT was ranked the second in the open track in terms of the general ranking metric. Moreover, a novel tagging scheme called bigappy-unicrossy is introduced to rise to the challenge of overlapping VMWEs. Finally, the VMWE identification system is advanced by evaluating a subset of hyperparameters which consists of tagging scheme, number of units, number of BiLSTM layers, and classifier. A comprehensive analysis of BiLSTM based architectures for multilingual identification of VMWEs is presented accordingly.

Benzer Tezler

  1. Identification of verbal multiword expressions using deep learning architectures and representation learning methods

    Çok sözcüklü fiil ifadelerinin derin öğrenme mimarileri ve gösterim öğrenme metotları ile saptanması

    BERNA ERDEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  2. Identification of discourse relations in Turkish discourse bank

    Türkçe söylem bankasında söylem bağıntılarının belirlenmesi

    FERHAT KUTLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

    DR. MURATHAN KURFALI

  3. Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi

    Başlık çevirisi yok

    AYŞENUR GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Çok dilli bireylerde dil kimlik ilişkisi ve iletişime etkisi (Elazığ örneği)

    The relationship between individual identity and language in multilingual communication effect: Example Elazıg

    ABDULBAKİ ERCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    İletişim BilimleriFırat Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    YRD. DOÇ. DR. TAMER KAVURAN

  5. Contrastive analysis monolingual and multilingual vontexts: A study of error samples in the written production of Turkish and Kosovan learners of English

    Tekdili ve çokdili çevresel şartlarda karşılaştırmalı inceleme: Türk ve Kosovalı İngilizce öğrenenlerin yazılı ürünlerinde hata örneklerinin incelenmesi

    MİRANDA KARJAGDİU

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    İngiliz Dili ve Edebiyatıİstanbul Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ALEV BULUT