Identification of verbal multiword expressions using deep learning architectures and representation learning methods
Çok sözcüklü fiil ifadelerinin derin öğrenme mimarileri ve gösterim öğrenme metotları ile saptanması
- Tez No: 603286
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Çok sözcüklü ifadelerini (ÇSİ) anlamak Doğal Dil İşleme'de ayrıştırma, makine çevirisi gibi uygulamalar için önemlidir. ÇSİ'leri saptama metinde otomatik olarak ÇSİ'leri tanımlama ve sınıflandırma işlemidir. ÇSİ'ler temel karakterlerinden dolayı zorlayıcıdır. PARSEME ağının çok sözcüklü fiil ifadeleri (ÇSFİ) üzerine yaptığı güncel çalışmaları takip ederek, ÇSFİ saptanması üzerine odaklandık. PARSEME Türkçe eğitim ve test derlemi 1.0'ı (2017), PARSEME Türkçe eğitim ve geliştirme derlemi 1.1 (2018) olarak güncelledik. PARSEME Türkçe test derlemi 1.1'i oluşturduk. Ek olarak, çift yönlü uzun kısa-vadeli bellek ve koşullu rastgele alanlar ağını ve gappy 1-level etiketleme şeması ile kullanan çok dilli ÇSFİ'leri saptayan bir sistem geliştirdik. Çalışmamızı ilerletmek için, veri gösterim formatının ÇSFİ saptama işlemi üzerindeki etkisini inceledik. Bigappy-unicrossy etiketleme formatını dizi etiketleme işlemlerinde çakışmaları tanımlamak için geliştirdik. Sonuçlarımız, veri gösterim formatının süreksiz ÇSFİ'leri tanımada önemli olduğunu gösterdi. Ayrıca, değişkenlik problemi için sinir ağları ile otomatik olarak öğrenilmiş gömmeleri kullanarak sistemimizi zenginleştirdik. Karakter seviyesinde evrişimli sinir ağlarını ve karakter seviyesinde çift yönlü uzun kısa-vadeli sinir ağlarını karşılaştırdık. İki farklı ek bilgisi gösterim şeklini çift yönlü uzun kısa-vadeli sinir ağları kullanarak inceledik. Sonuçlarımız karakter ve ek bilgisi gömmelerinin performansı genel olarak geliştirdiğini gösteriyor. Gösterim öğrenme metotu seçimi dile bağlıdır.
Özet (Çeviri)
Understanding multiword expressions (MWEs) plays an instrumental role in Natural Language Processing applications such as parsing and machine translation. MWE identification is a task that automatically detects and classifies MWEs in running text. As with the basic characteristics of MWEs, significant challenges exist in MWE identification. Considering the recent attempts of the PARSEME network on verbal multiword expressions (VMWEs), we focus on the identification of VMWEs. We update the PARSEME Turkish train and test corpora 1.0 (2017) as the PARSEME Turkish train and development corpora 1.1 (2018). We construct the PARSEME Turkish test corpus 1.1. In addition, we develop a multilingual VMWE identification system based on bidirectional long short term memory with conditional random fields networks accompanied with the gappy 1-level tagging scheme. To extend our study, we examine the impact of data representation format on the VMWE identification task. We introduce the bigappy-unicrossy tagging scheme to recognize overlaps in sequence labelling tasks. Our results show that data representation format is important to identify discontinuous VMWEs. Moreover, we enhance our neural VMWE identification model with automatically learned embeddings by neural networks to respond to the variability challenge. We compare character-level convolutional neural networks and character-level bidirectional long short-term (BiLSTM) networks. We analyze two different schemes to represent morphological information using BiLSTM networks. Our results demonstrate that character embeddings and morphological embeddings improve performance in general. The choice of representation learning method depends on language.
Benzer Tezler
- Multilingual identification of verbal multiword expressions using bidirectional long short-term memory based architectures
Çift yönlü uzun-kısa vadeli bellek tabanlı mimariler kullanılarak çok sözcüklü fiil ifadelerinin çok dilli saptanması
GÖZDE BERK
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Konuşma sesi bozukluğu olan okul öncesi çocuklarda sözel çalışma belleği, hızlı isimlendirme ve sesbilgisel farkındalık becerilerinin incelenmesi
Investigation of verbal working memory, rapid naming and phonological awareness skills in preschool children with speech sound disorder
NESRİN KURTARAN
Yüksek Lisans
Türkçe
2021
Eğitim ve ÖğretimÜsküdar ÜniversitesiDil ve Konuşma Terapisi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞAZİYE SEÇKİN YILMAZ
- Authorship recognition in online social platforms
Çevrimiçi sosyal platformlarda yazar tanıma
RIDVAN SALİH KUZU
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiSistem ve Kontrol Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALBERT ALİ SALAH
- Evaluation of the victim-offender mediation process from the perspective of mediators
Mağdur fail arabuluculuğu sürecinin, uzlaştırmacıların perspektifinden araştırma yoluyla değerlendirilmesi
HAYRİYE TÜRNÜKLÜ
Yüksek Lisans
İngilizce
2019
HukukDokuz Eylül Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
DOÇ. DR. TARKAN KAÇMAZ
- Sağlık çalışanlarına yönelik şiddetin değerlendirilmesi
Assessment of violence towards health care workers
ŞENOL DEMİRCİ
Yüksek Lisans
Türkçe
2018
Sağlık Kurumları YönetimiHacettepe ÜniversitesiSağlık Yönetimi Ana Bilim Dalı
DOÇ. DR. ÖZGÜR UĞURLUOĞLU