Geri Dön

Neural semanti̇c parsing, annotation and evaluation for Turkish

Türkçe için nöral semantik ayrıştırma, etiketleme ve değerlendirme

  1. Tez No: 798236
  2. Yazar: NECVA BÖLÜCÜ
  3. Danışmanlar: DOÇ. DR. HARUN ARTUNER, DOÇ. DR. BURCU CAN BUĞLALILAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 214

Özet

Semantik gösterim, bir doğal dil işleme uygulamasında kullanılmak üzere verilen bir metnin makine tarafından işlenebilecek şekilde anlamını ifade etmek için bir yöntem sağlar. Hem bilişsel hem de dilsel temellere dayanarak tasarlanan Universal Conceptual Cognitive Annotation (UCCA) bu semantik gösterimlerden sadece birisidir. UCCA'da bir metnin anlamı döngüsüz çizge ile ifade edilmektedir ve çizgede düğümler terminal veya terminal olmayan düğümlere ve kenarlar çocuk düğümün çizgedeki rolüne karşılık gelmektedir. Terminal düğüm metindeki sözcük yada birden çok sözcüğe karşılık gelirken, terminal olmayan düğüm semantik yada bilişsel değerlendirmelere göre tek bir birim olarak görülen birkaç sözcüğe karşılık gelmektedir. Bu tezin, özellikle Türkçe UCCA gösterimi altında 3 odak noktası bulunmaktadır: semantik ayrıştırma, veri etiketleme ve UCCA gösteriminin diğer NLP problemlerinde harici olarak kullanıp değerlendirilmesi. Tezin ilk bölümünde, UCCA gösterimi için yaklaşımları daha iyi analiz edebilmek için, denetimli derin öğrenme tabanlı ayrıştırma modellerinden geçiş ve çizge tabanlı yaklaşımlar açıklanmaktadır. Ayrıca, harici kaynak olarak önceden eğitilmiş dil modellerinden yararlanan denetimsiz bir derin öğrenme modeli de tanıtılmaktadır. Tezin ikinci bölümünde, yarı-özdevinimli olarak etiketlenmiş Türkçe UCCA veri kümesi tanıtılmaktadır. Veri etiketleme esnasında çizge modelinden faydalanılmıştır. Son olarak, tez UCCA gösteriminin harici olarak değerlendirilmesi amacıyla semantik metinsel benzerlik, metin sınıflandırma ve soru cevaplama dahil olmak üzere diğer doğal dil işleme problemlerinde kullanılmış ve sonuçlar tartışılmıştır. Burada temel soru, UCCA gösteriminin semantik bilgi için kullanılmasının doğal dil işleme uygulamalarında performası iyileştirip iyileştiremeyeceği yönündedir. Sonuç olarak, UCCA semantik gösteriminin doğal dil işleme uygulamalarının, özellikle daha fazla semantik bilgi gerektiren uygulamalarının performansını iyileştirdiği gözlenmiştir.

Özet (Çeviri)

Semantic representation is a way of expressing the meaning of a text that can be processed by a machine to serve a particular natural language processing (NLP) task. Universal Conceptual Cognitive Annotation (UCCA) is one such semantic representation form that is both cognitively and linguistically inspired. UCCA represents the meaning of a text with a directed acyclic graph (DAG) whose nodes can be either terminal or non-terminal nodes, where terminal nodes correspond to tokens and multi-tokens in the text, non-terminal nodes comprise several tokens that are jointly viewed as a single entity according to some semantic or cognitive consideration, and edges indicate the role of a child in a relation. In this thesis, there are three research paths within UCCA representation especially for Turkish language: semantic parsing, data annotation, and evaluation of UCCA representation as extrinsic evaluation in other NLP problems. In the first part of the thesis, we present supervised deep learning-based parsing models, which are transition and graph-based approaches, to better analyze the approaches for UCCA representation. We also present an unsupervised deep learning model that leverages pre-trained language models (PLM) as an external knowledge source. In the second part of the thesis, we present a Turkish UCCA-annotated dataset, that is built using the proposed graph-based semantic parser in a semi-automatic pipeline. Finally, we investigate using UCCA for other NLP tasks including Semantic Textual Similarity (STS), text classification, and question answering (QA) as extrinsic evaluation of UCCA representation. It is therefore reasonable to ask whether we can improve the performance of NLP tasks by using semantic information in the form of UCCA representation. In conclusion, the results show that semantic information in the form of UCCA representation improves performance in NLP tasks, especially in tasks that require more semantic information, such as QA.

Benzer Tezler

  1. Abstract meaning representation of Turkish

    Türkçenin soyut anlam temsilleri

    KADRİYE ELİF ORAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  2. Building of Turkish propbank and semantic role labeling of Turkish

    Türkçe önerme veri tabanının oluşturulması ve Türkçenin anlamsal görev çözümlemesi

    GÖZDE GÜL ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  3. Face recognition and person re-identification for person recognition

    Kişi tanıma için yüz tanıma ve kişinin yeniden tanınması

    EMRAH BAŞARAN

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

    PROF. DR. MUHİTTİN GÖKMEN

  4. Neural dependency parsing for Turkish

    Türkçe için nöral bağlılık ayrıştırma

    SALİH TUÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  5. Turkish medical text parsing and classification

    Türkçe medikal metin ayrıştırma ve sınıflandırma

    AHMET BARDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilim ve TeknolojiGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK