Geri Dön

Abstract meaning representation of Turkish

Türkçenin soyut anlam temsilleri

  1. Tez No: 774853
  2. Yazar: KADRİYE ELİF ORAL
  3. Danışmanlar: DOÇ. DR. GÜLŞEN ERYİĞİT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 148

Özet

Bu tezde, Türkçe Soyut Anlam Temsillerine (SAT) odaklanılmıştır. SAT, cümlelerin tüm anlamsal yönlerini bir araya getirerek cümle düzeyinde anlam temsilleri oluşturan bir anlamsal temsil formalizmidir. Bu temsillerin genel amacı, sözdizimsel özelliklerden soyutlanan temsiller yaratmak, bu sayede aynı anlama sahip cümleleri, tek bir anlamsal temsilde toplamamaktır. Ayrıca kolayca okunabilmesi, SAT temsillerini bu alanda araştırma yapmak isteyen araştırmacılar için oldukça uygun bir temsil haline getirmektedir. SAT ilk olarak ̇Ingilizce için tasarlanmıştır, ancak dillere özgü yapıların çözümlenmesi ile diğer dillere uyarlanması mümkündür. Bu görevi gerçekleştirmek için dile özgü açıklama kurallarının tanımlandığı bir SAT kılavuzunun hazırlanması zorunludur. Bu tezde, Türkçe SAT açıklama kılavuzu hazırlanarak Türkçe SAT gösterimleri sunulmaktadır. Türkçenin morfolojik açıdan zengin, düşmeye yatkın ve sondan eklemeli bir dil olması, temsillerinde ̇Ingilizce SAT'dan uzaklaşmasına neden olmaktadır. Bu göz önüne alınarak, Türkçe kılavuzun hazırlanması sırasında Türkçe olguları titizlikle incelenmiş ve farklı noktalar için SAT temsilini tanımlamaya yönelik çözümler sunulmuştur. Bunu yanında, SAT açıklamalı cümlelerin sunulduğu Türkçe için ilk SAT derlemi de sunulmuştur. Malesef, bu tür kaynakları oluşturmak, dil eğitimi ve büyük miktarda zaman gerektirdiğinden kolay bir iş değildir ve ayrıca sistematik bir açıklama yaklaşımı gerektirir. Bu çalışmada, model-açıklama-model-açıklama stratejisi işaretleme sürecinde kullanılmıştır, başka bir deyişle tüm olguları tek seferde etiketlemek yerine aşamalı bir yol izlenmiştir. ̇Ilk aşamada, veri odaklı yaklaşımı izlenmiş ve üzerinde çalışılan veride bulunan Türkçeye özgü yapılar üzerinde durulmuştur. ̇Ikinci aşamada ise, tüm dilsel olguları kapsayacak şekilde Türkçe sözlük, dilbilgisi kitapları gibi bilgi tabanlarından yararlanılmıştır. Derlem oluşturma sürecinde, sıfırdan cümlelere işaretlemek yerine, bir ayrıştırıcının önce cümleler üzerinde çalıştığı ve SAT grafiklerinin çıktısını aldığı, ardından işaretleyicilerin (iki ana dili Türkçe olan işaretleyici) bu çıktıları düzelttiği/yeniden işaretlediği yarı otomatik bir işaretleme yaklaşımı benimsenmiştir. Literatürde kullanılan yöntemlerdenilhamalınarakkuraltabanlıbirayrıştırıcıgeliştirilmiştir. Bukural tabanlı ayrıştırıcı geçişli ayrıştıcılara çok benzese de, geçiş aksiyonları bir kahin tarafından değil, kural listesi tarafından yönetilmektedir. Buradaki temel amaç mevcut kaynakları kullanan denetimsiz bir ayrıştırıcı geliştirtir ve ayrıştırıcı bu doğrultuda geliştirilmiştir. Önerilen çözümler ve kural tabanlı ayrıştırıcı anlamsal eşleşme puanı (Smatch) ile değerlendirilmektedir. Bu skorlar, derlemin kalitesini ve ayrıştırıcı doğruluğunu gösterir. ̇Işaretleyiciler arasındaki açıklamalı anlaşma 0.89 Smatch skorudur. Ek olarak, kural tabanlı ayrıştırıcı, Türk SAT ayrıştırma görevi için güçlü bir temel olan 0.60 Smatch skoruna ulaşmıştır.Bu tezin son kısmı, veriye dayalı bir SAT ayrıştırıcısının geliştirilmesine odaklanmak- tadır. Veriye dayalı ayrıştırıcı, her biri farklı işlevselliğe sahip birkaç sınıflandırıcıdan oluşan ardışık yazılım zinciri içeren iki adım olarak biçimlendirilmiştir. Bu ayrıştırıcının ilk adımı, SAT grafiklerinde kullanılacak kavramları belirlemektir, bu kavramların bulunması için dokuz sınıflandırıcı eğitilmiştir. Ek olarak, önceden tanımlanmış kavram temsillerine sahip biçimbirimleri kapsayacak şekilde bir işlem sonrası adımı eklenmiştir. ̇Ikinci adımda ise, ilk adımda tanımlanan tüm kavramların birbirine bağlanmasıyla elde edilen tam bağlantılı grafikten minimum yayılma grafiği çıkararak SAT grafiği oluşturulmaya çalışılmıştır. Bu çalışmada sunulan veriye dayalı ayrıştırma sisteminde, eğitim verilerinin hazırlandığı ön hizalama aşamasını gerekmektedir. Bu tezde, morfolojik olarak zengin ve sözcük düşmesi içeren diller için bir hizalama sunulmaktadır. Bu hizalama stratejisi, önce somut, sonra da soyut ve morfolojiden türetilen kavramların sırasıyla benzerlik ve ağaç geçişi kullanılarak hizalandığı bir hizalama algoritması önerir. Önerilen hizalama algoritması 0.87 F1 skoru elde etmekte, literatürdeki hizalayıcılardan yüksek bir farkla daha iyi performans gösterip76%'yavarannispihataazalmasısağlamaktadır.Sonolarak,butezdetanıtılan ayrıştırıcılar SAT külliyatının Küçük Prens cümleleri üzerinde değerlendirilmektedir, ne yazık ki bu test kümesinin altın etiketleri mevcut değildir. Rol etiketleri dışındaki özellikleri çıkarmak için harici DD ̇I araçları kullanılır. Rol etiketleyici için ise BERT tabanlı uçtan uca anlamsal görev çözümletici eğitilmiştir. Bu çözümleyici 0.70 F1 puanları elde etmekte ve çift yönlü uzun-kısa süreli bellek kullanan eşdeğer sinirsel anlamsal görev çözümleticide daha iyi performans göstermiştir.. Son olarak, araştırmacıları Türkçe SAT üzerinde çalışma konusunda desteklemek için Türkçe SAT kılavuzunu, Turkçe SAT külliyatını ve ayrıştırıcıyı GitHub'da paylaşıyoruz.

Özet (Çeviri)

In this thesis, we focus on the Abstract Meaning Representation (AMR) for Turkish. The AMR is a sentence-level representation that summarises all semantic aspects of sentences. Its goal is to create representations that abstract from syntactic features. This is an attempt to group sentences with the same meaning in a semantic representation, regardless of the syntactic features of the sentences. It is also easily readable by humans, which is very convenient for researchers who want to conduct research in this area. AMR is designed for the English language, but can be adapted to adapt to other languages by taking into account language-specific issues. To accomplish this task, it is mandatory to create an AMR guideline that defines language-specific annotation rules. In this thesis, we present Turkish AMR representations by creating an AMR annotation guideline for Turkish. Turkish is a morphologically rich, pro-drop and agglutinative language, which causes it to deviate from English AMR in its representations. In creating the Turkish guideline, we meticulously examine Turkish phenomena and propose solutions to define AMR representations for these deviant points. Besides, we present the first AMR corpus for Turkish that contains 700 AMR annotated sentences. Unfortunately, the creation of such resources is not an easy task, as it requires linguistic training and a large amount of time, and also requires a systematic annotation strategy. We adapt the model-annotate-model-annotate strategy to our annotation task, i.e., instead of dealing with all phenomena at once, we follow a stepwise path. First, we follow a data-driven approach and handle Turkish specific structures that are present in the data. In the second iteration, we use knowledge bases such as Turkish dictionaries and grammar books to cover all linguistic phenomena. This strategy allows us to build a corpus simultaneously. Instead of annotating the sentences from scratch, we use a semi-automatic annotation approach where a parser first processes the sentences and outputs the AMR graphs, which are then corrected/re-annotated by annotators (two native speakers). We implement a rule-based parser by inspiring the methods used in the literature. Our rule-based parser is very similar to the transition parsers, but its actions are driven by the rule list rather than an oracle. We design this parser in this way because our goal is to develop an unsupervised parser that utilizes the available sources. We evaluate our proposed solutions and the rule-based parser using the semantic match score (Smatch). This score shows the quality of our corpus and the accuracy of our parser. The inter-annotated agreement between our annotators is 0.89 Smatch score, the rule-based parser achieves a Smatch score of 0.60, which is a strong baseline for the Turkish AMR parsing task. The final part of this paper deals with the development of a data-driven AMR parser. We formalize our parser as two steps containing a pipeline of multiple classifiers, each with different functionality. The first step of the data-driven parser is to identify concepts to be used in the AMR graphs. Nine separate classifiers are trained for this task. In addition, we add a post-processing step to capture the morphemes with predefined concept representations. In the second step, we attempt to build the AMR graph by extracting the minimum spanning graph from the fully connected graph obtained by connecting all the concepts identified in the first step. Our data-driven parsing system requires a prior alignment phase in which the training data is prepared. We present an aligner for morphologically rich and pro-drop languages. Our aligner strategy proposes an alignment algorithm in which first the concrete concept, then the abstract concept, and the morphology-derived concept are aligned using similarity and tree traversal, respectively. The proposed alignment algorithm achieves 0.87 F1 scores and outperforms aligners in the literature by a high margin, providing a relative error reduction of up to 76%. We evaluate the parsers introduced in this study on Little Prince sentences from the AMR corpus, whose gold tags are unfortunately not available. The external NLP tools are used for feature extraction, except for role labels. We develop a BERT -based end-to-end semantic role labeler that achieves an F1 score of 0.70 and outperforms the equivalent neural SRL system that employs bi-directional long-short-term- memory. Finally, we provide the Turkish AMR guideline, the Turkish AMR corpus, and the Turkish aligner on GitHub to support researchers explore Turkish AMR.

Benzer Tezler

  1. Design and implementation of a system for mapping text meaning representations to F-structures of Turkish

    Metin anlamsal gösterimlerinin türkçe cümle yapılarına dönüştüren bir sistemin tasarımı ve uygulaması

    SELMAN MURAT TEMİZSOY

    Yüksek Lisans

    İngilizce

    İngilizce

    1997

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İLYAS ÇİÇEKLİ

  2. Sinema ve ideoloji 12 Eylül filimlerinin toplumsal çözümlemesi

    Başlık çevirisi yok

    HAKAN ERKILIÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Sahne ve Görüntü SanatlarıAnadolu Üniversitesi

    Sahne ve Görüntü Sanatları Ana Bilim Dalı

    DOÇ. DR. GÜLSEREN GÜÇHAN

  3. Televizyonlarda yayınlanan kozmetik reklamlarında kadın temsili

    Representation of women in cosmetics advertisements broadcasted on television

    NİDA ŞAROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    ReklamcılıkSelçuk Üniversitesi

    Halkla İlişkiler ve Tanıtım Ana Bilim Dalı

    PROF. DR. MEHMET NEJAT ÖZÜPEK

  4. Çocuk koruma merkezlerinin mekânsal tasarım düzeninin kullanıcı algısı ile değerlendirilmesi: Türk Kızılay Bağcılar Çocuk Koruma Merkezi örneği

    The evaluation of the spatial design order of child protection centers with user perception: The case of Turkish Kizilay Bagcilar Child Protection Center

    BÜŞRA GİZEM YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Mimarlıkİstanbul Teknik Üniversitesi

    Kentsel Tasarım Ana Bilim Dalı

    PROF. DR. HATİCE AYATAÇ

  5. Production of meaning of place through cultural practices: The case of Van

    Kültürel pratikler aracılığıyla yerin anlamının üretimi: Van örneği

    SULTAN SONER

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Şehircilik ve Bölge PlanlamaOrta Doğu Teknik Üniversitesi

    Kentsel Politika Planlaması ve Yerel Yönetimler Ana Bilim Dalı

    DOÇ.DR. TARIK ŞENGÜL