Geri Dön

Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon

Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması

  1. Tez No: 694541
  2. Yazar: KEZBAN BAŞIBÜYÜK
  3. Danışmanlar: PROF. DR. ALİ HİKMET DOĞRU, PROF. DR. DENİZ ZEYREK BOZŞAHİN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 170

Özet

Bu tezde, verilen herhangi bir Türkçe metindeki açık söylem bağlaçlarının kullanım ve anlam belirsizliğini çözmek için yöntemler geliştirdik. Bu amaçla, öncelikle Türkçe'deki tüm bağlaç türlerini sözdizimsel ve anlamsal özellikleriyle birlikte içeren kapsamlı bir Türkçe Bağlaç Sözlüğü (TCL) oluşturduk. Bu sözlük, söylem açısından işaretlenmiş çeşitli Türkçe derlemlerindeki söylem bağıntıları kullanılarak otomatik olarak oluşturulmuştur ve Almanca bağlaç sözlüğü olan DiMLex'in formatını kullanmaktadır. Türkçe'de ilgeçler, yana sıralama bağlaçları ve zarflar (tek ya da birden fazla sözcük içeren yapılar) söylem bağlacı rolü üstlenebildiği gibi, ulaçlar da söylem bağlacı görevi yapmaktadır. Tek ya da birden fazla sözcük içeren bağlaç yapıları ve ulaç türündeki bağlaçların kullanım belirsizliğini çözmek için kural tabanlı bir Türkçe Bağlaç Ayırıcı (TCD) geliştirdik. Ardından, bağlaçların hem kullanım belirsizliğini hem de anlam belirsizliğini çözmek için çeşitli makine öğrenmesi modelleri tasarladık. TED-Multilingual Discourse Bank derleminin Türkçe bölümündeki ve Türkçe Söylem Bankası (versiyon 1.1) derlemindeki, insan eliyle hazırlanmış söylem işaretlemeleri ile TCD ve makine öğrenmesi modellerinin sonuçlarını karşılaştırarak bir değerlendirme yaptık. Her iki yaklaşım da oldukça iyi sonuçlar vermekle birlikte, makine öğrenmesi yaklaşımının kural tabanlı yaklaşımdan daha iyi performans gösterdiğini gözlemledik. Bu tez kapsamında TCL ve TCD programları için kullanıcı dostu arayüzler geliştirdik. TCL programı hem Türkçe'deki söylem bağlaçlarını özellikleriyle birlikte listeler hem de çeşitli filtreleme ve analiz yetenekleri sunar. TCD programı ise seçilen bir serbest Türkçe metni arayüzüne yükler ve metindeki bağlaçların söylem ve söylem dışı kullanımlarını işaretler. Ek olarak, seçilen metin dosyası için hazırlanmış bir söylem işaretleme dosyası varsa, program ayrıştırma sonuçlarını otomatik olarak değerlendirir. Bu tez, Türkçe bağlaçların ve ulaçların söylem ve söylem dışı kullanım belirsizliğinin çözümüne önemli katkılar sağlayarak Türkçe söylem işlemlemesine katkı sağlarken, bildiğimiz kadarıyla, özellikle ulaç türündeki bağlaçların kullanım belirsizliğini çözmeye yönelik ilk denemedir. Tez, aynı zamanda Türkçe'deki her türlü söylem bağlacınının anlam belirsizliğini çözmede bir ilktir. Bu bakımdan tezdeki çalışmaların Türkçe söylem işlemleme alanındaki araştırmacılara bir referans noktası sağlayacağı ve yeni araştırma fırsatları yaratacağı öngörülmektedir.

Özet (Çeviri)

In this thesis, we developed methods for disambiguating the discourse usage and sense of connectives in a given free Turkish text. For this purpose, we firstly built a comprehensive Turkish Connective Lexicon (TCL) including all types of connectives in Turkish together with their syntactic and semantic features. This lexicon is built automatically by using the discourse relation annotations in several discourse annotated corpora developed for Turkish and follows the format of the German connective lexicon, DiMLex. As in many other languages, Turkish has lexical connectives (referred to as single and phrasal connectives in this work), and it also includes suffixal connectives. We developed a rule-based Turkish Connective Disambiguator (TCD) in order to solve the usage ambiguity of single, phrasal and suffixal connective types. Then, we designed machine learning models to disambiguate the discourse usage and sense of connectives. We evaluated the TCD and the machine learning models by comparing their results with the human annotations in the Turkish section of the TED-Multilingual Discourse Bank and Turkish Discourse Bank 1.1. We observed that the machine learning approach outperforms the baseline rule-based approach although both approaches yield quite good results. Within the scope of this thesis, we developed user-friendly interfaces for the TCL and TCD programs. The TCL program lists the discourse connectives in Turkish with their features and it presents several filtering and analysis capabilities. The TCD program, on the other hand, loads the selected free Turkish text to its interface and marks the discourse and non-discourse occurrences of connectives in the text. Additionally, if the selected file has a corresponding annotation file, the program automatically evaluates the disambiguation results. This thesis makes important contributions to Turkish discourse parsing by solving the usage ambiguity of the single and phrasal connectives as well as the suffixal connectives, which, to the best of our knowledge, has been attempted for the first time in this thesis. This thesis is also the first attempt to disambiguate the sense of all types of discourse connectives in Turkish. In this respect, it is predicted that the thesis would set baselines for future Turkish connective disambiguation works and pave the road for future researchers in the Turkish discourse parsing field.

Benzer Tezler

  1. Discovering discourse role of converbs in Turkish discourse

    Türkçe söylemde ulaçların söylem rolü

    AHMET FARUK ACAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

  2. Automatic usage disambiguation of the enclitic da in turkish

    Türkçe'deki Enklitik Da'nın Söylem Ve Söylem Dışı Rolünün Otomatik Belirlenmesi

    ELİF EBRU ERSÖYLEYEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

  3. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Tagging and morphological disambiguation of turkish text

    Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi

    İLKER KURUÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    1994

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. KEMAL OFLAZER

  5. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR