Automatic disambiguation of turkish discourse connectives based on a Turkish connective lexicon
Türkçe söylem bağlaçlarının Türkçe bağlaç sözlüğüne dayalı olarak ayrıştırılması
- Tez No: 694541
- Danışmanlar: PROF. DR. ALİ HİKMET DOĞRU, PROF. DR. DENİZ ZEYREK BOZŞAHİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 170
Özet
Bu tezde, verilen herhangi bir Türkçe metindeki açık söylem bağlaçlarının kullanım ve anlam belirsizliğini çözmek için yöntemler geliştirdik. Bu amaçla, öncelikle Türkçe'deki tüm bağlaç türlerini sözdizimsel ve anlamsal özellikleriyle birlikte içeren kapsamlı bir Türkçe Bağlaç Sözlüğü (TCL) oluşturduk. Bu sözlük, söylem açısından işaretlenmiş çeşitli Türkçe derlemlerindeki söylem bağıntıları kullanılarak otomatik olarak oluşturulmuştur ve Almanca bağlaç sözlüğü olan DiMLex'in formatını kullanmaktadır. Türkçe'de ilgeçler, yana sıralama bağlaçları ve zarflar (tek ya da birden fazla sözcük içeren yapılar) söylem bağlacı rolü üstlenebildiği gibi, ulaçlar da söylem bağlacı görevi yapmaktadır. Tek ya da birden fazla sözcük içeren bağlaç yapıları ve ulaç türündeki bağlaçların kullanım belirsizliğini çözmek için kural tabanlı bir Türkçe Bağlaç Ayırıcı (TCD) geliştirdik. Ardından, bağlaçların hem kullanım belirsizliğini hem de anlam belirsizliğini çözmek için çeşitli makine öğrenmesi modelleri tasarladık. TED-Multilingual Discourse Bank derleminin Türkçe bölümündeki ve Türkçe Söylem Bankası (versiyon 1.1) derlemindeki, insan eliyle hazırlanmış söylem işaretlemeleri ile TCD ve makine öğrenmesi modellerinin sonuçlarını karşılaştırarak bir değerlendirme yaptık. Her iki yaklaşım da oldukça iyi sonuçlar vermekle birlikte, makine öğrenmesi yaklaşımının kural tabanlı yaklaşımdan daha iyi performans gösterdiğini gözlemledik. Bu tez kapsamında TCL ve TCD programları için kullanıcı dostu arayüzler geliştirdik. TCL programı hem Türkçe'deki söylem bağlaçlarını özellikleriyle birlikte listeler hem de çeşitli filtreleme ve analiz yetenekleri sunar. TCD programı ise seçilen bir serbest Türkçe metni arayüzüne yükler ve metindeki bağlaçların söylem ve söylem dışı kullanımlarını işaretler. Ek olarak, seçilen metin dosyası için hazırlanmış bir söylem işaretleme dosyası varsa, program ayrıştırma sonuçlarını otomatik olarak değerlendirir. Bu tez, Türkçe bağlaçların ve ulaçların söylem ve söylem dışı kullanım belirsizliğinin çözümüne önemli katkılar sağlayarak Türkçe söylem işlemlemesine katkı sağlarken, bildiğimiz kadarıyla, özellikle ulaç türündeki bağlaçların kullanım belirsizliğini çözmeye yönelik ilk denemedir. Tez, aynı zamanda Türkçe'deki her türlü söylem bağlacınının anlam belirsizliğini çözmede bir ilktir. Bu bakımdan tezdeki çalışmaların Türkçe söylem işlemleme alanındaki araştırmacılara bir referans noktası sağlayacağı ve yeni araştırma fırsatları yaratacağı öngörülmektedir.
Özet (Çeviri)
In this thesis, we developed methods for disambiguating the discourse usage and sense of connectives in a given free Turkish text. For this purpose, we firstly built a comprehensive Turkish Connective Lexicon (TCL) including all types of connectives in Turkish together with their syntactic and semantic features. This lexicon is built automatically by using the discourse relation annotations in several discourse annotated corpora developed for Turkish and follows the format of the German connective lexicon, DiMLex. As in many other languages, Turkish has lexical connectives (referred to as single and phrasal connectives in this work), and it also includes suffixal connectives. We developed a rule-based Turkish Connective Disambiguator (TCD) in order to solve the usage ambiguity of single, phrasal and suffixal connective types. Then, we designed machine learning models to disambiguate the discourse usage and sense of connectives. We evaluated the TCD and the machine learning models by comparing their results with the human annotations in the Turkish section of the TED-Multilingual Discourse Bank and Turkish Discourse Bank 1.1. We observed that the machine learning approach outperforms the baseline rule-based approach although both approaches yield quite good results. Within the scope of this thesis, we developed user-friendly interfaces for the TCL and TCD programs. The TCL program lists the discourse connectives in Turkish with their features and it presents several filtering and analysis capabilities. The TCD program, on the other hand, loads the selected free Turkish text to its interface and marks the discourse and non-discourse occurrences of connectives in the text. Additionally, if the selected file has a corresponding annotation file, the program automatically evaluates the disambiguation results. This thesis makes important contributions to Turkish discourse parsing by solving the usage ambiguity of the single and phrasal connectives as well as the suffixal connectives, which, to the best of our knowledge, has been attempted for the first time in this thesis. This thesis is also the first attempt to disambiguate the sense of all types of discourse connectives in Turkish. In this respect, it is predicted that the thesis would set baselines for future Turkish connective disambiguation works and pave the road for future researchers in the Turkish discourse parsing field.
Benzer Tezler
- Discovering discourse role of converbs in Turkish discourse
Türkçe söylemde ulaçların söylem rolü
AHMET FARUK ACAR
Yüksek Lisans
İngilizce
2014
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN
- Automatic usage disambiguation of the enclitic da in turkish
Türkçe'deki Enklitik Da'nın Söylem Ve Söylem Dışı Rolünün Otomatik Belirlenmesi
ELİF EBRU ERSÖYLEYEN
Yüksek Lisans
İngilizce
2022
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN
- Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Tagging and morphological disambiguation of turkish text
Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi
İLKER KURUÖZ
Yüksek Lisans
İngilizce
1994
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. KEMAL OFLAZER
- Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
DENİZ GÜL ÖZCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT DENİZ ULUŞAR