Identification of discourse relations in Turkish discourse bank
Türkçe söylem bankasında söylem bağıntılarının belirlenmesi
- Tez No: 778396
- Danışmanlar: PROF. DR. DENİZ ZEYREK BOZŞAHİN, DR. MURATHAN KURFALI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Söylem, dilbilimsel birimlerin yapılandırılmış ve tutarlı bir şekilde düzenlendiği dil düzeyidir. Özellikle, söylem alanındaki ve genel olarak makinanın doğal dili anlamasındaki en büyük sorunlardan biri, söylemin kurucu birimlerinin tutarlı bir bütün oluşturan yapısını algılamaya yönelik daha iyi modellerin nasıl inşa edileceğidir. Eğer parçaları arasında anlamlı bağlantılar varsa, söylem tutarlı olacaktır. Söylem bağıntıları, yani söylem birimleri (tümceler veya tümcecikler) arasındaki anlamsal veya edim bilimsel ilişkiler, söylem yapısının en önemli yönlerinden biridir. Söylem bağıntıları, açık bir şekilde (yani bağlayıcılar aracılığıyla) veya bunlar olmadan algılanabilen örtük bağıntılar olarak gerçekleştirilebilirler. Metinlerin bu yönlerini otomatik olarak ortaya çıkaran görev“söylem ayrıştırma”olarak bilinmekte olup son yirmi yılın çalışmaları, makinelerin nasıl daha iyi bir söylem algılayıcısı haline getirileceği konusuna odaklanmıştır. Mevcut çalışmaların çoğu, açık ve örtük bağıntıları ve bağıntının kurucu kısımlarını (yani üyelerini) tespit ederek söylem yapısının otomatik olarak çıkarılmasını hedefler. Nispeten daha az çalışılan bir dil olan Türkçe'ye odaklanan bu tez çalışması ise, sığ söylem ayrıştırması yönteminin iki alt görevine, yani söylem bağıntısı gerçekleştirme türlerinin ayrıştırılması ile açık ve örtük sınıflarının 1. Seviye anlamlarının sınıflandırmasına odaklanarak söylem yapısını tespit etmeyi amaçlamıştır. Böylece denetimli bir şekilde söylem yapısını öğrenebilen daha iyi bir modelin geliştirilmesi amaçlanmıştır. Bu tür modellere, cümle seviyesinin üzerinde bilgi gerektiren metin özetleme, diyalog sistemleri ve makine çevirisi gibi görevlerin geliştirilmesinde oldukça ihtiyaç duyulmaktadır. Türkçe Söylem Bankası 1.2 versiyonu üzerinde gerçekleştirilen tez çalışması, sığ söylem çözümlemesine yönelik mevcut teknoloji ile olabilecek en yüksek faydayı sağlayan bir sistemin bileşenlerini hayata geçirmeye yöneliktir. Dilbilimsel özelliklerden faydalanılarak çıkarılan verinin, klasik makine öğrenimi algoritmalarıyla sınıflandırılmasına yönelik model geliştirilmesiyle başlayan bu tez çalışması, önceden eğitilmiş bir dil modelinin göreve yönelik tadil edilmesi ve sayısallaştırılmış verinin sinir ağı tabanlı sınıflandırıcılarla ayrıştırılabilmesi ile sona ermiştir. Sınıflandırma deney sonuçlarını F1-Puanları cinsinden ifade edersek, tez çalışmasında geliştirilen modeller: (i) söylem bağıntısı gerçekleşme tiplerini 0,36'dan başlayıp 0,77'ye yükselen bir başarı ile sınıflandırabilmiş, (ii) açık ve örtük sınıflarının 1. Seviye anlamları için sırasıyla 0,82 ve 0,54 başarı ile sınıflandırabilmiştir. Söylem bağıntısı tiplerinin 2. Seviye anlamlarının sınıflandırılması gereken kategori sayısını yüksek bir düzeye çıkardığı için, Türkçe Söylem Bankasında bulunan işaretleme sayısı ile sağlıklı bir sınıflandırma performansı elde etmenin imkânsız olduğu görülmüştür. Çalışmada son olarak, değişik dillerin veri kümeleri birleştirilerek söylem bağıntısı türlerinin sınıflandırılması üzerindeki etkisi araştırılmış, bu amaçla Türkçe, Çince ve İngilizce veri kümelerinin BERT (büyük küçük harf duyarlı) çok dilli temel modeli ile Diller Arası Transfer Öğrenme deneyleri gerçekleştirilmiştir. Bulguların, modern dil modellerinin Türkçe gibi az kaynaklı diller üzerinde yapılacak çalışmaların performansına etkilerine ilişkin fikir vermesi açısından önemli olduğu değerlendirilmektedir.
Özet (Çeviri)
Discourse is the level of language where linguistic units are organized in a structured and coherent way. One of the major problems in the field of discourse in particular, and NLU in general is how to build better models to sense the way constitutive units of discourse stick together to form a coherent whole. The discourse would be coherent if it had meaningful connections between its parts. Discourse relations, i.e., semantic or pragmatic relations between discourse units (clauses or sentences), are one of the most important aspects of discourse structure. Discourse relations can be realized explicitly (i.e. through connectives), or without them, known as implicit relations. The task that automatically reveals these aspects of texts has been known as 'discourse parsing', and in the last two decades, the problem has turned into how to make machines a better discourse detector. Most of the existing studies target the automatic extraction of discourse structure by detecting explicit and implicit relations and the constitutive parts of the relation (i.e., arguments). Focusing on a relatively less studied language, Turkish, this thesis is designated to reveal its discourse structure by focusing on two sub-tasks of shallow discourse parsing, namely, identification of discourse relation realization types and the sense classification of explicit and implicit relations. In this way, a better model which learns discourse structure in a supervised fashion is searched. Such models have been highly needed in the enhancement of tasks such as text summarization, dialogue systems and machine translation that need information above the clause level. Working on Turkish Discourse Bank 1.2, the thesis develops the most thorough pipeline towards shallow discourse parsing. The series of experiments starts with a classification model based on linguistic features fed into legacy machine learning algorithms and ends with fine-tuning a pre-trained language model as an encoder and classifying the encoded data with neural network-based classifiers. Expressed in terms of F1-Scores, this effort has resulted in: (i) an increase from 0.36 to 0.77 in classifying discourse relation realization types, (ii) achieved 0.82 in the classification of the Level-1 senses of explicit relations and 0.54 of implicit relations. The Level-2 Senses of discourse relations are so many that it becomes impossible to end up with a sound classification performance by training with the less number of samples available in the discourse bank. Thus, the study of Level-2 Senses is left to future works, potentially supported with bigger size of discourse bank. We further explore the effect of multilingual data aggregation on the classification of discourse relation realization type through Cross-lingual Transfer Learning experiments practiced with the advantage of the BERT multilingual base model (cased) with Turkish, Chinese and English datasets. We believe that the findings are important both in providing insights regarding the performance of modern language models in Turkish and in the low-resource scenario.
Benzer Tezler
- Türk işaret dili medya çevirisi: Uzamsal gönderimde gözlemlenen söylem belirsizliği görünümleri
Turkish sign language media translation: Appearances of discourse unclear observed in spatial reference
UFUK ÇELEBİOĞLU
Yüksek Lisans
Türkçe
2024
Mütercim-TercümanlıkAnkara ÜniversitesiTürk İşaret Dili ve Sağır Çalışmaları Ana Bilim Dalı
DOÇ. DR. AYTAÇ ÇELTEK
- 'Vatan için ölmek': Türkiye'de şehit asker kültünün sosyo-politik inşası ve şehit aileleri dernekleri
'Dying for the motherland': The socio-political construction of martyr soldier cult and martyr family associations in Turkey
ŞAFAK AYKAÇ
- Sosyal konstrüktivizme göre Turgut Özal dönemi Türk dış politikası (1983-1993)
According to social constructivism, Turgut Özal period in Turkish foreign policy (1983-1993)
KÜBRA DEREN EKİCİ
Doktora
Türkçe
2018
Uluslararası İlişkilerKocaeli ÜniversitesiUluslararası İlişkiler Ana Bilim Dalı
DOÇ. DR. İRFAN KAYA ÜLGER
- Donald Trump'ın Kuzey Kore'ye yönelik güvenlikleştirme politikasının başarısının sorgulanması: Derlem temelli teorik ve ampirik bir analiz
Questioning the success of Donald Trump's securitization policy towards North Korea: A corpus-based theoretical and empirical analysis
ÖZGE GÖKÇEN ÇETİNDİŞLİ
Doktora
Türkçe
2024
Uluslararası İlişkilerBursa Uludağ ÜniversitesiUluslararası İlişkiler Ana Bilim Dalı
PROF. DR. TAYYAR ARI
- The reflections of identity in Cyprus: Claims and perspectives on Eastern Mediterranean hydrocarbons
Kıbrıs'ta kimlik yansımaları: Doğu Akdeniz hidrokarbonları üzerine tartışmalar ve perspektifler
SERPİL İŞLEK
Yüksek Lisans
İngilizce
2016
Siyasal BilimlerOrta Doğu Teknik ÜniversitesiSiyaset Bilimi ve Uluslararası İlişkiler Ana Bilim Dalı
YRD. DOÇ. LUCIANO MARIO ITARIO BARACCO