Geri Dön

Identification of discourse relations in Turkish discourse bank

Türkçe söylem bankasında söylem bağıntılarının belirlenmesi

  1. Tez No: 778396
  2. Yazar: FERHAT KUTLU
  3. Danışmanlar: PROF. DR. DENİZ ZEYREK BOZŞAHİN, DR. MURATHAN KURFALI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Söylem, dilbilimsel birimlerin yapılandırılmış ve tutarlı bir şekilde düzenlendiği dil düzeyidir. Özellikle, söylem alanındaki ve genel olarak makinanın doğal dili anlamasındaki en büyük sorunlardan biri, söylemin kurucu birimlerinin tutarlı bir bütün oluşturan yapısını algılamaya yönelik daha iyi modellerin nasıl inşa edileceğidir. Eğer parçaları arasında anlamlı bağlantılar varsa, söylem tutarlı olacaktır. Söylem bağıntıları, yani söylem birimleri (tümceler veya tümcecikler) arasındaki anlamsal veya edim bilimsel ilişkiler, söylem yapısının en önemli yönlerinden biridir. Söylem bağıntıları, açık bir şekilde (yani bağlayıcılar aracılığıyla) veya bunlar olmadan algılanabilen örtük bağıntılar olarak gerçekleştirilebilirler. Metinlerin bu yönlerini otomatik olarak ortaya çıkaran görev“söylem ayrıştırma”olarak bilinmekte olup son yirmi yılın çalışmaları, makinelerin nasıl daha iyi bir söylem algılayıcısı haline getirileceği konusuna odaklanmıştır. Mevcut çalışmaların çoğu, açık ve örtük bağıntıları ve bağıntının kurucu kısımlarını (yani üyelerini) tespit ederek söylem yapısının otomatik olarak çıkarılmasını hedefler. Nispeten daha az çalışılan bir dil olan Türkçe'ye odaklanan bu tez çalışması ise, sığ söylem ayrıştırması yönteminin iki alt görevine, yani söylem bağıntısı gerçekleştirme türlerinin ayrıştırılması ile açık ve örtük sınıflarının 1. Seviye anlamlarının sınıflandırmasına odaklanarak söylem yapısını tespit etmeyi amaçlamıştır. Böylece denetimli bir şekilde söylem yapısını öğrenebilen daha iyi bir modelin geliştirilmesi amaçlanmıştır. Bu tür modellere, cümle seviyesinin üzerinde bilgi gerektiren metin özetleme, diyalog sistemleri ve makine çevirisi gibi görevlerin geliştirilmesinde oldukça ihtiyaç duyulmaktadır. Türkçe Söylem Bankası 1.2 versiyonu üzerinde gerçekleştirilen tez çalışması, sığ söylem çözümlemesine yönelik mevcut teknoloji ile olabilecek en yüksek faydayı sağlayan bir sistemin bileşenlerini hayata geçirmeye yöneliktir. Dilbilimsel özelliklerden faydalanılarak çıkarılan verinin, klasik makine öğrenimi algoritmalarıyla sınıflandırılmasına yönelik model geliştirilmesiyle başlayan bu tez çalışması, önceden eğitilmiş bir dil modelinin göreve yönelik tadil edilmesi ve sayısallaştırılmış verinin sinir ağı tabanlı sınıflandırıcılarla ayrıştırılabilmesi ile sona ermiştir. Sınıflandırma deney sonuçlarını F1-Puanları cinsinden ifade edersek, tez çalışmasında geliştirilen modeller: (i) söylem bağıntısı gerçekleşme tiplerini 0,36'dan başlayıp 0,77'ye yükselen bir başarı ile sınıflandırabilmiş, (ii) açık ve örtük sınıflarının 1. Seviye anlamları için sırasıyla 0,82 ve 0,54 başarı ile sınıflandırabilmiştir. Söylem bağıntısı tiplerinin 2. Seviye anlamlarının sınıflandırılması gereken kategori sayısını yüksek bir düzeye çıkardığı için, Türkçe Söylem Bankasında bulunan işaretleme sayısı ile sağlıklı bir sınıflandırma performansı elde etmenin imkânsız olduğu görülmüştür. Çalışmada son olarak, değişik dillerin veri kümeleri birleştirilerek söylem bağıntısı türlerinin sınıflandırılması üzerindeki etkisi araştırılmış, bu amaçla Türkçe, Çince ve İngilizce veri kümelerinin BERT (büyük küçük harf duyarlı) çok dilli temel modeli ile Diller Arası Transfer Öğrenme deneyleri gerçekleştirilmiştir. Bulguların, modern dil modellerinin Türkçe gibi az kaynaklı diller üzerinde yapılacak çalışmaların performansına etkilerine ilişkin fikir vermesi açısından önemli olduğu değerlendirilmektedir.

Özet (Çeviri)

Discourse is the level of language where linguistic units are organized in a structured and coherent way. One of the major problems in the field of discourse in particular, and NLU in general is how to build better models to sense the way constitutive units of discourse stick together to form a coherent whole. The discourse would be coherent if it had meaningful connections between its parts. Discourse relations, i.e., semantic or pragmatic relations between discourse units (clauses or sentences), are one of the most important aspects of discourse structure. Discourse relations can be realized explicitly (i.e. through connectives), or without them, known as implicit relations. The task that automatically reveals these aspects of texts has been known as 'discourse parsing', and in the last two decades, the problem has turned into how to make machines a better discourse detector. Most of the existing studies target the automatic extraction of discourse structure by detecting explicit and implicit relations and the constitutive parts of the relation (i.e., arguments). Focusing on a relatively less studied language, Turkish, this thesis is designated to reveal its discourse structure by focusing on two sub-tasks of shallow discourse parsing, namely, identification of discourse relation realization types and the sense classification of explicit and implicit relations. In this way, a better model which learns discourse structure in a supervised fashion is searched. Such models have been highly needed in the enhancement of tasks such as text summarization, dialogue systems and machine translation that need information above the clause level. Working on Turkish Discourse Bank 1.2, the thesis develops the most thorough pipeline towards shallow discourse parsing. The series of experiments starts with a classification model based on linguistic features fed into legacy machine learning algorithms and ends with fine-tuning a pre-trained language model as an encoder and classifying the encoded data with neural network-based classifiers. Expressed in terms of F1-Scores, this effort has resulted in: (i) an increase from 0.36 to 0.77 in classifying discourse relation realization types, (ii) achieved 0.82 in the classification of the Level-1 senses of explicit relations and 0.54 of implicit relations. The Level-2 Senses of discourse relations are so many that it becomes impossible to end up with a sound classification performance by training with the less number of samples available in the discourse bank. Thus, the study of Level-2 Senses is left to future works, potentially supported with bigger size of discourse bank. We further explore the effect of multilingual data aggregation on the classification of discourse relation realization type through Cross-lingual Transfer Learning experiments practiced with the advantage of the BERT multilingual base model (cased) with Turkish, Chinese and English datasets. We believe that the findings are important both in providing insights regarding the performance of modern language models in Turkish and in the low-resource scenario.

Benzer Tezler

  1. Türk işaret dili medya çevirisi: Uzamsal gönderimde gözlemlenen söylem belirsizliği görünümleri

    Turkish sign language media translation: Appearances of discourse unclear observed in spatial reference

    UFUK ÇELEBİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mütercim-TercümanlıkAnkara Üniversitesi

    Türk İşaret Dili ve Sağır Çalışmaları Ana Bilim Dalı

    DOÇ. DR. AYTAÇ ÇELTEK

  2. 'Vatan için ölmek': Türkiye'de şehit asker kültünün sosyo-politik inşası ve şehit aileleri dernekleri

    'Dying for the motherland': The socio-political construction of martyr soldier cult and martyr family associations in Turkey

    ŞAFAK AYKAÇ

    Doktora

    Türkçe

    Türkçe

    2022

    DinGalatasaray Üniversitesi

    Siyaset Bilimi Ana Bilim Dalı

    PROF. DR. BİROL CAYMAZ

  3. Sosyal konstrüktivizme göre Turgut Özal dönemi Türk dış politikası (1983-1993)

    According to social constructivism, Turgut Özal period in Turkish foreign policy (1983-1993)

    KÜBRA DEREN EKİCİ

    Doktora

    Türkçe

    Türkçe

    2018

    Uluslararası İlişkilerKocaeli Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    DOÇ. DR. İRFAN KAYA ÜLGER

  4. Donald Trump'ın Kuzey Kore'ye yönelik güvenlikleştirme politikasının başarısının sorgulanması: Derlem temelli teorik ve ampirik bir analiz

    Questioning the success of Donald Trump's securitization policy towards North Korea: A corpus-based theoretical and empirical analysis

    ÖZGE GÖKÇEN ÇETİNDİŞLİ

    Doktora

    Türkçe

    Türkçe

    2024

    Uluslararası İlişkilerBursa Uludağ Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    PROF. DR. TAYYAR ARI

  5. The reflections of identity in Cyprus: Claims and perspectives on Eastern Mediterranean hydrocarbons

    Kıbrıs'ta kimlik yansımaları: Doğu Akdeniz hidrokarbonları üzerine tartışmalar ve perspektifler

    SERPİL İŞLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Siyasal BilimlerOrta Doğu Teknik Üniversitesi

    Siyaset Bilimi ve Uluslararası İlişkiler Ana Bilim Dalı

    YRD. DOÇ. LUCIANO MARIO ITARIO BARACCO