Geri Dön

Reference selection in Turkish: A corpus-based approach

Türkçe'de referans seçimi: Derlem temelli bir yaklaşım

  1. Tez No: 949577
  2. Yazar: FARUK BÜYÜKTEKİN
  3. Danışmanlar: YRD. DOÇ. DR. UMUT ÖZGE
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Psikoloji, Computer Engineering and Computer Science and Control, Linguistics, Psychology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 153

Özet

Bu tez, doğal dilde gönderim seçimini incelemekte ve bunu belirleyen mekanizma üzerine odaklanmaktadır. Dilbilim kuramları ve veri odaklı yöntemlerden yararlanarak, dilbilgisel, söylemsel ve bilişsel etmenlerin gönderim biçimini nasıl etkilediğini ortaya konmaya çalışmıştır. Zengin biçimbilgisi, örtük argüman kullanımı ve esnek sözdizimi gibi tipolojik olarak ayırt edici özellikleri ile hedef dil olan Türkçe, iyi çalışılmış dillere kıyasla gönderim tercihlerini araştırmak için zengin bir test ortamı sunmaktadır. Bu çalışmanın temel katkılarından biri, amaç odaklı diyaloglara dayanan özgün bir eşgönderim derlemi oluşturmasıdır. Önceki araştırmaların çoğu yarı-yapay veya izole cümlelere ya da yazılı metinlere dayanırken, bu çalışma, gerçek zamanlı doğal konuşma verilerini esas alarak gönderimin söylem akışı içinde nasıl gerçekleştiğini incelemektedir. Bu doğrultuda, tam ad öbekleri, açık ve örtük adıllar olmak üzere tüm gönderim biçimlerini ve bunların bağlamsal ve dilbilgisel özelliklerini içeren bir işaretleme şeması geliştirilmiştir. Bununla oluşturulan derlem, mevcut en kapsamlı Türkçe dialog eşgönderim veri setini teşkil ederek, gönderim olgusunun sistematik ve hesaplamaya elverişli bir şekilde analiz edilmesini mümkün kılmıştır. Derleme kapsamlı istatistiksel analizler ve makine öğrenmesi yöntemleri uygulanmış ve belirli özelliklerin gönderim biçimi üzerindeki etkileri ve etkileşimleri değerlendirilmiştir. İncelenen özellikler arasında konuşucu rolü, konuşma sırası, dilbilgisel rol, rekabet, mesafe, gönderim yoğunluğu ve sözdizimsel konum gibi ölçütler yer almaktadır. Bulgular arasında, söylem içi rekabet ve mesafe, model başarımını en çok etkileyen özellikler olarak öne çıkmıştır. Konuşmacı rolü ve sırasının etkisi ise daha zayıf olmakla birlikte yorumlanabilir düzeydedir. Yapılan istatistiksel testler, birçok etkenin gönderim biçimini anlamlı şekilde etkilediğini doğrulamış ve gönderim seçimi ile ilgili kuramsal yaklaşımların öngörülerini desteklemiş ve genişletmiştir. Bu tez, derlem geliştirme, özellik mühendisliği, istatistiksel modelleme ve açıklanabilir makine öğrenmesini entegre ederek Türkçe'de gönderim analizi için bütüncül bir yaklaşım önermiştir. Çalışma tipolojik olarak farklı bir dil ile kuramsal referans seçimi çalışmalarına katkı yapmakla birlikte doğal dil işleme, bilişsel modelleme ve dialog sistemleri gibi alanlarda kullanabilecek araçlar sunmaktadır.

Özet (Çeviri)

This thesis investigates reference selection in natural language, focusing on the mechanisms that shape the form of referring expressions. Drawing from both linguistic theory and data-driven computational methods, the study seeks to uncover how grammatical, discourse, and cognitive factors jointly influence referential form. As the target language, Turkish offers a testing ground to explore referential choices beyond the patterns observed in well-studied languages due to its typologically distinct characteristics specifically, its rich morphology, frequent use of null pronouns, and flexible word order. A central contribution of this work is the creation of a novel coreference corpus based on spontaneous, goal-directed dialog. Unlike prior research that has typically relied on semi-artificial or isolated sentences, or written texts, this study uses situated task-based interaction, capturing reference in real-time naturalistic speech. To facilitate this, a new annotation scheme was developed to represent the full range of referential forms, including full noun phrases, overt pronouns, and null pronouns, and their contextual and grammatical properties. The resulting corpus, which is the most comprehensive coreference corpus of Turkish dialogs to date, enables systematic and computationally viable analyses of referential phenomena. Building on this resource, the thesis conducts extensive statistical analyses and employs machine learning to evaluate the effects and interactions of multiple features on referential form. These include speaker role, turn-taking, grammatical role, competition, distance, topicality, and sentential position. Among the findings, competition and distance emerged as the most predictive features in model performance, while speaker role and turn-taking showed weaker but interpretable effects. Statistical tests confirmed that many of these factors significantly influence form choice, supporting and extending theoretical predictions of major theories and models related to referential form selection. By integrating corpus development, feature engineering, statistical modeling, and explanatory machine learning, this thesis offers a unified framework for analyzing reference in Turkish. It not only contributes to theoretical accounts of referential choice in typologically diverse settings but also provides scalable tools for future research in natural language processing, cognitive modeling, and dialog systems.

Benzer Tezler

  1. A Corpus-based comparison of Turkish and English descriptive text with a functional approach

    İşlevsel bir yaklaşımla Türkçe ve İngilizce tasvir metinlerinin bütüne dayalı bir karşılaştırması

    SEVGİ EREL

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    DilbilimErciyes Üniversitesi

    YRD. DOÇ. DR. DOĞAN BULUT

  2. Donald Trump'ın Kuzey Kore'ye yönelik güvenlikleştirme politikasının başarısının sorgulanması: Derlem temelli teorik ve ampirik bir analiz

    Questioning the success of Donald Trump's securitization policy towards North Korea: A corpus-based theoretical and empirical analysis

    ÖZGE GÖKÇEN ÇETİNDİŞLİ

    Doktora

    Türkçe

    Türkçe

    2024

    Uluslararası İlişkilerBursa Uludağ Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    PROF. DR. TAYYAR ARI

  3. Tanburi Cemil Bey'in saz eserlerindeki Perde/Çeşni ilişkilerinin haritalandırılması

    Mapping the Perde/Çeşni relationships in Tanburî Cemil Bey's instrumental works

    BURAK KESGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Müzikİstanbul Teknik Üniversitesi

    Müzikoloji ve Müzik Teorisi Ana Bilim Dalı

    PROF. DR. OZAN BAYSAL

  4. A description of the verb gel- with special reference to pattern grammar

    Gel- eyleminin örüntü dilbilgisi bağlamında betimlenmesi

    UMUT UFUK DEMİRHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    DilbilimMersin Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. SERA YEŞİM AKSAN

  5. Melih Cevdet Anday'ın şiir, tiyatro ve romanlarında türlerarası ilişkiler

    Intergenre relations in Melih Cevdet Anday's poetry, theater and novels

    MEHMET AKİF ÖBEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Türk Dili ve EdebiyatıMarmara Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. MEHMET GÜNEŞ