Reference selection in Turkish: A corpus-based approach
Türkçe'de referans seçimi: Derlem temelli bir yaklaşım
- Tez No: 949577
- Danışmanlar: YRD. DOÇ. DR. UMUT ÖZGE
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Psikoloji, Computer Engineering and Computer Science and Control, Linguistics, Psychology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 153
Özet
Bu tez, doğal dilde gönderim seçimini incelemekte ve bunu belirleyen mekanizma üzerine odaklanmaktadır. Dilbilim kuramları ve veri odaklı yöntemlerden yararlanarak, dilbilgisel, söylemsel ve bilişsel etmenlerin gönderim biçimini nasıl etkilediğini ortaya konmaya çalışmıştır. Zengin biçimbilgisi, örtük argüman kullanımı ve esnek sözdizimi gibi tipolojik olarak ayırt edici özellikleri ile hedef dil olan Türkçe, iyi çalışılmış dillere kıyasla gönderim tercihlerini araştırmak için zengin bir test ortamı sunmaktadır. Bu çalışmanın temel katkılarından biri, amaç odaklı diyaloglara dayanan özgün bir eşgönderim derlemi oluşturmasıdır. Önceki araştırmaların çoğu yarı-yapay veya izole cümlelere ya da yazılı metinlere dayanırken, bu çalışma, gerçek zamanlı doğal konuşma verilerini esas alarak gönderimin söylem akışı içinde nasıl gerçekleştiğini incelemektedir. Bu doğrultuda, tam ad öbekleri, açık ve örtük adıllar olmak üzere tüm gönderim biçimlerini ve bunların bağlamsal ve dilbilgisel özelliklerini içeren bir işaretleme şeması geliştirilmiştir. Bununla oluşturulan derlem, mevcut en kapsamlı Türkçe dialog eşgönderim veri setini teşkil ederek, gönderim olgusunun sistematik ve hesaplamaya elverişli bir şekilde analiz edilmesini mümkün kılmıştır. Derleme kapsamlı istatistiksel analizler ve makine öğrenmesi yöntemleri uygulanmış ve belirli özelliklerin gönderim biçimi üzerindeki etkileri ve etkileşimleri değerlendirilmiştir. İncelenen özellikler arasında konuşucu rolü, konuşma sırası, dilbilgisel rol, rekabet, mesafe, gönderim yoğunluğu ve sözdizimsel konum gibi ölçütler yer almaktadır. Bulgular arasında, söylem içi rekabet ve mesafe, model başarımını en çok etkileyen özellikler olarak öne çıkmıştır. Konuşmacı rolü ve sırasının etkisi ise daha zayıf olmakla birlikte yorumlanabilir düzeydedir. Yapılan istatistiksel testler, birçok etkenin gönderim biçimini anlamlı şekilde etkilediğini doğrulamış ve gönderim seçimi ile ilgili kuramsal yaklaşımların öngörülerini desteklemiş ve genişletmiştir. Bu tez, derlem geliştirme, özellik mühendisliği, istatistiksel modelleme ve açıklanabilir makine öğrenmesini entegre ederek Türkçe'de gönderim analizi için bütüncül bir yaklaşım önermiştir. Çalışma tipolojik olarak farklı bir dil ile kuramsal referans seçimi çalışmalarına katkı yapmakla birlikte doğal dil işleme, bilişsel modelleme ve dialog sistemleri gibi alanlarda kullanabilecek araçlar sunmaktadır.
Özet (Çeviri)
This thesis investigates reference selection in natural language, focusing on the mechanisms that shape the form of referring expressions. Drawing from both linguistic theory and data-driven computational methods, the study seeks to uncover how grammatical, discourse, and cognitive factors jointly influence referential form. As the target language, Turkish offers a testing ground to explore referential choices beyond the patterns observed in well-studied languages due to its typologically distinct characteristics specifically, its rich morphology, frequent use of null pronouns, and flexible word order. A central contribution of this work is the creation of a novel coreference corpus based on spontaneous, goal-directed dialog. Unlike prior research that has typically relied on semi-artificial or isolated sentences, or written texts, this study uses situated task-based interaction, capturing reference in real-time naturalistic speech. To facilitate this, a new annotation scheme was developed to represent the full range of referential forms, including full noun phrases, overt pronouns, and null pronouns, and their contextual and grammatical properties. The resulting corpus, which is the most comprehensive coreference corpus of Turkish dialogs to date, enables systematic and computationally viable analyses of referential phenomena. Building on this resource, the thesis conducts extensive statistical analyses and employs machine learning to evaluate the effects and interactions of multiple features on referential form. These include speaker role, turn-taking, grammatical role, competition, distance, topicality, and sentential position. Among the findings, competition and distance emerged as the most predictive features in model performance, while speaker role and turn-taking showed weaker but interpretable effects. Statistical tests confirmed that many of these factors significantly influence form choice, supporting and extending theoretical predictions of major theories and models related to referential form selection. By integrating corpus development, feature engineering, statistical modeling, and explanatory machine learning, this thesis offers a unified framework for analyzing reference in Turkish. It not only contributes to theoretical accounts of referential choice in typologically diverse settings but also provides scalable tools for future research in natural language processing, cognitive modeling, and dialog systems.
Benzer Tezler
- A Corpus-based comparison of Turkish and English descriptive text with a functional approach
İşlevsel bir yaklaşımla Türkçe ve İngilizce tasvir metinlerinin bütüne dayalı bir karşılaştırması
SEVGİ EREL
- Donald Trump'ın Kuzey Kore'ye yönelik güvenlikleştirme politikasının başarısının sorgulanması: Derlem temelli teorik ve ampirik bir analiz
Questioning the success of Donald Trump's securitization policy towards North Korea: A corpus-based theoretical and empirical analysis
ÖZGE GÖKÇEN ÇETİNDİŞLİ
Doktora
Türkçe
2024
Uluslararası İlişkilerBursa Uludağ ÜniversitesiUluslararası İlişkiler Ana Bilim Dalı
PROF. DR. TAYYAR ARI
- Tanburi Cemil Bey'in saz eserlerindeki Perde/Çeşni ilişkilerinin haritalandırılması
Mapping the Perde/Çeşni relationships in Tanburî Cemil Bey's instrumental works
BURAK KESGİN
Yüksek Lisans
Türkçe
2025
Müzikİstanbul Teknik ÜniversitesiMüzikoloji ve Müzik Teorisi Ana Bilim Dalı
PROF. DR. OZAN BAYSAL
- A description of the verb gel- with special reference to pattern grammar
Gel- eyleminin örüntü dilbilgisi bağlamında betimlenmesi
UMUT UFUK DEMİRHAN
Yüksek Lisans
Türkçe
2013
DilbilimMersin Üniversitesiİngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. SERA YEŞİM AKSAN
- Melih Cevdet Anday'ın şiir, tiyatro ve romanlarında türlerarası ilişkiler
Intergenre relations in Melih Cevdet Anday's poetry, theater and novels
MEHMET AKİF ÖBEK
Yüksek Lisans
Türkçe
2024
Türk Dili ve EdebiyatıMarmara ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. MEHMET GÜNEŞ