Türkçe kelimelerin biçim birimlerine ayrılması için kullanılacak standart biçim birimi kümesinin oluşturulması
A unified suffix set for morphological analysis of Turkish words
- Tez No: 245018
- Danışmanlar: YRD. DOÇ. DR. B. TANER DİNÇER
- Tez Türü: Yüksek Lisans
- Konular: Dilbilim, Linguistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: Türkçe
- Üniversite: Muğla Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 131
Özet
Enformasyon bilimi sahasındaki, bilgi erişimi, özetleme, diller arası otomatik çeviri, bilgi özümseme, soru-cevaplama, başlık tespiti gibi pek çok konuda, yazılı Türkçe belgelerin otomatik içerik çözümlemesine ihtiyaç duyulmaktadır. Bilgi erişiminde içerik çözümlemesi için üç temel yordamın geliştirilmesine ihtiyaç vardır: Gövdeleme, Kelime Sınıfının Tespiti ve Kelime Gruplarının Tespiti. Gövdeleme, yüzey biçimindeki bir kelimenin sözlük birimi karşılığının bulunması işidir. Kelime sınıfının tespiti, kelimelerin cümle içinde taşıdıkları görevin tanımlanması, kelime gruplarının tespiti de cümle içindeki kelime birliklerinin belirlenmesidir. Türkçede temelini eklerin oluşturduğu kelime içi ve kelimeler arası yapılar birbiriyle ilişkili ve birbirini tamamlar niteliktedir. Dolayısıyla bütün bu işlemlerde eklerin ele alınma şekli bilgi erişimi başarımını doğrudan etkileyen önemli bir seçimdir. Bu bağlamda Türkçe için standart bir ek kümesi tanımlamak zorunluluktur.Bu tezde, dil bilimsel çalışmalarda kullanılmak üzere standart bir Türkçe ek kümesi elde edilmesi amaçlanmıştır. Bu kümenin hazırlanmasında Türkçenin ek yapısını tarif eden 12 dil bilimci dikkate alınmıştır. Ortaya konan görüşlerin farklılıkları ve ortaklıkları incelenmiş; bunun sonucunda Türkçe ek sistemi yeniden açıklanmaya çalışılmıştır.Türkçe için biçim bilimsel çözümleme ve biçim birimlerinin dil bilimsel etiketlemesinde kullanılabilecek elle kodlanmış bir derlem mevcut değildir. Tez çerçevesinde, Türkçe metinlerin hesaplamalı dil bilimi esasında biçim bilimsel ve söz dizimsel olarak kodlanması amacıyla, elle işaretlenmiş bir derlemin alt yapısının oluşturulması da hedeflenmiştir. Söz konusu derlemin, hazırlanan biçim birimi kümesine dayanan bir otomatik çözümlemenin başarımını ölçmesi planlanmaktadır. Bununla birlikte bu çalışmada benimsenen dil bilimsel ilkeler çerçevesinde, derlemin işaretlenmesine ilişkin birtakım yöntemler geliştirilmiştir. Bu işaretleme yöntemlerinin sınanması amacıyla bir örnek derlem oluşturulmuş ve kodlanmıştır. Bunun sonucunda, önerilen sistemin, mevcut problemleri nasıl çözümlediği ortaya konmuş, bunun yanı sıra sistem dâhilinde çözümlenemeyen noktalar belirlenmeye çalışılmıştır.Bu çalışma, en başta, Türkçenin karakteristik yapısının zarar görmemesi kaygısıyla hazırlanmış ve mevcut dil bilimsel çalışmalardaki Türkçe algısının eksiklik ve yanlışlıklarını düzeltme amacıyla Türkçenin biçim bilimsel ve söz dizimsel kodlamasına ilişkin geliştirilen yeni yol ve yöntemlerin açıklanmasını ve Türkçe ek sisteminin tarif edilmesini hedeflemiştir. Ekler, Türkçenin karmaşık ve derin biçim bilimsel yapısı nedeniyle, gövdeleme, kelime sınıfının tespiti ve kelime gruplarının tespiti gibi konularda önemli bir role sahiptir. Enformasyonda, bilgi erişiminde ve metin çözümlemesinde, Türkçe için, kullanılan ek kümesinin, başarımı etkileyeceği açıktır. Bu nedenle eklerin titizlikle incelenmesi ve ek kümesinin Türkçe dil yapısını eksiksiz şekilde tarif etmesinin sağlanması gerekmektedir. Bu çalışmada elde edilen Türkçe ekler kümesi birçok dil bilimsel çalışmada kullanılabilecek bir materyal niteliğindedir.
Özet (Çeviri)
The information sciences including information access, summarization, translation between languages, information assimilation, question answering require written texts to be analyzed automatically first. In all fields in information science, there are three preprocessing tasks which are needed for analyzing content, namely stemming, detection of word class and detection of word groups. Stemming a particular word form is to find the word stem that corresponds to the dictionary unit in that surface form. Word class detection is the task that is used to identify the grammatical function of words inside in a sentence. There are suffixes in word interior structure and suffixes are considered in the morphological context of a word form. But in Turkish, suffixes are also closely related with the syntactic structure of a given sentence. Therefore an appropriate stemming algorithm to Turkish should account for syntax simultaneously. Hence, an appropriate unified suffix set has to be defined first for Turkish language.The aim of this thesis is to get a unified suffix set for Turkish in order to be used in linguistic studies. In general, 12 linguists who described the suffix structure of Turkish are taken into consideration to prepare required unified set. Different notions described by 12 linguists are examined in detail and are analyzed to synthesis the unified Turkish suffix system.In the current state of the art of computational Turkish linguistics technology, a corpus which is coded manually and can be used for morphologic analysis is not present. This thesis is also aim at constructing a basic corpus in which the morphological and syntactic structure will be planned to code manually. This corpus is planned to assess the quality of the morpheme set being synthesized in this thesis. In the scope of linguistics accepted in this study, some assumptions have been made so as to code the corpus. A sample corpus is constructed and coded in order to check the validity of the assumptions. As a result of constructed and coded sample corpus, the unified set proposed in this study is showed how to handle existent problems. The issues that are not analyzed are also determined explicitly for future studies.Fore and the foremost, we are taken into consideration the characteristic structure of Turkish that is not degenerating, in such a manner that the primary aim of this study is to explain morphologic and syntactic coding of Turkish appropriately in order to fix the corruption of opinion about Turkish in existent computational linguistics studies. Since Turkish have a complicated morphologic structure, the suffixes have the key role in stemming, detection of word class, and detection of word groups. In information sciences, information retrieval and text analyzing, it is obvious that the suffix set in use affects the performance. It is essential that suffix set depicts accurately the structure of Turkish language and examine meticulously the suffixes. The Turkish suffix set that is obtained by this study is a material that can be used in many linguistics studies.
Benzer Tezler
- Yeni Cami'nin akustik açıdan performans değerlendirmesi
Evaluation of the acoustical performance of the New Mosque
EVREN YILDIRIM
Yüksek Lisans
Türkçe
2003
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. SEVTAP YILMAZ DEMİRKALE
- Önemli zeytin (Olea europaea L.) çeşitlerinin izoenzim polimorfizmleri ve genetik özellikleri
Isoenzyme polymorphisms and genetic characteristics of important olive (Olea europaea L.) cultivars and types
SEVDA DÜLGER
Yüksek Lisans
Türkçe
2004
ZiraatÇanakkale Onsekiz Mart ÜniversitesiBahçe Bitkileri Ana Bilim Dalı
YRD. DOÇ. DR. MURAT ŞEKER
- Merkeziyetçi yönetimden yerinden yönetime geçişte alternatif yaklaşımlar (Milli Eğitim Bakanlığı örneği)
Başlık çevirisi yok
MAHMUT BOZAN
- Karayolu ulaşımından kaynaklanan çevresel gürültü ve bu gürültüye yol kaplamalarının etkilerinin incelenmesi
Investigation of environmental noise originating from road traffic and the effects of road pavement types on the noise production
ZEKİ BOZKURT
Doktora
Türkçe
2013
Çevre MühendisliğiÇukurova ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZELİHA SELEK
- Psikolojik taciz; öğretim elemanlarına yönelik bir araştırma
Mobbing; a research on academicians
TUTKU SEÇKİN ÇELİK
Yüksek Lisans
Türkçe
2013
İşletmeGalatasaray Üniversitesiİşletme Ana Bilim Dalı
PROF. DR. JALE MİNİBAŞ POUSSARD