Power of frequencies: N-grams and semi-supervised morphological segmentation in Turkish

Tekrarların gücü: Türkçe'de N-gramlar ve yarı-denetimli biçimbilimsel bölme

PDF İndir

Tez No: 343082
Yazar: ÖZKAN KILIÇ
Danışmanlar: PROF. DR. HÜSEYİN CEM BOZŞAHİN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
Anahtar Kelimeler: Biçimbirim Bölme, Dolaylı Olumsuz Delil, Yarı-denetimli Öğrenme, Indirect Negative Evidence, Morph Segmentation, Semi-supervised Learning
Yıl: 2013
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 159

Özet

Türkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedeki kelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimsel sözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altı parçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilen bir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılması bir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimlerin gücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır. Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafından eğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır. Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişsel bilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahte kelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller bu çalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendiren konuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelik çarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insan düzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel bir öğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine has değildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı ve istatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyle tahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.

Özet (Çeviri)

Turkish is an agglutinating language with a non-rigid word order. When communicating, the word internal structure in Turkish is required to be segmented because Turkish morphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing a sub-word unit actually means performing a morph segmentation task, which is accomplished by children at an astonishing success rate. In this study, morph segmentation of Turkish words was demonstrated with a semi-supervised Hidden Markov Model, which emphasized the power of frequencies and sequences as direct (or indirect negative) evidence for language acquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measures after being trained by the METU Corpus and the METU-Sabancı Turkish Treebank. Additionally, statistical approaches were offered for compound word recognition and segmentation. In order to corroborate the use of frequencies in the cognitive studies, the experimental studies and the corresponding statistical models in Turkish emphatic reduplication and the acceptability of nonce words were also proposed in this study. This study shows that since the probability mass in child-directed speech is skewed toward possible word forms and unlikely morph sequences, this mass can be used by various models to mimic human-level linguistic capabilities. Furthermore, human beings have a statistical learning ability and it is not specific to the faculty of language as claimed by nativists but to general cognition. This allows the plausible and valid use of computational and statistical models to analyze language. Such predictive models can allow a deeper understanding of language.

Benzer Tezler

Tez No
55815
Lanczos metodunun esasları
Başlık çevirisi yok
GÜNDÜZ ÜMİT
Yüksek Lisans
Türkçe
1996
Makine Mühendisliği İstanbul Teknik Üniversitesi
PROF.DR. METİN GÜRGÖZE
Tez No
467211
Yaşlıların düşme tespiti ve bilgilendirme sistemi tasarımı
Fall detection and notification system design for elderly people
FİKRİ ELMAS
Yüksek Lisans
Türkçe
2017
Biyomühendislik İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. SERKAN TÜRKELİ
Tez No
126764
Rotorlarda eksen kaçıklığının modellenmesi ve etkileri
Modelling of misalignment on the rotors and effects
DENİZ BİRKAN
Yüksek Lisans
Türkçe
2002
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Teorisi ve Dinamiği Ana Bilim Dalı
PROF. DR. H. TEMEL BİLEK
Tez No
573298
7-10 yaş grubu çocuklarda obezite tanı ve izleminde kullanılan iki farklı yöntemin uyumunun değerlendirilmesi
Evaluation of consistency of two different methods used for diagnosis and monitoring obesity in children at 7-10 years of age
BETÜL AKBAY
Tıpta Uzmanlık
Türkçe
2019
Halk Sağlığı Pamukkale Üniversitesi
Halk Sağlığı Ana Bilim Dalı
DOÇ. DR. ÖZGÜR SEVİNÇ
Tez No
2161
Çift diyodlu simetrik olmayan bir gunn osilatörünün çalışma karakteristiklerinin teorik ve deneysel incelenmesi
Theoretical and experimental analysis of an asymmetrically loaded two-diode gunn oscillator
CEVDET IŞIK
Doktora
Türkçe
1985
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
PROF. DR. BİNGÜL YAZGAN

Geri Dön