Power of frequencies: N-grams and semi-supervised morphological segmentation in Turkish
Tekrarların gücü: Türkçe'de N-gramlar ve yarı-denetimli biçimbilimsel bölme
- Tez No: 343082
- Danışmanlar: PROF. DR. HÜSEYİN CEM BOZŞAHİN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
- Anahtar Kelimeler: Biçimbirim Bölme, Dolaylı Olumsuz Delil, Yarı-denetimli Öğrenme, Indirect Negative Evidence, Morph Segmentation, Semi-supervised Learning
- Yıl: 2013
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 159
Özet
Türkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedeki kelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimsel sözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altı parçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilen bir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılması bir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimlerin gücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır. Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafından eğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır. Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişsel bilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahte kelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller bu çalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendiren konuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelik çarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insan düzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel bir öğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine has değildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı ve istatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyle tahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.
Özet (Çeviri)
Turkish is an agglutinating language with a non-rigid word order. When communicating, the word internal structure in Turkish is required to be segmented because Turkish morphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing a sub-word unit actually means performing a morph segmentation task, which is accomplished by children at an astonishing success rate. In this study, morph segmentation of Turkish words was demonstrated with a semi-supervised Hidden Markov Model, which emphasized the power of frequencies and sequences as direct (or indirect negative) evidence for language acquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measures after being trained by the METU Corpus and the METU-Sabancı Turkish Treebank. Additionally, statistical approaches were offered for compound word recognition and segmentation. In order to corroborate the use of frequencies in the cognitive studies, the experimental studies and the corresponding statistical models in Turkish emphatic reduplication and the acceptability of nonce words were also proposed in this study. This study shows that since the probability mass in child-directed speech is skewed toward possible word forms and unlikely morph sequences, this mass can be used by various models to mimic human-level linguistic capabilities. Furthermore, human beings have a statistical learning ability and it is not specific to the faculty of language as claimed by nativists but to general cognition. This allows the plausible and valid use of computational and statistical models to analyze language. Such predictive models can allow a deeper understanding of language.
Benzer Tezler
- Yaşlıların düşme tespiti ve bilgilendirme sistemi tasarımı
Fall detection and notification system design for elderly people
FİKRİ ELMAS
Yüksek Lisans
Türkçe
2017
Biyomühendislikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. SERKAN TÜRKELİ
- Rotorlarda eksen kaçıklığının modellenmesi ve etkileri
Modelling of misalignment on the rotors and effects
DENİZ BİRKAN
Yüksek Lisans
Türkçe
2002
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Teorisi ve Dinamiği Ana Bilim Dalı
PROF. DR. H. TEMEL BİLEK
- 7-10 yaş grubu çocuklarda obezite tanı ve izleminde kullanılan iki farklı yöntemin uyumunun değerlendirilmesi
Evaluation of consistency of two different methods used for diagnosis and monitoring obesity in children at 7-10 years of age
BETÜL AKBAY
Tıpta Uzmanlık
Türkçe
2019
Halk SağlığıPamukkale ÜniversitesiHalk Sağlığı Ana Bilim Dalı
DOÇ. DR. ÖZGÜR SEVİNÇ
- Çift diyodlu simetrik olmayan bir gunn osilatörünün çalışma karakteristiklerinin teorik ve deneysel incelenmesi
Theoretical and experimental analysis of an asymmetrically loaded two-diode gunn oscillator
CEVDET IŞIK
Doktora
Türkçe
1985
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. BİNGÜL YAZGAN