Geri Dön

Power of frequencies: N-grams and semi-supervised morphological segmentation in Turkish

Tekrarların gücü: Türkçe'de N-gramlar ve yarı-denetimli biçimbilimsel bölme

  1. Tez No: 343082
  2. Yazar: ÖZKAN KILIÇ
  3. Danışmanlar: PROF. DR. HÜSEYİN CEM BOZŞAHİN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Biçimbirim Bölme, Dolaylı Olumsuz Delil, Yarı-denetimli Öğrenme, Indirect Negative Evidence, Morph Segmentation, Semi-supervised Learning
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişsel Bilim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 159

Özet

Türkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedeki kelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimsel sözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altı parçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilen bir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılması bir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimlerin gücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır. Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafından eğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır. Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişsel bilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahte kelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller bu çalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendiren konuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelik çarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insan düzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel bir öğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine has değildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı ve istatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyle tahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.

Özet (Çeviri)

Turkish is an agglutinating language with a non-rigid word order. When communicating, the word internal structure in Turkish is required to be segmented because Turkish morphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing a sub-word unit actually means performing a morph segmentation task, which is accomplished by children at an astonishing success rate. In this study, morph segmentation of Turkish words was demonstrated with a semi-supervised Hidden Markov Model, which emphasized the power of frequencies and sequences as direct (or indirect negative) evidence for language acquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measures after being trained by the METU Corpus and the METU-Sabancı Turkish Treebank. Additionally, statistical approaches were offered for compound word recognition and segmentation. In order to corroborate the use of frequencies in the cognitive studies, the experimental studies and the corresponding statistical models in Turkish emphatic reduplication and the acceptability of nonce words were also proposed in this study. This study shows that since the probability mass in child-directed speech is skewed toward possible word forms and unlikely morph sequences, this mass can be used by various models to mimic human-level linguistic capabilities. Furthermore, human beings have a statistical learning ability and it is not specific to the faculty of language as claimed by nativists but to general cognition. This allows the plausible and valid use of computational and statistical models to analyze language. Such predictive models can allow a deeper understanding of language.

Benzer Tezler

  1. Lanczos metodunun esasları

    Başlık çevirisi yok

    GÜNDÜZ ÜMİT

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. METİN GÜRGÖZE

  2. Yaşlıların düşme tespiti ve bilgilendirme sistemi tasarımı

    Fall detection and notification system design for elderly people

    FİKRİ ELMAS

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Biyomühendislikİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. SERKAN TÜRKELİ

  3. Rotorlarda eksen kaçıklığının modellenmesi ve etkileri

    Modelling of misalignment on the rotors and effects

    DENİZ BİRKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Teorisi ve Dinamiği Ana Bilim Dalı

    PROF. DR. H. TEMEL BİLEK

  4. 7-10 yaş grubu çocuklarda obezite tanı ve izleminde kullanılan iki farklı yöntemin uyumunun değerlendirilmesi

    Evaluation of consistency of two different methods used for diagnosis and monitoring obesity in children at 7-10 years of age

    BETÜL AKBAY

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2019

    Halk SağlığıPamukkale Üniversitesi

    Halk Sağlığı Ana Bilim Dalı

    DOÇ. DR. ÖZGÜR SEVİNÇ

  5. Çift diyodlu simetrik olmayan bir gunn osilatörünün çalışma karakteristiklerinin teorik ve deneysel incelenmesi

    Theoretical and experimental analysis of an asymmetrically loaded two-diode gunn oscillator

    CEVDET IŞIK