Geri Dön

Statistical models for unsupervised learning of morphology and PoS

Gozetimsiz morfoloji ve soz dizim ısaretlerinin ogrenilmesi icin ıstatistiksel modeller

  1. Tez No: 747430
  2. Yazar: BURCU CAN BUĞLALILAR
  3. Danışmanlar: PROF. DR. SURESH MANANDHAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: York University
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 214

Özet

Bu tezde dogal diller icin gozetimsiz ogrenme yontemleri kullanilarak dildeki morfoloji ve sozdizim isaretlerinin ogrenilmesi amaclanmistir. Bu amacla Bayesian istatistiksel yontemler kullanilmistir. Tezde onerilen yontemler Turkce basta olmak uzere Ingilizce gibi farkli diller uzerinde de test edilmis ve sonuclar sunulmustur.

Özet (Çeviri)

In this thesis unsupervised learning techniques have been applied to learn morphology and part-of-speech tags. To this This thesis concentrates on two fields in natural language processing. The main contribution of the thesis is in the field of morphology learning. Morphology is the study of how words are formed combining different language constituents (called morphemes) and morphology learning is the process of analysing words, by splitting into these constituents. In the scope of this thesis, morphology is learned mainly by paradigmatic approaches, in which words are analysed in groups, called paradigms. Paradigms are morphological structures having the capability of generating various word forms. We propose approaches for capturing paradigms to perform morphological segmentation. One of the approaches proposed captures paradigms within a hierarchical tree structure. Using a hierarchical structure covers a wide range of paradigms by spotting morphological similarities. The second scope of the thesis is part-of-speech (POS) tagging. Parts-ofspeech are linguistic categories, which group words having similar syntactic features, i.e. noun, adjective, verb etc. In the thesis, we investigate how to exploit POS tags to learn morphology. We propose a model to capture paradigms through syntactic categories. When syntactic categories are provided, the proposed system can capture paradigms well. Following this approach, we extend it for the case of having no syntactic categories provided. To this end, we propose a joint model, in which POS tags and morphology are learned simultaneously Our results show that a joint model is possible for learning morphology and POS tagging. We also study morpheme labelling, for which we propose a clustering algorithm that groups morphemes showing similar features. The algorithm can capture morphemes having similar meanings.

Benzer Tezler

  1. Unsupervised learning of word alignments for statistical machine translation

    İstatistiksel makine çevirisi için kelime hizalamalarının gözetimsiz öğrenimi

    COŞKUN MERMER

    Doktora

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

    DOÇ. DR. RUHİ SARIKAYA

  2. Açıklanabilir yapay zeka ve akustik sinyaller kullanılarak endüstriyel makinelerde anomali tespiti

    Anomaly detection in industrial machines using explainable ai and acoustic signals

    BETÜL SENA ÇAĞLAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. DEVRİM AKGÜN

  3. Veri merkezleri için makine öğrenmesi temelli izleme sistemi tasarımı

    Machine learning based monitoring system design for data centers

    METEHAN HAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAH SEVİN

  4. Tip-2 bulanık öbekleme yöntemleri ile zaman serilerinin modellenmesi

    Time series modelling with Type-2 fuzzy clustering methods

    MEHMET FURKAN DODURKA

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ENGİN YEŞİL

  5. Using co-training to empower active learning

    Aktif öğrenmeyi güçlendirmek için eş-öğrenme kullanılması

    PAYAM VAKILZADEH AZAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. YUSUF YASLAN