Geri Dön

Unsupervised joint part-of-speech tagging and stemming for agglutinative languages

Sondan eklemeli dillerde gözetimsiz eşzamanlı sözcük türü işaretleme ve gövdeleme

  1. Tez No: 478489
  2. Yazar: NECVA BÖLÜCÜ
  3. Danışmanlar: YRD. DOÇ. DR. BURCU CAN BUĞLALILAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 108

Özet

Sözcük türü işaretleme, cümledeki fiil, isim, sıfat v.b. sözdizimsel rolüne bakarak her bir sözcüğe uygun etiketin atanmasıdır. Bu işlem için çeşitli yöntemler önerilmiştir. Morfolojik olarak zengin ve üretken sondan eklemeli dillerde sözcük formlarının sayısı teorik olarak sonsuzdur. Sözcük formlarındaki bu çeşitlilik, sondan eklemeli dillerde etiketleme işleminde seyreklik problemi yaratmaktadır. Bu tezde sözcük türü işaretleme ve gövdeleme işlemlerini eşzamanlı gerçekleştirerek sondan eklemeli dillerde bu problemin üstesinden gelmeyi amaçlamaktayız. Gövdeleme, bir sözcüğü eklerinden ayırarak gövdeyi bulma işlemidir. Birleşik sözcük türü işaretleme ve gövdeleme, sözcükler yerine gövde ve ekler kullanarak seyreklik problemini azaltmaktadır. Ayrıca, gövde ve gövdeden türetilmiş sözcük arasındaki benzerli˘gi yakalamak için anlamsal özelliklerden yararlanmaktayız. Bu tezde, sondan eklemeli dillerde birleşik sözcük türü işaretleme ve gövdeleme işlemi gerçekleştirmek için tamamen gözetimsiz Bayesian Saklı Markov modeli sunulmuştur. Sonuçlar, özellikle sondan eklemeli diller için sözcükler yerine gövdeler ve eklerinin kullanılmasının sözcük tabanlı Bayesian HMM modelinden daha iyi olduğunu göstermektedir. Anlamsal özelliklerin eklenmesi ise gövdelemede belirgin bir iyileşme göstermektedir.

Özet (Çeviri)

Part of Speech (PoS) tagging is the task of assigning each word an appropriate part of speech tag in a given sentence regarding its syntactic role such as verb, noun, adjective etc. Various approaches have already been proposed for this task. However, the number of word forms in morphologically rich and productive agglutinative languages is theoretically infinite. This variety in word forms causes sparsity problem in the tagging task for agglutinative languages. In this thesis, we aim to deal with this problem in agglutinative languages by performing PoS tagging and stemming simultaneously. Stemming is the process of finding the stem of a word by removing its suffixes. Joint PoS tagging and stemming reduces sparsity by using stems and suffixes instead of words. Furthermore, we incorporate semantic features to capture similarity between stems and their derived forms by using neural word embeddings. In this thesis, we present a fully unsupervised Bayesian model using Hidden Markov Model (HMM) for joint PoS tagging and stemming for agglutinative languages. The results indicate that using stems and suffixes rather than full words outperforms a simple word-based Bayesian HMM model for especially agglutinative languages. Combining semantic features yields a significant improvement in stemming.

Benzer Tezler

  1. Statistical models for unsupervised learning of morphology and PoS

    Gozetimsiz morfoloji ve soz dizim ısaretlerinin ogrenilmesi icin ıstatistiksel modeller

    BURCU CAN BUĞLALILAR

    Doktora

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYork University

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. SURESH MANANDHAR

  2. Coğrafi konum ve sensör verileri ile gözetimsiz sürücü performansı skorlama

    Unsupervised driver performance scoring using geographical position and sensor data

    OZAN FIRAT ÖZGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiTOBB Ekonomi ve Teknoloji Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HARUN TAHA HAYVACI

  3. Faktör analizi çözümlemesinde birleşik entropi yaklaşımı

    Joint entropy approach to factor analysis solution

    NİDA ORUÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikYıldız Teknik Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DOĞAN YILDIZ

  4. Uydu görüntüleri ile peyzaj tiplerinin belirlenmesinde mekansal çözünürlüğün etkisi

    Effect of spatial resolution of satellite image defining landscape types

    BERK HACIAĞAOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE FİLİZ SUNAR

  5. Yüksek mekansal çözünürlüklü uydu/uçak platformlu görüntüler ve CBS teknolojisi kullanılarak Van-Erciş depremi sonrası bina hasar tespiti

    Determination of building damage after Van-Ercis earthquake by using very high resolution satellite/aircraft platforms and GIS technology

    ASLI SABUNCU

    Doktora

    Türkçe

    Türkçe

    2018

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE FİLİZ SUNAR