Geri Dön

An approach to morphological disambiguation problem using conditional random fields

Koşullu rassal alan algoritması ile biçimbirimsel denkleştirme sorununa bir çözüm önerisi

  1. Tez No: 259022
  2. Yazar: BÜLENT BURAK ARSLAN
  3. Danışmanlar: PROF. DR. KEMAL OFLAZER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

Biçimbilim, dilbilimin kelimelerin dahili yapısıyla ilgilenen alt dalıdır.\emph{Biçimbirimsel denkleştirme} işlemi ise, bir kelimenin biçimbirimsel yapısını belirleme işinin, eldeki kelimeye karşılık gelen biçimbirim kombinasyonlarının listelenmesi işleminin yapıldığı ilk adımıdır.Eğer eldeki kelimeye karşılık gelen böyle birden fazla biçimbirimsel analiz varsa, kelimenin \emph{biçimbirimsel belirsizliğinden} söz edebiliriz.Bütün dillerin kelimelerinde biçimbirimsel belirsizlik gözlemlenebilmesine rağmen, bu sorun farklı dillerde farklı zorluklar barındırmaktadır.Bu çalışmada, koşullu rassal alan algoritması ile türkçe kelimelerin biçimbirimsel belirsizliğinin kaldırılması sorununa bir çözüm önerisi tanıtılmaktadır. Koşullu rassal alan algoritması, türkçenin kelime ve etiket kümelerinin boyutundan kaynaklanan veri seyrekliği sorunlarını, yapısal özelliklerinden dolayı geçersiz kılan bir istatistiksel analiz yöntemidir. Bu yöntem ile, eldeki verinin kolayca doğrulanabilen özelliklerini kullanan basit fonksiyonlara dayanan istatistiksel modeller elde edilmektedir. Biçimbirimlerin tek tek doğrulanabilmesiyle kazanılan yüksek ifade gücü sayesinde, basit ikili bir model kullanarak aldığımız sonuçlar en modern çalışmalarla aynı seviyededir.

Özet (Çeviri)

Morphology is the subfield of linguistics that studies the internal structures of words.\emph{Morphological analysis} is the first step in revealing this structure by enumerating possible underlying morphological unit combinations that describe the surface form of a given word.The given surface form is said to be \emph{morphologically ambiguous}, when more than one analysis corresponds to the given surface form.While words in every natural language may manifest morphological ambiguity, solving the problem of morphological disambiguation presents different challenges for different languages.In this work, we present an approach to this problem using Conditional Random Fields, a statistical framework that elegantly avoids data sparseness problems arising from the large vocabulary and tag set sizes, a characteristic of Turkish language. CRFs are used to build statistical models that rely on simple functions of easily testable properties of the training data at hand. Thanks to higher expressiveness gained by using tests on individual morphological markers, our results are in line with the state-of-the-art, using only a simple one-dimensional bigram chain model.

Benzer Tezler

  1. Turkish morphological disambiguation using multiple conditional random fields

    Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme

    RAZIEH EHSANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. GÜLŞEN ERYİĞİT

  2. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Türkçe tümcelerin öğelerinin bulunması

    Finding constituents of Turkish sentences

    NİLAY COŞKUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  4. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Integrating morphology into automatic speech recognition: Morpholexical and discriminative language models for Turkish

    Biçimbilimin otomatik konuşma tanımaya bütünleştirilmesi: Türkçe için biçimsözlüksel ve ayırıcı dil modelleri

    HAŞİM SAK

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT SARAÇLAR

    DOÇ. DR. TUNGA GÜNGÖR