Geri Dön

Türkçe için gözetimsiz sözdizimsel belirsizlik giderme

Unsupervised syntactic disambiguation for turkish

  1. Tez No: 479976
  2. Yazar: ÖZKAN ASLAN
  3. Danışmanlar: DOÇ. DR. SERKAN GÜNAL, DOÇ. DR. BEKİR TANER DİNÇER
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: Türkçe
  9. Üniversite: Anadolu Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Doğal dillerde bir tümce, her biri farklı yapısal yorumlara karşılık gelen birden çok sözdizim ağacı ile gösterilebilir. Bu durum sözdizimsel belirsizlik olarak adlandırılır. Sözdizimsel belirsizlik giderme, basitçe, tümceden elde edilen sözdizim ağaçlarının bağlama göre en uygun olandan en az uygun olana doğru sıralanmasıdır. Bu tezde, sözdizimsel belirsizlik giderme problemi Türkçe için ele alınmış ve gözetimsiz yönteme dayanan bir çözüm önerilmiştir. Yöntemin gözetimsiz olarak adlandırılmasının nedeni sözdizim ağaçlarının sıralanmasında kullanılan olasılık modellerinin imlenmemiş bir metin koleksiyonundan elde edilmiş olmasıdır. Tez kapsamında, sözdizimsel belirsizlik giderme işini gerçekleştirmek amacıyla, sözdizimsel çözümleyici, Morfolog adlı biçimbilimsel çözümleyici ve TrLex adlı sözlükçe gibi özgün altyapı ögeleri tasarlanmış ve bunları eşgüdümlü biçimde yöneten TMoST adlı bir dizge oluşturulmuştur. Ayrıca öbek yapı dilbilgisine dayanan yeni bir tümce çözümleme gösterimi önerilmiş ve bu gösterimde biçimbilimsel ve sözdizimsel yapıları birlikte işleyebilmeyi sağlayan ve dizimbirim adı verilen yeni bir kavram tanıtılmıştır. Çalışmada, bazıları özgün olan 24 olasılık modeli kullanılmıştır. Modellerin problem üzerindeki başarımını ölçmeye imkân veren AUT adlı bir ağaç yapılı derlem üretilmiştir. Alanyazında sözdizimsel belirsizlik giderme için başarım, en uygun ağacın sıralamada bulunduğu konum ile veya birinci sıradaki ağacın en uygun ağaca olan benzerliği ile ölçülmektedir. Tezde iki yeni başarım ölçüsü daha önerilmiş ve bağıntı adı verilen ölçünün daha kararlı olduğu değerlendirilmiştir. Olasılık modelleri tek başına kullanıldığında en iyi başarım, üçlü biçimbirim dil modeliyle elde edilmiştir. Modeller birleştirildiğinde ulaşılan en iyi bağıntı değeri ise yaklaşık 0,41 olmuştur.

Özet (Çeviri)

In natural languages, a sentence can be represented by more than one syntax tree, each one corresponding to different structural interpretations. This is called syntactic ambiguity. To put it simply, in syntactic disambiguation, the syntactic trees obtained from the sentence are ranked from the most appropriate to the least appropriate based on the context. In this dissertation, the problem of syntactic disambiguation is addressed for Turkish and a solution based on an unsupervised method is proposed. The reason for naming the proposed method as unsupervised is that the probability models used for sorting syntax trees are derived from an unannotated text collection. Within the scope of the dissertation, in order to realize the syntactic disambiguation process, novel infrastructure items including a syntactic parser, a morphologic analyzer called Morfolog, a lexicon called TrLex are designed and a system named TMoST that manages them in a coordinated manner is constituted. Besides, a new sentence representation based on phrase structure grammar is proposed and a new concept called syntheme, which allows morphological and syntactic structures to work together, is introduced. In the study, 24 probabilistic models, some of which are novel, are used. In order to measure the performance of the models over the problem, a treebank called AUT is constituted as well. In the literature, the performance for syntactic disambiguation is commonly measured by the position of the best tree in the ranking or by the similarity of the first tree to the best one. In the dissertation, two new performance measures are proposed and it is revealed that the measure called correlation is more stable. When the probabilistic models are used individiually, the best performance is obtained with the morpheme trigram language model. When the models are combined, the best correlation value is achieved as 0.41 approximately.

Benzer Tezler

  1. İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması

    Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems

    EZGİ YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. All-words word sense disambiguation in Turkish

    Türkçe tüm sözcükler için anlam belirsizliğini giderme

    SİNAN AKÇAKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OLCAY TANER YILDIZ

  3. Derinlemesine ayrılabilir evrişim ve LSTM ağları ile görüntülerden anlamsal ifade çıkarma

    Semantic expression extraction from images with depthwise separable convolution and LSTM networks

    EZGİSU ŞENEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAZİM İŞCAN

  4. Automating information extraction task for Turkish texts

    Türkçe metinlerden otomatik bilgi çıkarımı

    SERHAN TATAR

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. İLYAS ÇİÇEKLİ

    PROF. DR. ÖZGÜR ULUSOY

  5. Ağ bağlantılı veriler için gözetimsiz ikili öznitelik oluşturma yöntemi

    Unsupervised binary feature construction method for networked data

    ARZU KAKIŞIM

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM SOĞUKPINAR