Türkçe için gözetimsiz sözdizimsel belirsizlik giderme
Unsupervised syntactic disambiguation for turkish
- Tez No: 479976
- Danışmanlar: DOÇ. DR. SERKAN GÜNAL, DOÇ. DR. BEKİR TANER DİNÇER
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: Anadolu Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 115
Özet
Doğal dillerde bir tümce, her biri farklı yapısal yorumlara karşılık gelen birden çok sözdizim ağacı ile gösterilebilir. Bu durum sözdizimsel belirsizlik olarak adlandırılır. Sözdizimsel belirsizlik giderme, basitçe, tümceden elde edilen sözdizim ağaçlarının bağlama göre en uygun olandan en az uygun olana doğru sıralanmasıdır. Bu tezde, sözdizimsel belirsizlik giderme problemi Türkçe için ele alınmış ve gözetimsiz yönteme dayanan bir çözüm önerilmiştir. Yöntemin gözetimsiz olarak adlandırılmasının nedeni sözdizim ağaçlarının sıralanmasında kullanılan olasılık modellerinin imlenmemiş bir metin koleksiyonundan elde edilmiş olmasıdır. Tez kapsamında, sözdizimsel belirsizlik giderme işini gerçekleştirmek amacıyla, sözdizimsel çözümleyici, Morfolog adlı biçimbilimsel çözümleyici ve TrLex adlı sözlükçe gibi özgün altyapı ögeleri tasarlanmış ve bunları eşgüdümlü biçimde yöneten TMoST adlı bir dizge oluşturulmuştur. Ayrıca öbek yapı dilbilgisine dayanan yeni bir tümce çözümleme gösterimi önerilmiş ve bu gösterimde biçimbilimsel ve sözdizimsel yapıları birlikte işleyebilmeyi sağlayan ve dizimbirim adı verilen yeni bir kavram tanıtılmıştır. Çalışmada, bazıları özgün olan 24 olasılık modeli kullanılmıştır. Modellerin problem üzerindeki başarımını ölçmeye imkân veren AUT adlı bir ağaç yapılı derlem üretilmiştir. Alanyazında sözdizimsel belirsizlik giderme için başarım, en uygun ağacın sıralamada bulunduğu konum ile veya birinci sıradaki ağacın en uygun ağaca olan benzerliği ile ölçülmektedir. Tezde iki yeni başarım ölçüsü daha önerilmiş ve bağıntı adı verilen ölçünün daha kararlı olduğu değerlendirilmiştir. Olasılık modelleri tek başına kullanıldığında en iyi başarım, üçlü biçimbirim dil modeliyle elde edilmiştir. Modeller birleştirildiğinde ulaşılan en iyi bağıntı değeri ise yaklaşık 0,41 olmuştur.
Özet (Çeviri)
In natural languages, a sentence can be represented by more than one syntax tree, each one corresponding to different structural interpretations. This is called syntactic ambiguity. To put it simply, in syntactic disambiguation, the syntactic trees obtained from the sentence are ranked from the most appropriate to the least appropriate based on the context. In this dissertation, the problem of syntactic disambiguation is addressed for Turkish and a solution based on an unsupervised method is proposed. The reason for naming the proposed method as unsupervised is that the probability models used for sorting syntax trees are derived from an unannotated text collection. Within the scope of the dissertation, in order to realize the syntactic disambiguation process, novel infrastructure items including a syntactic parser, a morphologic analyzer called Morfolog, a lexicon called TrLex are designed and a system named TMoST that manages them in a coordinated manner is constituted. Besides, a new sentence representation based on phrase structure grammar is proposed and a new concept called syntheme, which allows morphological and syntactic structures to work together, is introduced. In the study, 24 probabilistic models, some of which are novel, are used. In order to measure the performance of the models over the problem, a treebank called AUT is constituted as well. In the literature, the performance for syntactic disambiguation is commonly measured by the position of the best tree in the ranking or by the similarity of the first tree to the best one. In the dissertation, two new performance measures are proposed and it is revealed that the measure called correlation is more stable. When the probabilistic models are used individiually, the best performance is obtained with the morpheme trigram language model. When the models are combined, the best correlation value is achieved as 0.41 approximately.
Benzer Tezler
- İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması
Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems
EZGİ YILDIRIM
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- All-words word sense disambiguation in Turkish
Türkçe tüm sözcükler için anlam belirsizliğini giderme
SİNAN AKÇAKAYA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OLCAY TANER YILDIZ
- Derinlemesine ayrılabilir evrişim ve LSTM ağları ile görüntülerden anlamsal ifade çıkarma
Semantic expression extraction from images with depthwise separable convolution and LSTM networks
EZGİSU ŞENEL
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKonya Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAZİM İŞCAN
- Automating information extraction task for Turkish texts
Türkçe metinlerden otomatik bilgi çıkarımı
SERHAN TATAR
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. İLYAS ÇİÇEKLİ
PROF. DR. ÖZGÜR ULUSOY
- Ağ bağlantılı veriler için gözetimsiz ikili öznitelik oluşturma yöntemi
Unsupervised binary feature construction method for networked data
ARZU KAKIŞIM
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM SOĞUKPINAR