Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması

Semantic relation extraction by conditional random fields from Turkish Wikipedia pages

PDF İndir

Tez No: 364154
Yazar: CANAN GİRGİN
Danışmanlar: DOÇ. DR. BANU DİRİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 70

Özet

Varlıklar arası ilişkiler semantik arama teknolojilerindeki en önemli yapı taşlarını oluşturmaktadır. Semantik arama teknolojisini kullanan ürünler, altyapılarında varlıklar arasındaki ilişkilerin tutulduğu veri depolarını barındırmaktadırlar. Varlıklar arasındaki ilişkilerin çıkarımında çeşitli“İlişki Çıkarımı”(Relation Extraction) uygulamaları yapılmaktadır. Bu çalışmada, Türkçe Wikipedia sayfalarından varlıklar arasındaki ilişkilerin çıkarımı amaçlanmıştır. Gerçekleştirilmiş olan çalışma genel hatları ile 4 modülden oluşmaktadır. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Türkçe Wikipedia sayfalarının tamamının elde edilebilmesi için Wikipedia dumplarından yararlanılmıştır1. Wikipedia dumplarının parse edilmesi ve çalışma esnasında kullanılacak verilerin veri tabanına aktarılması için“Pars”uygulaması gerçekleştirilmiştir. Makalelerde bulunan varlıklar arası ilişkilerin çıkarımı esnasında Şartlı Rastgele Alanlar (CRF) kullanılmıştır. Şartlı Rastgele Alanlar altyapısının kullanılabilmesi için etiketlenmiş bir eğitim setine ihtiyaç vardır. Wikipedia sayfalarında metinlerde anlatılan konular ile ilgili özet bilgilerin yapısal olarak kişiler tarafından doldurulduğu bilgi kutusu bölümleri bulunmaktadır.“Pars”uygulaması ile bu veriler ayrıştırılmıştır. Otomatik olarak eğitim setinin oluşturulabilmesi için geliştirilmiş olan“CAT”uygulaması ile bilgi kutularından çıkarılan veriler kullanılarak Şartlı Rastgele Alanlar altyapısı için gerekli olan eğitim seti üretilmiştir. Wikipedia metinlerinden Şartlı Rastgele Alanlar altyapısı ile ilişkilerin çıkarımı için“Köstebek”uygulaması gerçeklenmiştir. Eğitim setine dâhil edilmemiş Wikipedia verileri üzerinden sistem çalıştırılarak, sistemin çıktılarının doğruluğunu otomatik olarak ölçümleyebilmek için“Terazi”uygulaması gerçeklenmiştir. Bu uygulamada çıktılar ile metinlere ait bilgi kutusunda belirtilen değerler karşılaştırılarak ölçümleme yapılmıştır.

Özet (Çeviri)

Relations between entities constitute the most important fundamental parts of semantic search technologies. The products that use semantic search technologies include datastores which keep relations between entities in their infrastructures. Various Relation Extraction applications are done in the extraction of the relations between entities. In this work, it is aimed to extract relations between entities from Turkish Wikipedia pages. The work done in this paper mainly consist of 4 modules. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Wikipedia dumps are used in order to obtain all Turkish Wikipedia pages.“Pars”application is implemented to parse Wikipedia dumps and transfer the data, which is to be used during the study, to the database. Conditional Random Fields (CRF) is used during the extraction of relations between entities in the article. A tagged training set is needed for use of Conditional Random Fields infrastructure. Wikipedia pages include information boxes which consist of text summaries filled by human beings constitutionally. This data is indexed by using“Pars”application. By using the“CAT”application, which is developed for creating training sets automatically, data is extracted from these information boxes and the training set, which is required for Conditional Random Fields infrastructure, is produced.“Köstebek”application is implemented in order to extract the relations from Wikipedia texts by using Conditional Random Fields infrastructure. By operating the system on the Wikipedia data that excluded from training set,“Terazi”application is implemented to evaluate the correctness of system outputs automatically. Basically in this application, the values of the information boxes belong to Wikipedia texts and these outputs are compared and ended up with an evaluation.

Benzer Tezler

Tez No
332828
Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
Tez No
414138
Ardışık şartlı rastgele alanlarla sekans etiketleme
Sequence labeling with stacked conditional random fields
METİN BİLGİN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MEHMET FATİH AMASYALI
Tez No
364134
Türkçe twitter'da soru algılama
Question identification on Turkish twitter
ZEYNEP BANU ÖZGER
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
Tez No
305090
Named entity recognition in Turkish with Bayesian learning and hybrid approaches
Bayes öğrenme ve hibrit yaklaşımlar ile Türkçede varlık ismi tanıma
SERMET REHA YAVUZ
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Bölümü
DR. DİLEK KÜÇÜK
PROF. DR. ADNAN YAZICI
Tez No
798113
İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT

Geri Dön