Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması
Semantic relation extraction by conditional random fields from Turkish Wikipedia pages
- Tez No: 364154
- Danışmanlar: DOÇ. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Varlıklar arası ilişkiler semantik arama teknolojilerindeki en önemli yapı taşlarını oluşturmaktadır. Semantik arama teknolojisini kullanan ürünler, altyapılarında varlıklar arasındaki ilişkilerin tutulduğu veri depolarını barındırmaktadırlar. Varlıklar arasındaki ilişkilerin çıkarımında çeşitli“İlişki Çıkarımı”(Relation Extraction) uygulamaları yapılmaktadır. Bu çalışmada, Türkçe Wikipedia sayfalarından varlıklar arasındaki ilişkilerin çıkarımı amaçlanmıştır. Gerçekleştirilmiş olan çalışma genel hatları ile 4 modülden oluşmaktadır. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Türkçe Wikipedia sayfalarının tamamının elde edilebilmesi için Wikipedia dumplarından yararlanılmıştır1. Wikipedia dumplarının parse edilmesi ve çalışma esnasında kullanılacak verilerin veri tabanına aktarılması için“Pars”uygulaması gerçekleştirilmiştir. Makalelerde bulunan varlıklar arası ilişkilerin çıkarımı esnasında Şartlı Rastgele Alanlar (CRF) kullanılmıştır. Şartlı Rastgele Alanlar altyapısının kullanılabilmesi için etiketlenmiş bir eğitim setine ihtiyaç vardır. Wikipedia sayfalarında metinlerde anlatılan konular ile ilgili özet bilgilerin yapısal olarak kişiler tarafından doldurulduğu bilgi kutusu bölümleri bulunmaktadır.“Pars”uygulaması ile bu veriler ayrıştırılmıştır. Otomatik olarak eğitim setinin oluşturulabilmesi için geliştirilmiş olan“CAT”uygulaması ile bilgi kutularından çıkarılan veriler kullanılarak Şartlı Rastgele Alanlar altyapısı için gerekli olan eğitim seti üretilmiştir. Wikipedia metinlerinden Şartlı Rastgele Alanlar altyapısı ile ilişkilerin çıkarımı için“Köstebek”uygulaması gerçeklenmiştir. Eğitim setine dâhil edilmemiş Wikipedia verileri üzerinden sistem çalıştırılarak, sistemin çıktılarının doğruluğunu otomatik olarak ölçümleyebilmek için“Terazi”uygulaması gerçeklenmiştir. Bu uygulamada çıktılar ile metinlere ait bilgi kutusunda belirtilen değerler karşılaştırılarak ölçümleme yapılmıştır.
Özet (Çeviri)
Relations between entities constitute the most important fundamental parts of semantic search technologies. The products that use semantic search technologies include datastores which keep relations between entities in their infrastructures. Various Relation Extraction applications are done in the extraction of the relations between entities. In this work, it is aimed to extract relations between entities from Turkish Wikipedia pages. The work done in this paper mainly consist of 4 modules. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Wikipedia dumps are used in order to obtain all Turkish Wikipedia pages.“Pars”application is implemented to parse Wikipedia dumps and transfer the data, which is to be used during the study, to the database. Conditional Random Fields (CRF) is used during the extraction of relations between entities in the article. A tagged training set is needed for use of Conditional Random Fields infrastructure. Wikipedia pages include information boxes which consist of text summaries filled by human beings constitutionally. This data is indexed by using“Pars”application. By using the“CAT”application, which is developed for creating training sets automatically, data is extracted from these information boxes and the training set, which is required for Conditional Random Fields infrastructure, is produced.“Köstebek”application is implemented in order to extract the relations from Wikipedia texts by using Conditional Random Fields infrastructure. By operating the system on the Wikipedia data that excluded from training set,“Terazi”application is implemented to evaluate the correctness of system outputs automatically. Basically in this application, the values of the information boxes belong to Wikipedia texts and these outputs are compared and ended up with an evaluation.
Benzer Tezler
- Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Ardışık şartlı rastgele alanlarla sekans etiketleme
Sequence labeling with stacked conditional random fields
METİN BİLGİN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MEHMET FATİH AMASYALI
- Türkçe twitter'da soru algılama
Question identification on Turkish twitter
ZEYNEP BANU ÖZGER
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Named entity recognition in Turkish with Bayesian learning and hybrid approaches
Bayes öğrenme ve hibrit yaklaşımlar ile Türkçede varlık ismi tanıma
SERMET REHA YAVUZ
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
DR. DİLEK KÜÇÜK
PROF. DR. ADNAN YAZICI
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT