Geri Dön

Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması

Semantic relation extraction by conditional random fields from Turkish Wikipedia pages

  1. Tez No: 364154
  2. Yazar: CANAN GİRGİN
  3. Danışmanlar: DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

Varlıklar arası ilişkiler semantik arama teknolojilerindeki en önemli yapı taşlarını oluşturmaktadır. Semantik arama teknolojisini kullanan ürünler, altyapılarında varlıklar arasındaki ilişkilerin tutulduğu veri depolarını barındırmaktadırlar. Varlıklar arasındaki ilişkilerin çıkarımında çeşitli“İlişki Çıkarımı”(Relation Extraction) uygulamaları yapılmaktadır. Bu çalışmada, Türkçe Wikipedia sayfalarından varlıklar arasındaki ilişkilerin çıkarımı amaçlanmıştır. Gerçekleştirilmiş olan çalışma genel hatları ile 4 modülden oluşmaktadır. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Türkçe Wikipedia sayfalarının tamamının elde edilebilmesi için Wikipedia dumplarından yararlanılmıştır1. Wikipedia dumplarının parse edilmesi ve çalışma esnasında kullanılacak verilerin veri tabanına aktarılması için“Pars”uygulaması gerçekleştirilmiştir. Makalelerde bulunan varlıklar arası ilişkilerin çıkarımı esnasında Şartlı Rastgele Alanlar (CRF) kullanılmıştır. Şartlı Rastgele Alanlar altyapısının kullanılabilmesi için etiketlenmiş bir eğitim setine ihtiyaç vardır. Wikipedia sayfalarında metinlerde anlatılan konular ile ilgili özet bilgilerin yapısal olarak kişiler tarafından doldurulduğu bilgi kutusu bölümleri bulunmaktadır.“Pars”uygulaması ile bu veriler ayrıştırılmıştır. Otomatik olarak eğitim setinin oluşturulabilmesi için geliştirilmiş olan“CAT”uygulaması ile bilgi kutularından çıkarılan veriler kullanılarak Şartlı Rastgele Alanlar altyapısı için gerekli olan eğitim seti üretilmiştir. Wikipedia metinlerinden Şartlı Rastgele Alanlar altyapısı ile ilişkilerin çıkarımı için“Köstebek”uygulaması gerçeklenmiştir. Eğitim setine dâhil edilmemiş Wikipedia verileri üzerinden sistem çalıştırılarak, sistemin çıktılarının doğruluğunu otomatik olarak ölçümleyebilmek için“Terazi”uygulaması gerçeklenmiştir. Bu uygulamada çıktılar ile metinlere ait bilgi kutusunda belirtilen değerler karşılaştırılarak ölçümleme yapılmıştır.

Özet (Çeviri)

Relations between entities constitute the most important fundamental parts of semantic search technologies. The products that use semantic search technologies include datastores which keep relations between entities in their infrastructures. Various Relation Extraction applications are done in the extraction of the relations between entities. In this work, it is aimed to extract relations between entities from Turkish Wikipedia pages. The work done in this paper mainly consist of 4 modules. 1- Pars (Wikipedia Parser) 2- CAT (CRF Automatic Trainer) 3- Köstebek (Relation Extractor) 4- Terazi (Evaluator) Wikipedia dumps are used in order to obtain all Turkish Wikipedia pages.“Pars”application is implemented to parse Wikipedia dumps and transfer the data, which is to be used during the study, to the database. Conditional Random Fields (CRF) is used during the extraction of relations between entities in the article. A tagged training set is needed for use of Conditional Random Fields infrastructure. Wikipedia pages include information boxes which consist of text summaries filled by human beings constitutionally. This data is indexed by using“Pars”application. By using the“CAT”application, which is developed for creating training sets automatically, data is extracted from these information boxes and the training set, which is required for Conditional Random Fields infrastructure, is produced.“Köstebek”application is implemented in order to extract the relations from Wikipedia texts by using Conditional Random Fields infrastructure. By operating the system on the Wikipedia data that excluded from training set,“Terazi”application is implemented to evaluate the correctness of system outputs automatically. Basically in this application, the values of the information boxes belong to Wikipedia texts and these outputs are compared and ended up with an evaluation.

Benzer Tezler

  1. Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma

    Named entity recognition by conditional random fields from Turkish informal texts

    SERAP ÖZKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  2. Ardışık şartlı rastgele alanlarla sekans etiketleme

    Sequence labeling with stacked conditional random fields

    METİN BİLGİN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET FATİH AMASYALI

  3. Türkçe twitter'da soru algılama

    Question identification on Turkish twitter

    ZEYNEP BANU ÖZGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  4. Named entity recognition in Turkish with Bayesian learning and hybrid approaches

    Bayes öğrenme ve hibrit yaklaşımlar ile Türkçede varlık ismi tanıma

    SERMET REHA YAVUZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    DR. DİLEK KÜÇÜK

    PROF. DR. ADNAN YAZICI

  5. İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

    ITU NER - named entity recognition on Turkish texts

    GÖKHAN AKIN ŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT