Geri Dön

Automating information extraction task for Turkish texts

Türkçe metinlerden otomatik bilgi çıkarımı

  1. Tez No: 277012
  2. Yazar: SERHAN TATAR
  3. Danışmanlar: DR. İLYAS ÇİÇEKLİ, PROF. DR. ÖZGÜR ULUSOY
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 128

Özet

Tarih boyunca, kaynakların yetersizliği insanoğlu için sorun olmuştur. Ne var ki günümüz bilgi dünyasında, kaynakların yetersizliğinden ziyade kaynak fazlalığının sebep olduğu yeni bir problem türüyle karşı karşıyayız. Aşırı bilgi, ihtiyaç duyulan bilginin bulunmasını ve çıkarımını gerektirmektedir. Bilgi çıkarımı, ihtiyaç duyulan nesnelerin, ilişkilerin, gerçeklerin veya olayların, doğal dildeki serbest metinler içerisinde bulunması olarak tanımlanabilir. Bu bağlamda bilgi çıkarımı, doğal dildeki yapısal olmayan metinlerin çözümlenmesi ve bu metinlerin ihtiva ettiği gerekli bilginin yapısal bir şablona aktarılması işlemidir.Bu çalışmanın amacı Türkçe serbest metinlerdeki bilgiyi otomatik olarak bulan ve çıkaran bir sistemin geliştirilmesidir. Çalışma iki temel bilgi çıkarımı görevine odaklanmaktadır: Ad Tanıma ve İlişki Bulma. En temel bilgi çıkarımı görevlerinden olan Ad Tanıma, serbest metinlerde geçen varlık isimlerinin (insan, yer, organizasyon vb.) bulunmasıdır. İlişki Bulma görevi ise, metinlerde bahsedilen varlıklar arasındaki ilişkileri bulmaya çalışır.Gözetimli öğrenme stratejisini kullanan sistem, öğrenme kümesinden seçilen örnek kümesi ile başlayıp bilgi çıkarım kurallarını üretmektedir. Ayrıca, genelleştirmenin ve doğruluğun maksimize edilmesi amacıyla kural filtreleme ve kural iyileştirme teknikleri kullanılmaktadır. Hassas genelleştirmenin sağlanması maksadıyla imla, bağlam, sözcük, biçim gibi çeşitli sözdizimsel ve anlamsal metin özelliklerinden faydalanılmaktadır. Özellikle, bitişimli bir dil olan Türkçe'den bilgi çıkarımı başarımının artırılması için biçimbilimsel özellikler etkin olarak kullanılmıştır. Sistem elle üretilen kurallar üzerine dayanmadığı için alan uyumluluğu probleminden ciddi olarak etkilenmemektedir.Yapılan test sonuçları, (1) geliştirilen sistemin Ad Tanıma ve İlişki Bulma görevlerine başarılı bir şekilde uygulandığını, ve (2) biçimbilimsel özelliklerin kullanımının, bitişimli bir dil olan Türkçe'den bilgi çıkarımı işleminin performansını önemli ölçüde artırdığını göstermiştir.

Özet (Çeviri)

Throughout history, mankind has often suffered from a lack of necessary resources. In today's information world, the challenge can sometimes be a wealth of resources. That is to say, an excessive amount of information implies the need to find and extract necessary information. Information extraction can be defined as the identification of selected types of entities, relations, facts or events in a set of unstructured text documents in a natural language.The goal of our research is to build a system that automatically locates and extracts information from Turkish unstructured texts. Our study focuses on two basic Information Extraction (IE) tasks: Named Entity Recognition and Entity Relation Detection. Named Entity Recognition, finding named entities (persons, locations, organizations, etc.) located in unstructured texts, is one of the most fundamental IE tasks. Entity Relation Detection task tries to identify relationships between entities mentioned in text documents.Using supervised learning strategy, the developed systems start with a set of examples collected from a training dataset and generate the extraction rules from the given examples by using a carefully designed coverage algorithm. Moreover, several rule filtering and rule refinement techniques are utilized to maximize generalization and accuracy at the same time. In order to obtain accurate generalization, we use several syntactic and semantic features of the text, including: orthographical, contextual, lexical and morphological features. In particular, morphological features of the text are effectively used in this study to increase the extraction performance for Turkish, an agglutinative language. Since the system does not rely on handcrafted rules/patterns, it does not heavily suffer from domain adaptability problem.The results of the conducted experiments show that (1) the developed systems are successfully applicable to the Named Entity Recognition and Entity Relation Detection tasks, and (2) exploiting morphological features can significantly improve the performance of information extraction from Turkish, an agglutinative language.

Benzer Tezler

  1. TFEEC : Türkçe finansal olay çıkarım derlemi

    TFEEC : Turkish financial event extraction corpus

    KADİR ŞİNAS KAYNAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  4. Open domain factoid question answering system

    Tek yanıtlı sorular için açık alanlı soru yanıtlama sistemi

    FARHAD SOLEİMANİAN GHAREHCHOPOGH

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

  5. Control Methodologies in Hexahedral Mesh Generation

    Yapısal olmayan düzgün altıyüzlü çözüm ağları için kontrol metodolojileri

    ÖZGÜR UĞRAŞ BARAN

    Doktora

    İngilizce

    İngilizce

    2005

    Makine MühendisliğiVrije Universiteit Brussel

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. CHARLES HIRSCH