Geri Dön

Named entity recognition in Turkish with Bayesian learning and hybrid approaches

Bayes öğrenme ve hibrit yaklaşımlar ile Türkçede varlık ismi tanıma

  1. Tez No: 305090
  2. Yazar: SERMET REHA YAVUZ
  3. Danışmanlar: DR. DİLEK KÜÇÜK, PROF. DR. ADNAN YAZICI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Bilgi Çıkarımı (BÇ), doğal dildeki yapısal olmayan metin belgele kümelerinden; yapısal önemli bilgi parçalarını çıkarma işlemidir. Yapısal bilgi çıkarımının nihai amacı bir veritabanını doldurmak ve veriye etkili bir şekilde erişebilmektir. Bizim araştırmamız, BÇ'nin önemli bir alt görevi olan Varlık İsmi Tanıma (VİT) üzerine odaklanmaktadır. VİT görevi; kişi adları, yer adları, organizasyonlar, zamansal ifadeler (tarih ve saat), sayısal ifadeler (para ve yüzde) gibi varlık isimlerininin tanıması ile ilgilenir. Türkçe için VİT araştırmalarının nadir olduğu bilinmektedir. Türkçe için elle oluşturulmuş kural tabanlı, öğrenme tabanlı ve melez VİT çalışmaları bulunmaktadır. Türkçe VİT için kullanılan bazı öğrenme yaklaşımları; şartlı rastgele alanlar (CRF), ezber öğrenme, kural çıkarım ve genellemesi olarak örneklenebilir.Biz bu tezde, öğrenme yaklaşımı olarak Bayes yaklaşımının değiştirilmiş bir versiyonunu kullanan öğrenme tabanlı bir Türkçe varlık ismi tanıma sistemi öne sürmekteyiz. Bildiğimiz kadarıyla, bu sistem Bayes yöntemini Türkçe varlık ismi tanıma için kullanan ilk sistemdir. Farklı özelliklerin kullanımının VİT işlemine etkisini görmek için sistemde birkaç farklı özellik türü (sözcük uzunluğu, büyük-küçük harf kullanımı, sözlük anlamı gibi) kullanılmıştır. Ayrıca öğrenme tabanlı sistemin, kural tabanlı bir sistemle birlikte kullanımından oluşan hibrit bir sistem de öne sürmekteyiz. Hibrit sistemin iki farklı versiyonu bulunmaktadır. Bu versiyonlarda, kural tabanlı sistemin çıktıları farklı aşamalarda kullanılmıştır. Her iki hibrit sistemin de sonuç performansını artırdığını gözlemledik. Kısmi puanlandırma aktif iken; kural tabanlı sistem %87.43, öğrenme tabanlı sistem de %88.41'lik performans gösterirken hibrit sistem %91.44'lük performansa ulaşmıştır. İleride, kural tabanlı ve öğrenme tabanlı parçalar daha farklı kullanılarak hibrit sistem dah da geliştirilebilir. Ayrıca hibrit sistemi geliştirmek için; farklı öğrenme yöntemleri varolan hibrit sistem ile birleştirilebilir ya da tamamen yeni bir yaklaşımla hibrit sistem oluşturulabilir.

Özet (Çeviri)

Information Extraction (IE) is the process of extracting structured and important pieces of information from a set of unstructured text documents in natural language. The final goal of structured information extraction is to populate a database and reach data effectively. Our study focuses on named entity recognition (NER) which is an important subtask of IE. NER is the task that deals with extraction of named entities like person, location, organization names, temporal expressions (date and time) and numerical expressions (money and percent). NER research on Turkish is known to be rare. There are rule-based, learning based and hybrid systems for NER on Turkish texts. Some of the learning approaches used for NER in Turkish are conditional random fields (CRF), rote learning, rule extraction and generalization.In this thesis, we propose a learning based named entity recognizer for Turkish texts which employs a modified version of Bayesian learning as the learning scheme. To the best of our knowledge, this is the first learning based system that uses Bayesian approach for NER in Turkish. Several features (like token length, capitalization, lexical meaning, etc.) are used in the system to see the effects of different features on NER process. We also propose hybrid system where the Bayesian learning-based system is utilized along with a rule-based recognition system. There are two different versions of the hybrid system. Output of rule-based recognizer is utilized in different phases in these versions. We observed increase in F-Measure values for both hybrid versions. When partial scoring is active, hybrid system reached 91.44% F-Measure value; where rule-based system result is 87.43% and learning-based system result is 88.41%. The hybrid system can be improved by utilizing rule-based and learning-based components differently in the future. Hybrid system can also be improved by using different learning approaches and combining them with existing hybrid system or forming the hybrid system with a completely new approach.

Benzer Tezler

  1. Türkçe'de varlık ismi tanıma

    Named entity recognition in Turkish

    ASIM GÜNEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Named entity recognition in turkish using deep learning methods and joint learning

    Türkçe varlık isimlerinin tanınması için derin öğrenme ve birlikte öğrenme

    ARDA AKDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  3. Person name recognition in Turkish financial texts by using local grammar approach

    Türçe finans metinlerinde yerel dilbilgisi yaklaşımı kullanarak kişi ismi tanıma

    ÖZKAN BAYRAKTAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. TUĞBA TAŞKAYA TEMİZEL

    PROF. DR. NAZİFE BAYKAL

  4. Kısa metinlerde varlık ismi tanıma

    Named entity recognition on Turkish short texts

    BEYZA EKEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  5. Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models

    Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme

    BUSE ÇARIK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. REYYAN YENİTERZİ