Geri Dön

Ortak bilgi tabanları kullanarak türkçe metinlerden varlık ismi çıkarımı

Entity extraction from turkish texts using collaborative knowledge bases

  1. Tez No: 431092
  2. Yazar: DOĞAN KÜÇÜK
  3. Danışmanlar: DOÇ. DR. NURSAL ARICI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Varlık ismi tanıma, doğal dil işlemenin önemli araştırma alanlarından biridir. Varlık ismi tanıma, doğal dildeki metinlerden başta kişi, yer ve kurum olmak üzere varlık isimlerinin otomatik olarak çıkarılması ve sınıflandırılması olarak tanımlanmaktadır. Bu tez çalışmasında; öncelikle Türkçe metinler için bir kişi ismi tanıma sistemi geliştirilmiştir. Bu sistemde, Türkçe Wikipedia'dan otomatik olarak elde edilen geniş bir kişi ismi listesi kullanılmıştır. Daha sonra bu liste, başka Wikipedia kaynakları ve kural tabanlı yöntemle elde edilmiş kaynaklarla beraber kullanılarak Türkçe için Wikipedia tabanlı tam bir varlık ismi tanıma sistemi geliştirilmiştir. Bu sistem Türkçe metinler içerisindeki varlık isimlerini ENAMEX etiketi ile işaretleyen sözlük tabanlı bir sistemdir. Geliştirilen her iki sistemin de başarımı çok farklı türlerdeki Türkçe metin kümeleri üzerinde değerlendirilmiş ve iyi sonuçlar elde edilmiştir. Bu veri kümeleri içinde genel haber kümeleri, finans haberi kümesi, tarihi metin kümesi ve tweet veri kümeleri yer almaktadır. Ayrıca değerlendirmelerimizde de kullanılan bir haber veri kümesindeki kişi, yer ve kurum isimleri işaretlemelerinin, araştırma amaçlı kullanım için Web üzerinde erişilebilir hale getirilmesine katkı sağlanmıştır. Sistemlerimizin; Türkçe varlık ismi tanıma konusunda literatüre önemli bir katkı yapacakları düşünülmektedir.

Özet (Çeviri)

Named entity recognition is one of the important research areas of natural language processing. Named entity recognition is defined as the automatic extraction and classification of mainly person, location, and organization names in natural language texts. In this thesis study, first of all, a person name recognition system for Turkish texts is developed. In this system, a large list of person names automatically obtained from Wikipedia is used. Next, this list is used together with other Wikipedia resources and additional resources obtained using rule based method to develop a complete Wikipedia based named entity recognition system for Turkish. This system, which marks entity names in Turkish texts using ENAMEX tag, is a dictionary based system. The performance evaluations of both of the developed systems are performed on Turkish text data sets belonging to different types and good results are obtained. There are general news sets, financial news set, historical text set, and tweet sets within the evaluation data sets. Additionally, the person, location and organization name annotations in one of the news data sets that is used in our evaluations are made accessible via Web for research purposes with our contributions. It is envisaged that our systems will make significant contributions to the literature on named entity recognition in Turkish.

Benzer Tezler

  1. Financial named entity recognition for turkish news texts

    Türkçe haber metinlerinde finansal varlık ismi tanıma

    DUYGU DİNÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. PINAR KARAGÖZ

  2. Multilingual distributed word representation using deeplearning

    Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri

    GIHAD SOHSAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ONUR GÜZEY

  3. Writer visibility and reader engagement in university students' argumentative essays

    Üniversite öğrencilerinin tartışmaya dayalı yazılı anlatımlarında yazar ve okuyucuyu görünür kılan öğeler

    DUYGU ÇANDARLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Eğitim ve ÖğretimBoğaziçi Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. YASEMİN BAYYURT

    YRD. DOÇ. DR. LEYLA MARTI

  4. Bilgi güvenliği için metin steganografisinde yeni bir yaklaşım

    A new text steganography approach for information security

    ESRA ŞATIR

    Doktora

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAKAN IŞIK

  5. Türkçe derlemlerdeki artgönderimlerin tümdengelimli ve tümevarımlı yöntemlerle çözümlenmesi

    Resolving anaphora in Turkish text using inductive and deductive methods

    SAVAŞ YILDIRIM

    Doktora

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. YILMAZ KILIÇASLAN