Geri Dön

Otomatik veri etiketleme ile varlık ismi tanıma

Turkish named entity recognition automatically annotated data

  1. Tez No: 603490
  2. Yazar: MUSTAFA KESKİN
  3. Danışmanlar: PROF. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 78

Özet

Varlık İsmi Tanıma (VİT) Doğal Dil İşleme (DDİ) süreçlerinde yer alan önemli bir görevdir. Günümüzde bilgi erişim sistemlerinin çoğunda kullanılmaktadır. Makine Öğrenme tabanlı denetimli modellerin eğitilmesi için etiketli veri setleri gereklidir. VİT görevi için bir korpustaki her bir kelimenin etiketli olması gerekmektedir. Büyük miktardaki verileri etiketleme işlemi İngilizce için düzenli olarak yapılsa da diğer diller için bu işlem genellikle böyle yapılmamaktadır. İngilizce için yapılan çalışmalarda bile genellikle gazete makaleleri gibi belirli alanlarda sınırlıdır. Diğer alanlardaki görevler için etiketlenmiş kelimelerin sayısı neredeyse hiç yoktur. İnsanlar tarafından yapılan veri etiketleme işlemi oldukça zor, zaman alan ve maliyetli bir iştir. Otomatik veri etiketleme teknikleri bu işin ucuz ve hızlı bir şekilde yapılmasını sağlamaktadır. Çalışmada ilk olarak Türkçe Varlık İsmi Tanıma (VİT) için otomatik veri etiketleme metodolojisinden bahsedilmiştir. Yapılan bu çalışmada DBpedia ontolojisi kullanılmış ve Türkçe Wikipedia veri seti üzerinden etiketleme yapılmıştır. Etiketleme işleminde TFIdf ve kelime vektörlerinden yararlanılan bir yöntem ile veriler etiketlenmiştir. Etiketler kişi, yer, kurum, zaman ve konuya özel varlık isimlerinden oluşmaktadır. Çalışmanın ikinci bölümünde ise Türkçe için daha önce oluşturulmuş veri seti kullanılarak eğitilmiş modellerin performansları karşılaştırılmıştır. Model performansları karşılaştırılması yapılırken kelime vektörler, karakter vektörleri ve yazım özellikleri kullanılarak karşılaştırılmalar yapılmıştır. Bu karşılaştırmaların yanında zamana bağlı problemleri sınıflandırma amaçlı kullanılan CRF ve TimeDistributed Softmax gibi yöntemlere ait karşılaştırmalar da yapılmıştır. Kelime vektörlerinin kullanımının tek başına yeterli olmadığı performansı artırmak için karakter vektörleri ve yazım özellikleri gibi özelliklerin kullanılmasının başarımı artırıldığı gözlemlenmiştir. CRF'in TimeDistributed Softmax'e göre yaklaşık 0.5 gibi performans artışı yaptığı gözlemlenmiştir. Yapılan çalışmada 0,9486'lük F skor elde edilerek Türkçe Varlık İsmi Tanıma alanında yapılan en iyi sonuca ulaşılmıştır.

Özet (Çeviri)

Named Entity Recognition is an important task in many Natural Language Processing pipelines. Nowadays most of the information access systems are used. For the training of supervised machine learning system needs to be labeled datasets. For Named Entity Recognition task each word in a corpus should be labeled. Although the process of labeling large amounts of data is done regularly for English, this is not the case for other languages. Even if studies for English it is often limited to certain areas such as newspaper articles. The number of tagged words for tasks in other areas is almost non-existent. Manually labeling data is quite difficult and costly. Natural Language Processing is usually done on the data sets created for English, and it is very troublesome to find labels for other languages. Automatic data labeling techniques make this work cheap and fast. In this study, firstly automatic data labeling methodology for Turkish Named Entity Recognition (NER) is mentioned. Then DBpedia ontology was used for labeling on the Turkish Wikipedia data set. In the labeling process, data are labeled with a method using TFIdf and word vectors.Tags are composed of names of persons, places, organizations, time and subject specific entities. The performance of the models that have been trained on created data for Turkish. In the second part of the study, the performance of trained models was compared using the data set which was previously created for Turkish. Comparing model performances, word vectors, character vectors and spelling properties were compared. In addition to these comparisons, comparisons of methods such as CRF and TimeDistributed Softmax, which are used to classify time-related problems. It has been observed that the use of features such as character vectors and typing properties has been improved in order to increase the performance in which the use of word vectors alone is not sufficient. It was observed that CRF increased performance by approximately 0.5, compared to TimeDistributed Softmax. In this study, 0,9486 F score was obtained and the best result in Turkish Entity Name Recognition field was reached.

Benzer Tezler

  1. Türkçe alt kategorili varlık ismi tanıma ile otomatik etiketleme

    Automatic tagging with Turkish fine-grained named entity recognition

    LOLA KHUDOYBERDIEVA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  2. bi-TEZAT: biLSTM yöntemiyle türkçe şikayet metinlerinde zaman ifadelerinin tespit edilmesi

    Bi-TEZAT: extract temporal expressions on turkish complaint texts via biLSTM

    ENSAR EMİRALİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MİNE ELİF KARSLIGİL YAVUZ

  3. Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation

    Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma

    ARDA ÇELEBİ

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgi ve Belge YönetimiBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  4. Ontology-based entity tagging and normalization in the biomedical domain

    Biyomedikal alanda ontoloji tabanlı varlık ismi etiketleme ve normalizasyonu

    ZEYNEP İLKNUR KARADENİZ EROL

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  5. Helping metonymy recognition and treatment through named entity recognition

    Adlandırılmış varlık ile ad aktarması çözümleme

    HATİCE BURCU KÜPELİOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TANKUT ACARMAN