Otomatik veri etiketleme ile varlık ismi tanıma

Turkish named entity recognition automatically annotated data

PDF İndir

Tez No: 603490
Yazar: MUSTAFA KESKİN
Danışmanlar: PROF. DR. BANU DİRİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 78

Özet

Varlık İsmi Tanıma (VİT) Doğal Dil İşleme (DDİ) süreçlerinde yer alan önemli bir görevdir. Günümüzde bilgi erişim sistemlerinin çoğunda kullanılmaktadır. Makine Öğrenme tabanlı denetimli modellerin eğitilmesi için etiketli veri setleri gereklidir. VİT görevi için bir korpustaki her bir kelimenin etiketli olması gerekmektedir. Büyük miktardaki verileri etiketleme işlemi İngilizce için düzenli olarak yapılsa da diğer diller için bu işlem genellikle böyle yapılmamaktadır. İngilizce için yapılan çalışmalarda bile genellikle gazete makaleleri gibi belirli alanlarda sınırlıdır. Diğer alanlardaki görevler için etiketlenmiş kelimelerin sayısı neredeyse hiç yoktur. İnsanlar tarafından yapılan veri etiketleme işlemi oldukça zor, zaman alan ve maliyetli bir iştir. Otomatik veri etiketleme teknikleri bu işin ucuz ve hızlı bir şekilde yapılmasını sağlamaktadır. Çalışmada ilk olarak Türkçe Varlık İsmi Tanıma (VİT) için otomatik veri etiketleme metodolojisinden bahsedilmiştir. Yapılan bu çalışmada DBpedia ontolojisi kullanılmış ve Türkçe Wikipedia veri seti üzerinden etiketleme yapılmıştır. Etiketleme işleminde TFIdf ve kelime vektörlerinden yararlanılan bir yöntem ile veriler etiketlenmiştir. Etiketler kişi, yer, kurum, zaman ve konuya özel varlık isimlerinden oluşmaktadır. Çalışmanın ikinci bölümünde ise Türkçe için daha önce oluşturulmuş veri seti kullanılarak eğitilmiş modellerin performansları karşılaştırılmıştır. Model performansları karşılaştırılması yapılırken kelime vektörler, karakter vektörleri ve yazım özellikleri kullanılarak karşılaştırılmalar yapılmıştır. Bu karşılaştırmaların yanında zamana bağlı problemleri sınıflandırma amaçlı kullanılan CRF ve TimeDistributed Softmax gibi yöntemlere ait karşılaştırmalar da yapılmıştır. Kelime vektörlerinin kullanımının tek başına yeterli olmadığı performansı artırmak için karakter vektörleri ve yazım özellikleri gibi özelliklerin kullanılmasının başarımı artırıldığı gözlemlenmiştir. CRF'in TimeDistributed Softmax'e göre yaklaşık 0.5 gibi performans artışı yaptığı gözlemlenmiştir. Yapılan çalışmada 0,9486'lük F skor elde edilerek Türkçe Varlık İsmi Tanıma alanında yapılan en iyi sonuca ulaşılmıştır.

Özet (Çeviri)

Named Entity Recognition is an important task in many Natural Language Processing pipelines. Nowadays most of the information access systems are used. For the training of supervised machine learning system needs to be labeled datasets. For Named Entity Recognition task each word in a corpus should be labeled. Although the process of labeling large amounts of data is done regularly for English, this is not the case for other languages. Even if studies for English it is often limited to certain areas such as newspaper articles. The number of tagged words for tasks in other areas is almost non-existent. Manually labeling data is quite difficult and costly. Natural Language Processing is usually done on the data sets created for English, and it is very troublesome to find labels for other languages. Automatic data labeling techniques make this work cheap and fast. In this study, firstly automatic data labeling methodology for Turkish Named Entity Recognition (NER) is mentioned. Then DBpedia ontology was used for labeling on the Turkish Wikipedia data set. In the labeling process, data are labeled with a method using TFIdf and word vectors.Tags are composed of names of persons, places, organizations, time and subject specific entities. The performance of the models that have been trained on created data for Turkish. In the second part of the study, the performance of trained models was compared using the data set which was previously created for Turkish. Comparing model performances, word vectors, character vectors and spelling properties were compared. In addition to these comparisons, comparisons of methods such as CRF and TimeDistributed Softmax, which are used to classify time-related problems. It has been observed that the use of features such as character vectors and typing properties has been improved in order to increase the performance in which the use of word vectors alone is not sufficient. It was observed that CRF increased performance by approximately 0.5, compared to TimeDistributed Softmax. In this study, 0,9486 F score was obtained and the best result in Turkish Entity Name Recognition field was reached.

Benzer Tezler

Tez No
882655
Türkçe alt kategorili varlık ismi tanıma ile otomatik etiketleme
Automatic tagging with Turkish fine-grained named entity recognition
LOLA KHUDOYBERDIEVA
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
Tez No
753031
bi-TEZAT: biLSTM yöntemiyle türkçe şikayet metinlerinde zaman ifadelerinin tespit edilmesi
Bi-TEZAT: extract temporal expressions on turkish complaint texts via biLSTM
ENSAR EMİRALİ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MİNE ELİF KARSLIGİL YAVUZ
Tez No
649741
Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation
Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma
ARDA ÇELEBİ
Doktora
İngilizce
2020
Bilgi ve Belge Yönetimi Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez No
587205
Ontology-based entity tagging and normalization in the biomedical domain
Biyomedikal alanda ontoloji tabanlı varlık ismi etiketleme ve normalizasyonu
ZEYNEP İLKNUR KARADENİZ EROL
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
Tez No
447112
Helping metonymy recognition and treatment through named entity recognition
Adlandırılmış varlık ile ad aktarması çözümleme
HATİCE BURCU KÜPELİOĞLU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Galatasaray Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TANKUT ACARMAN

Geri Dön