Named entity recognition in Turkish with Bayesian learning and hybrid approaches
Bayes öğrenme ve hibrit yaklaşımlar ile Türkçede varlık ismi tanıma
- Tez No: 305090
- Danışmanlar: DR. DİLEK KÜÇÜK, PROF. DR. ADNAN YAZICI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 61
Özet
Bilgi Çıkarımı (BÇ), doğal dildeki yapısal olmayan metin belgele kümelerinden; yapısal önemli bilgi parçalarını çıkarma işlemidir. Yapısal bilgi çıkarımının nihai amacı bir veritabanını doldurmak ve veriye etkili bir şekilde erişebilmektir. Bizim araştırmamız, BÇ'nin önemli bir alt görevi olan Varlık İsmi Tanıma (VİT) üzerine odaklanmaktadır. VİT görevi; kişi adları, yer adları, organizasyonlar, zamansal ifadeler (tarih ve saat), sayısal ifadeler (para ve yüzde) gibi varlık isimlerininin tanıması ile ilgilenir. Türkçe için VİT araştırmalarının nadir olduğu bilinmektedir. Türkçe için elle oluşturulmuş kural tabanlı, öğrenme tabanlı ve melez VİT çalışmaları bulunmaktadır. Türkçe VİT için kullanılan bazı öğrenme yaklaşımları; şartlı rastgele alanlar (CRF), ezber öğrenme, kural çıkarım ve genellemesi olarak örneklenebilir.Biz bu tezde, öğrenme yaklaşımı olarak Bayes yaklaşımının değiştirilmiş bir versiyonunu kullanan öğrenme tabanlı bir Türkçe varlık ismi tanıma sistemi öne sürmekteyiz. Bildiğimiz kadarıyla, bu sistem Bayes yöntemini Türkçe varlık ismi tanıma için kullanan ilk sistemdir. Farklı özelliklerin kullanımının VİT işlemine etkisini görmek için sistemde birkaç farklı özellik türü (sözcük uzunluğu, büyük-küçük harf kullanımı, sözlük anlamı gibi) kullanılmıştır. Ayrıca öğrenme tabanlı sistemin, kural tabanlı bir sistemle birlikte kullanımından oluşan hibrit bir sistem de öne sürmekteyiz. Hibrit sistemin iki farklı versiyonu bulunmaktadır. Bu versiyonlarda, kural tabanlı sistemin çıktıları farklı aşamalarda kullanılmıştır. Her iki hibrit sistemin de sonuç performansını artırdığını gözlemledik. Kısmi puanlandırma aktif iken; kural tabanlı sistem %87.43, öğrenme tabanlı sistem de %88.41'lik performans gösterirken hibrit sistem %91.44'lük performansa ulaşmıştır. İleride, kural tabanlı ve öğrenme tabanlı parçalar daha farklı kullanılarak hibrit sistem dah da geliştirilebilir. Ayrıca hibrit sistemi geliştirmek için; farklı öğrenme yöntemleri varolan hibrit sistem ile birleştirilebilir ya da tamamen yeni bir yaklaşımla hibrit sistem oluşturulabilir.
Özet (Çeviri)
Information Extraction (IE) is the process of extracting structured and important pieces of information from a set of unstructured text documents in natural language. The final goal of structured information extraction is to populate a database and reach data effectively. Our study focuses on named entity recognition (NER) which is an important subtask of IE. NER is the task that deals with extraction of named entities like person, location, organization names, temporal expressions (date and time) and numerical expressions (money and percent). NER research on Turkish is known to be rare. There are rule-based, learning based and hybrid systems for NER on Turkish texts. Some of the learning approaches used for NER in Turkish are conditional random fields (CRF), rote learning, rule extraction and generalization.In this thesis, we propose a learning based named entity recognizer for Turkish texts which employs a modified version of Bayesian learning as the learning scheme. To the best of our knowledge, this is the first learning based system that uses Bayesian approach for NER in Turkish. Several features (like token length, capitalization, lexical meaning, etc.) are used in the system to see the effects of different features on NER process. We also propose hybrid system where the Bayesian learning-based system is utilized along with a rule-based recognition system. There are two different versions of the hybrid system. Output of rule-based recognizer is utilized in different phases in these versions. We observed increase in F-Measure values for both hybrid versions. When partial scoring is active, hybrid system reached 91.44% F-Measure value; where rule-based system result is 87.43% and learning-based system result is 88.41%. The hybrid system can be improved by utilizing rule-based and learning-based components differently in the future. Hybrid system can also be improved by using different learning approaches and combining them with existing hybrid system or forming the hybrid system with a completely new approach.
Benzer Tezler
- Türkçe'de varlık ismi tanıma
Named entity recognition in Turkish
ASIM GÜNEŞ
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Named entity recognition in turkish using deep learning methods and joint learning
Türkçe varlık isimlerinin tanınması için derin öğrenme ve birlikte öğrenme
ARDA AKDEMİR
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Person name recognition in Turkish financial texts by using local grammar approach
Türçe finans metinlerinde yerel dilbilgisi yaklaşımı kullanarak kişi ismi tanıma
ÖZKAN BAYRAKTAR
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DR. TUĞBA TAŞKAYA TEMİZEL
PROF. DR. NAZİFE BAYKAL
- Kısa metinlerde varlık ismi tanıma
Named entity recognition on Turkish short texts
BEYZA EKEN
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Enhancing named entity recognition in Turkish by ıntegrating external knowledge and extra layers into transformer-based models
Adlandırılmış varlık tanımasını Türkçe'de dönüştürücü tabanlı modellere harici bilgi ve ekstra katmanları entegre ederek geliştirme
BUSE ÇARIK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. REYYAN YENİTERZİ