Extraction of named entities from Turkish document collections
Türkçe doküman koleksiyonlarından varlık isimlerinin çıkarımı
- Tez No: 539877
- Danışmanlar: DOÇ. DR. ADİL ALPKOÇAK
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Bu tez, Türkçe dokümanlarda Varlık İsmi Tanıma (VİT) görevi için iki yaygın dizi sınıflandırıcı teknik olan Saklı Markov Model (SMM) ve Koşullu Rasgele Alan (KRA)'ı iyileştiren bir model geliştirmeyi hedefler. Bu nedenle, ilk olarak bu modellerde girdi olarak kullanılan parametrelerin en iyi değerlerini inceledik. SMM'de her bir belirtkeyi çoklu özelliklerle temsil ettik. Daha sonra, KRA modelini, pencere boyutu, çıktı kodlama formatı ve belirtkelerden çıkarılan özellikler gibi bu modelde girdi olarak kullanılan parametrelerin en etkili değerlerini belirlemek için kullandık. Hem SMM ve hem de KRA modellerinin detaylı incelemesinden sonra, Türkçe dokümanlarda VİT için lineer zincirli bir CRF modeli uyguladık. Ayrıca, dört kategoride 41 farklı özellik önerdik: kural tabanlı, sözcüksel, sözlük araması ve morfoloji temelli özellikler. İlk olarak, bu özellik kümesini kullanarak kamuya açık VİT veri setleri üzerinde bir dizi deney gerçekleştirdik. Pencere boyutu olarak [-3,+3], çıktı kodlama formatı olarak BIO kodlaması ve genişletilmiş özellik kümesini kullanarak lineer zincirli CRF modeli ile en iyi performansı elde ettik. F1 ölçütü olarak, sırasıyla kişi isimleri, yer isimler ve kurum isimleri için 91.83, 91.2 ve 88.62 elde ettik. Ayrıca bu tez, VİT için etiketlenmiş ODTÜ derlemine dayanan ODTÜ-VİT derlemini de sunmaktadır. Lineer zincirli KRA modelini önceki veri setinde kullanılan aynı parametrelerle değerlendirdik. F1 ölçütü açısından kişi, yer, kurum, zamansal isimler ve genel olarak sırasıyla yüzde 73.26, 70.12, 63.83, 61.54 ve 69.14 elde ettik.
Özet (Çeviri)
This thesis aims to develop a model improving Hidden Markov Model (HMM) and Conditional Random Field (CRF), which are two common sequence classifier techniques, for Named Entity Recognition (NER) task on Turkish documents. So, we first examined for the best values of parameters used as input in these models. In HMM, we represented each token with multi features. Next, we used CRF model to determine most effective parameters values that are used as input in this model such as window size, output encoding format and features extracted from tokens. After detailed examination of both HMM and CRF models, we applied a linear-chain CRF model, for NER in Turkish documents. Besides, we proposed 41 different features in four categories: rule based, lexical, dictionary lookup and morphological based features. First, we performed a set of experiments using this feature set on publically available NER datasets. We achieved the best performance with a linear-chain CRF model using [-3, +3] as a window size, BIO encoding as an output encoding format and extended feature set. In terms of F1 measure, we obtained the 91.83 percent, 91.2 and 88.62 for person names, location names and organization names respectively. Furthermore, this thesis also presents METU-NER corpus, which is based on annotation METU corpus for NER. We evaluated our a linear-chain CRF model with the same parameters used in the previous dataset. In terms of F1-measure, we achieved 73.26 percent, 70.12, 63.83, 63.83 and 69.14 for person, location, organization, temporal names and overall, respectively.
Benzer Tezler
- Design and implementation of Turkish question answering system
Türkçe soru cevap sisteminin tasarımı ve gerçekleştirimi
OKAN ÖZTÜRKMENOĞLU
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ADİL ALPKOÇAK
- A hybrid method for toponym recognition on informal Turkish text
Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma
MERYEM KILINÇ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR KARAGÖZ
- Varlık isimleri arasındaki ilişkiler kullanılarak haberlerin öbeklenmesi
News clustering using relations between named entities
SALİH ATILAY OTO
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. ERDOĞAN DOĞDU
- Türkçe eşgönderge çözümlemesi
Turkish coreference resolution
TUĞBA PAMAY
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLŞEN ERYİĞİT
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ