Ortak bilgi tabanları kullanarak türkçe metinlerden varlık ismi çıkarımı
Entity extraction from turkish texts using collaborative knowledge bases
- Tez No: 431092
- Danışmanlar: DOÇ. DR. NURSAL ARICI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Varlık ismi tanıma, doğal dil işlemenin önemli araştırma alanlarından biridir. Varlık ismi tanıma, doğal dildeki metinlerden başta kişi, yer ve kurum olmak üzere varlık isimlerinin otomatik olarak çıkarılması ve sınıflandırılması olarak tanımlanmaktadır. Bu tez çalışmasında; öncelikle Türkçe metinler için bir kişi ismi tanıma sistemi geliştirilmiştir. Bu sistemde, Türkçe Wikipedia'dan otomatik olarak elde edilen geniş bir kişi ismi listesi kullanılmıştır. Daha sonra bu liste, başka Wikipedia kaynakları ve kural tabanlı yöntemle elde edilmiş kaynaklarla beraber kullanılarak Türkçe için Wikipedia tabanlı tam bir varlık ismi tanıma sistemi geliştirilmiştir. Bu sistem Türkçe metinler içerisindeki varlık isimlerini ENAMEX etiketi ile işaretleyen sözlük tabanlı bir sistemdir. Geliştirilen her iki sistemin de başarımı çok farklı türlerdeki Türkçe metin kümeleri üzerinde değerlendirilmiş ve iyi sonuçlar elde edilmiştir. Bu veri kümeleri içinde genel haber kümeleri, finans haberi kümesi, tarihi metin kümesi ve tweet veri kümeleri yer almaktadır. Ayrıca değerlendirmelerimizde de kullanılan bir haber veri kümesindeki kişi, yer ve kurum isimleri işaretlemelerinin, araştırma amaçlı kullanım için Web üzerinde erişilebilir hale getirilmesine katkı sağlanmıştır. Sistemlerimizin; Türkçe varlık ismi tanıma konusunda literatüre önemli bir katkı yapacakları düşünülmektedir.
Özet (Çeviri)
Named entity recognition is one of the important research areas of natural language processing. Named entity recognition is defined as the automatic extraction and classification of mainly person, location, and organization names in natural language texts. In this thesis study, first of all, a person name recognition system for Turkish texts is developed. In this system, a large list of person names automatically obtained from Wikipedia is used. Next, this list is used together with other Wikipedia resources and additional resources obtained using rule based method to develop a complete Wikipedia based named entity recognition system for Turkish. This system, which marks entity names in Turkish texts using ENAMEX tag, is a dictionary based system. The performance evaluations of both of the developed systems are performed on Turkish text data sets belonging to different types and good results are obtained. There are general news sets, financial news set, historical text set, and tweet sets within the evaluation data sets. Additionally, the person, location and organization name annotations in one of the news data sets that is used in our evaluations are made accessible via Web for research purposes with our contributions. It is envisaged that our systems will make significant contributions to the literature on named entity recognition in Turkish.
Benzer Tezler
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- Multilingual distributed word representation using deeplearning
Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri
GIHAD SOHSAH
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ONUR GÜZEY
- Writer visibility and reader engagement in university students' argumentative essays
Üniversite öğrencilerinin tartışmaya dayalı yazılı anlatımlarında yazar ve okuyucuyu görünür kılan öğeler
DUYGU ÇANDARLI
Yüksek Lisans
İngilizce
2013
Eğitim ve ÖğretimBoğaziçi ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
PROF. DR. YASEMİN BAYYURT
YRD. DOÇ. DR. LEYLA MARTI
- Bilgi güvenliği için metin steganografisinde yeni bir yaklaşım
A new text steganography approach for information security
ESRA ŞATIR
Doktora
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN IŞIK
- Türkçe derlemlerdeki artgönderimlerin tümdengelimli ve tümevarımlı yöntemlerle çözümlenmesi
Resolving anaphora in Turkish text using inductive and deductive methods
SAVAŞ YILDIRIM
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. YILMAZ KILIÇASLAN