Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
- Tez No: 750007
- Danışmanlar: PROF. DR. ALİ HİKMET DOĞRU, PROF. DR. PINAR KARAGÖZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 225
Özet
Bir bilgi çıkarma problemi olan Varlık ismi Tanıma (VİT) probleminde amaç, verilen bir metin için, varlık isimlerini saptamak ve önceden belirlenmiş kategorilere göre doğru şekilde etiketlemektir. Bir varlık ismi (Vİ), özel bir objenin, lokasyonun veya alana özel uygulamalarda bir konsepti ifade eden isim veya isim gruplarından oluşabilir. Kişi, organizasyon, yer adları veya tarih, zaman, para ifadeleri literatürde en çok çalışılan varlık isimleri arasında yer almaktadır. Ayrıca, genetik, tıp, kimya ve finans gibi, belirli alanlardan varlık isimleriyle, alana özel çalışmalar mevcuttur. VİT problemlerinin çözümleri Doğal Dil İşleme alanındaki, Metin Özetleme, Soru Cevaplama ve Duygu Analizi gibi calışmalarda da faydalı olabilir. Daha yaygın kullanılan İngilizce gibi dillerle kıyaslanırsa, oldukça karmaşık morfolojik özelliklere sahip Türkçe için daha az VİT çalışması bulunmaktadır. Son yıllarda VİT çalışmalarında, yapay sinir ağları tabanlı metodlar, klasik kural bazlı ve geleneksel makine öğrenmesi tekniklerine göre daha iyi performans göstermiştir. Bu tezde, en popüler derin öğrenme bazlı modeller ve farklı Türkçe verilerle deneyler gerçekleştirilmiştir. Ayrıca, tezin odaklarından birisi olarak, ham finansal haber metinlerinden iki yeni etiketlenmiş veri kümesi sunulmuş ve deneylerde kullanılmıştır. Yeni veriler hem BIO şeması hem de ham etiketler kullanılarak etiketlenmiş, etiketleyiciler arası mutabakatlar ölçülmüş ve etiketleme şeklinin performans üzerindeki etkilerini gözlemlemek için modeller her iki versiyonla eğitilmiştir. Ayrıca, finans alanına özgü yeni varlık isimleri de sunulmuştur. Son olarak, Ural-Altay dil grubundaki diller için eğitilmiş BERT modellerinden seçilen birkaçı ile deneyler yürütülmüştür.
Özet (Çeviri)
Named Entity Recognition (NER) is a problem of information extraction where the objective is; in a given text, to detect and label named entities (NE) according to predetermined categories correctly. An NE may be a noun or a group of nouns which correspond to the name of a specific object, location or a concept in case of domain-specific applications. In the literature, person, organization, location names or date,time, money, percentage expressions are among highly studied, generic NEs. Besides, there are domain-specific studies with NEs that are related to specific domains like genetics, medicine, chemistry and finance. Solutions for NER problems may be useful in many downstream tasks in the Natural Language Processing domain such as Text Summarization, Question Answering and Sentiment Analysis. For Turkish, which has pretty complex morphological features, there are less number of studies in NER field compared to more widely used languages like English. In recent years, neural-network based methods performed better in NER tasks than classical rule-based or traditional machine learning techniques. In this thesis, most popular deep-learning based models were experimented using different Turkish datasets. Moreover, as being one of the focuses of this thesis, from raw financial news texts, two newly annotated datasets were presented and used throughout the experiments. New datasets were annotated using both BIO schema and raw labels, inter-annotator agreements were measured and models were trained separately using both versions to observe the effect of annotation format on performance. Moreover, new NEs specific to finance were also presented. Lastly, experiments with a few selected deep-learning based language-specific BERT models for some languages in Ural-Altaic language group were conducted.
Benzer Tezler
- Ortak bilgi tabanları kullanarak türkçe metinlerden varlık ismi çıkarımı
Entity extraction from turkish texts using collaborative knowledge bases
DOĞAN KÜÇÜK
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NURSAL ARICI
- Person name recognition in Turkish financial texts by using local grammar approach
Türçe finans metinlerinde yerel dilbilgisi yaklaşımı kullanarak kişi ismi tanıma
ÖZKAN BAYRAKTAR
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Ana Bilim Dalı
DR. TUĞBA TAŞKAYA TEMİZEL
PROF. DR. NAZİFE BAYKAL
- Osmanlı Para Sisteminin Teorik Temelleri
Theoretical Principles of the Ottoman Monetary System
OĞUZ BAL
- Anayasa Mahkemesinin bireysel başvuru kararlarında bir mülkiyet hakkı türü: Sosyal güvenlik hakkı
A type of property right in the individual application decisions of the Constitutional Court: The right to social security
MİRAÇ EŞEN
Yüksek Lisans
Türkçe
2022
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
DOÇ. DR. ÖZEN ÜLGEN ADADAĞ
- TFRS 9 finansal araçlar standardı kapsamında beklenen kredi zararı modelinin Türk bankacılık sektöründe uygulanması ve bankaların kârlılık yönetimi eğilimlerine etkisi üzerine bir araştırma
Within the principles of IFRS 9 financial instruments standard application of expected loss loss model in Turkish banking sector and a research on the effect of banks on profitability management
ALİ AKPELVAN