Geri Dön

İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

ITU NER - named entity recognition on Turkish texts

  1. Tez No: 798113
  2. Yazar: GÖKHAN AKIN ŞEKER
  3. Danışmanlar: DOÇ. DR. GÜLŞEN ERYİĞİT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 67

Özet

Adlandırılmış Varlık Tespiti (NER – Named Entity Recognition) en basit şekilde; metin içinden ilgilenilen varlık türlerine ait sözcük adlarının belirlenip bunlara doğru sınıf etiketlerinin atanması olarak tanımlanabilir. Literatürde üzerinde en çok çalışılan türler MUC-6 konferansındaki ortak görevle tanımlanan ENAMEX (kişi, yer, kurum adları) tipleridir. Aynı görevde tanımlanan diğer tipler olan TIMEX (tarih ve saat ifadeleri) ve NUMEX (yüzde ve parasal ifadeler) tipleri de diğer yaygın çalışılan sınıflar olarak karşımıza çıkmakla birlikte aranacak varlık türleri için herhangi bir sınırlama yoktur, protein adları, gen adları, ilaç adları gibi çok çok farklı alanlarda çalışmalara da rastlanabilmektedir. Bu çalışma temel olarak üç aşamada yürütülmüştür. Birinci aşamada ENAMEX türleri üzerinde resmi dille yazılmış metinlerde çalışan bir sistem ortaya konmuş mevcut Türkçe NER sistemleri arasında en yüksek başarım raporlanmıştır; ikinci aşamada bu sisteme TIMEX ve NUMEX türleri eklenerek üzerinde çalışılan tür sayısı yediye çıkarılmıştır; üçüncü aşamada ise bu sistem günlük konuşma diline yakın olan Web 2.0 metinlerine uyarlanmıştır. Birinci aşamada literatürde mevcut çalışmalar incelenirken neredeyse hemen hemen tüm çalışmaların farklı veri kümeleri üzerinde test edildiği veya değerlendirmede farklı kıstaslar esas alındığı için karşılaştırılabilir olmadığı tespit edilmiş ve geçmiş çalışmalar için değerli sonuçlar ortaya koyduğu düşünülen bir çalışma ile konu üzerindeki önemli geçmiş yayınların detaylı değerlendirmesi yapılmıştır. Çalışma sonucunda ortaya konan model, makine öğrenmesi metodu olarak Şartlı Rastgele Alanlar (CRFs) kullanırken diğer yanda titiz bir çalışma ile derlenen alan atlaslarından (gazetteer) da faydalanıldığı için hibrit bir model olarak nitelenebilir. Bu aşamanın sonunda Türkçe gazete haber metinlerinde MUC kıstaslarıyla %95, CoNLL kıstaslarıyla %92 F-ölçütü başarımı ile literatürdeki en yüksek başarım raporlanmıştır. İkinci aşamada birinci aşamanın çıktısı olan modele TIMEX ve NUMEX türlerini de tespit edebilme yeteneği eklenmiştir. Bu aşamada yapılan temel iş birinci aşamada kullanılan verinin yedi tür için yeniden işaretlenmesi ve yeni eklenen türlerin tanınmasında başarımı artırmak için ilave alan atlasları ve CRFs özellikleri eklenmesidir. Sonuçta yedi tür için de benzer oranda yüksek başarım elde edilmiştir. Üçüncü aşamada resmi dille yazılmış metinlerde çalışan model, serbest biçimli dile uyarlanarak, Web 2.0 verisinde çalışmalar yapılmıştır. Bu aşamada iki ayrı sosyal medya veri kümesi işaretlenmiş ve kuralsız metinlerin kurallı metinlere benzetimini sağlamaya yönelik düzeltme adımları eklenmiştir. Twitter veri kümesi üzerinde %68 ile literatürdeki en yüksek başarım oranlarına ulaşılmıştır. Araç diğer güncel bilimsel çalışmalarda kullanılan veri kümeleri üzerinde de test edilerek sonuçlar karşılaştırmalı olarak verilmiştir. Bu çalışma ile hazırlanan üç adet işaretli veri kümesi ve geniş alan atlasları (kişi ad, kişi soyad, yer adları gibi) bu alanda yapılacak sonraki çalışmalarda faydalanılabilecek önemli kaynaklar olarak araştırmacıların hizmetine açıktır. Modelin kendisi de İTÜ Doğal Dil İşleme Araçları arasında çevrimiçi kullanıma açılmıştır.

Özet (Çeviri)

Named Entity Recognition(NER) is a crucial stage in many Natural Language Processing (NLP) tasks including information retrieval, machine translation and opinion mining. The task aims to identify and classify certain types of entities such as names (e.g. person, location, organization, protein, genes), numerical (e.g. percent, monetary values) and temporal expressions (e.g. date, time) in text. The NER research was firstly started in early 1990s for English. In 1995, with the high interest of the research community, the success rates for English achieved nearly the human annotation performance on news texts. MUC and CoNLL conferences define three basic types of named entities which are: 1- ENAMEX (person, location and organization names), 2- TIMEX (temporal expressions: date and time entities) and 3- NUMEX (numerical expressions: monetary expressions and percentages). Although these became almost a de facto standard to evaluate the systems' performances, NER is not limited to only these types and it is also applied to different application areas in the literature such as determining protein names, medicine names, book titles etc... This study reports the highest results(92% on formal news texts dataset, 68% in Twitter dataset and 65% in balanced Web 2.0 data set in CoNLL metrics) in the literature for Turkish named entity recognition; more spesifically for the task of detecting ENAMEX, TIMEX and NUMEX types. An in depth analysis of the previous reported results are given and comparisons with them are made whenever possible. Used statistical model is conditional random fields (CRFs). Presented model is a hybrid model which depends on the usage of rich morphological structure of the Turkish language as features to CRFs together with the use of some basic and generative gazetteers. In this study CRF++ an open source implementation of CRFs is used. This study was organized in three phases. In the first phase a state-of-the-art NER system for ENAMEX types in formal written Turkish texts have been revealed; at the second phase the system was extended to 7 entity types adding the NUMEX and TIMEX types; in the third phase system is adapted to informal Web 2.0 types. In the first phase a Turkish NER model using conditional random fields(CRFs) trained with morphological and lexical features had been presented. This model only classifies the ENAMEX types and reports F-Measures of 95% in MUC metrics, and 92% in CoNLL metrics. Also large scale person (First names gazetteer of 44,048 tokens and Surnames gazetteer of 138.844 tokens), and location names (33.551 tokens) gazetteers and relatively small location, organization and person name generator gazetteers (

Benzer Tezler

  1. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR

  2. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. İTÜ Triga Mark II reaktörünün soğutma probleminin analizi ve çözüm önerileri

    The Analysis of cooling problem of ITU Triga Mark II reactor and solution suggestions

    ORHAN ERDAL AKAY

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Nükleer Mühendislikİstanbul Teknik Üniversitesi

    YRD. DOÇ. DR. ALTUĞ ŞİŞMAN

  4. Probabilistic safety assessment of İTÜ TRIGA mark-II reactor

    İTÜ TRIGA mark II reaktörünün olasılıklı güvenlik değerlendirilmesi çalışması

    ŞULE ERGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    1999

    Nükleer MühendislikHacettepe Üniversitesi

    PROF. DR. OSMAN KEMAL KADİROĞLU

  5. İTÜ Triga Mark-II Reaktörünün bulanık (fuzzy) kontrol yöntemiyle kontrolü

    The Control of İTÜ Triga Mark-II Reactor with fuzzy control method

    ERBİL AKBAY

    Doktora

    Türkçe

    Türkçe

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik ve Bilgisayar Eğitimi Ana Bilim Dalı

    PROF. DR. BURHANETTİN CAN