Geri Dön

Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma

Named entity recognition by conditional random fields from Turkish informal texts

  1. Tez No: 332828
  2. Yazar: SERAP ÖZKAYA
  3. Danışmanlar: DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Varlık İsmi Tanıma, Doğal Dil İşleme, Şartlı Rastgele Alanlar, Resmi Olmayan Türkçe, Türkçe E-Posta, Named Entity Recognition, Natural Language Processing, Conditional Random Fields, Turkish informal texts, Turkish e-posta
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Varlık İsmi Tanıma, Doğal Dil İşleme'de bilgi çıkarımın bir alt dalı olup, kişi ve kurum ismi, yer, zaman, saat, kısaltma ve para gibi önceden belirlenmiş olan varlık sınıflarını dile bağımlı veya dilden bağımsız olarak bir doküman içerisinde arayıp bulan sistemlerdir.Varlık İsmi Tanıma için kullanılan ilk sistemler kural tabanlı iken, son zamanlarda makine öğrenmesi teknikleri kullanılarak modern sistemler geliştirilmiştir. Hem kural tabanlı hem de makine öğrenmesini birlikte kullanan hibrit sistemler de mevcuttur.Bu tez çalışmasında resmi olmayan bir dilde yazılmış Türkçe dokümanlar için tasarlanmış, Şartlı Rastgele Alanları kullanan Varlık İsmi Tanıma çalışmasından bahsedilmektedir. Sınıflama ve etiketleme işlemi kişi, kurum ve yer isimleri temel olmak üzere tarih ve para varlıkları için de gerçekleştirilmiştir. Çalışmanın gerçeklenmesi sırasında makine öğrenmesi teknikleri kullanılarak daha verimli sonuçlar elde etme işlemine odaklanılmıştır.Çalışma üç adımdan oluşmaktadır. İlk olarak, resmi olmayan bir dilde yazılmış Türkçe e-postalar içerisinden Şartlı Rastgele Alanlar kullanılarak özel isimlerin etiketlenerek çıkartılması gerçekleştirilmiştir. Çalışmanın ikinci adımında, belli bir çalışma alanına bağlı olmayan, konudan bağımsız dokümanlar için Şartlı Rastgele Alanlar kullanılarak dokümanlardaki varlık isimlerinin belirlenmesi gerçekleştirilmiştir. Çalışmanın son adımında ise, yarı eğiticili teknik ile uygulanan çalışma kural tabanlı yöntem ile desteklenerek dokümanlardan varlık isimlerinin çıkartılması gerçekleştirilmiştir.Varlık İsmi Tanıma için gerçekleştirilen çalışmada, eğitim verisi ne kadar çok etiketlenmiş varlık içerirse başarı oranı da o ölçüde etkilenmektedir. Çalışmada Şartlı Rastgele Alanlar yöntemi ile kişi isimlerinde elde edilen başarı kurum ve yer isimlerinde elde edilen başarıdan daha yüksek çıkmıştır.

Özet (Çeviri)

Named Entity Recognition is a subtask of information extraction that seeks to locate and classify predefined entities, such as names of persons, locations, organizations, etc. in unstructured texts.Named Entity Recognition rule-based approach used for the first, while the recently developed modern systems using machine learning techniques.It is a hybrid system that uses both rule-based and machine learning are also available.In this study, Conditional Random Fields has been used to extract name from informal texts. Classification and labeling is based on people, organization and location names including date and the money. The study of implementing more efficient by using machine learning techniques during to process focused on achieving results.The study consists of three steps. First, Conditional Random Fields has been used to extract name entities which are person, location and organization names from informal Turkish e-posta. The second step of the study, Conditional Random Fields has been used to extract name entities from domain independent for formal and informal texts. In the last step of the study, Semi-supervised learning approach enrichment with the rule based approach has been used to extract name entities.The training data contains so much labeled entity that the success rate can be influenced for the Named Entity Recognition system that includes a machine learning component.

Benzer Tezler

  1. A hybrid method for toponym recognition on informal Turkish text

    Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma

    MERYEM KILINÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR KARAGÖZ

  2. İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

    ITU NER - named entity recognition on Turkish texts

    GÖKHAN AKIN ŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  3. Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması

    Semantic relation extraction by conditional random fields from Turkish Wikipedia pages

    CANAN GİRGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  4. Türkçe twitter'da soru algılama

    Question identification on Turkish twitter

    ZEYNEP BANU ÖZGER

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

  5. Event extraction from Turkish Trade Registry Gazette

    Türkiye Ticaret Sicili Gazetesi'nden olay çıkarımı

    İREM NUR DEMİRTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT