Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
- Tez No: 332828
- Danışmanlar: DOÇ. DR. BANU DİRİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Varlık İsmi Tanıma, Doğal Dil İşleme, Şartlı Rastgele Alanlar, Resmi Olmayan Türkçe, Türkçe E-Posta, Named Entity Recognition, Natural Language Processing, Conditional Random Fields, Turkish informal texts, Turkish e-posta
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 75
Özet
Varlık İsmi Tanıma, Doğal Dil İşleme'de bilgi çıkarımın bir alt dalı olup, kişi ve kurum ismi, yer, zaman, saat, kısaltma ve para gibi önceden belirlenmiş olan varlık sınıflarını dile bağımlı veya dilden bağımsız olarak bir doküman içerisinde arayıp bulan sistemlerdir.Varlık İsmi Tanıma için kullanılan ilk sistemler kural tabanlı iken, son zamanlarda makine öğrenmesi teknikleri kullanılarak modern sistemler geliştirilmiştir. Hem kural tabanlı hem de makine öğrenmesini birlikte kullanan hibrit sistemler de mevcuttur.Bu tez çalışmasında resmi olmayan bir dilde yazılmış Türkçe dokümanlar için tasarlanmış, Şartlı Rastgele Alanları kullanan Varlık İsmi Tanıma çalışmasından bahsedilmektedir. Sınıflama ve etiketleme işlemi kişi, kurum ve yer isimleri temel olmak üzere tarih ve para varlıkları için de gerçekleştirilmiştir. Çalışmanın gerçeklenmesi sırasında makine öğrenmesi teknikleri kullanılarak daha verimli sonuçlar elde etme işlemine odaklanılmıştır.Çalışma üç adımdan oluşmaktadır. İlk olarak, resmi olmayan bir dilde yazılmış Türkçe e-postalar içerisinden Şartlı Rastgele Alanlar kullanılarak özel isimlerin etiketlenerek çıkartılması gerçekleştirilmiştir. Çalışmanın ikinci adımında, belli bir çalışma alanına bağlı olmayan, konudan bağımsız dokümanlar için Şartlı Rastgele Alanlar kullanılarak dokümanlardaki varlık isimlerinin belirlenmesi gerçekleştirilmiştir. Çalışmanın son adımında ise, yarı eğiticili teknik ile uygulanan çalışma kural tabanlı yöntem ile desteklenerek dokümanlardan varlık isimlerinin çıkartılması gerçekleştirilmiştir.Varlık İsmi Tanıma için gerçekleştirilen çalışmada, eğitim verisi ne kadar çok etiketlenmiş varlık içerirse başarı oranı da o ölçüde etkilenmektedir. Çalışmada Şartlı Rastgele Alanlar yöntemi ile kişi isimlerinde elde edilen başarı kurum ve yer isimlerinde elde edilen başarıdan daha yüksek çıkmıştır.
Özet (Çeviri)
Named Entity Recognition is a subtask of information extraction that seeks to locate and classify predefined entities, such as names of persons, locations, organizations, etc. in unstructured texts.Named Entity Recognition rule-based approach used for the first, while the recently developed modern systems using machine learning techniques.It is a hybrid system that uses both rule-based and machine learning are also available.In this study, Conditional Random Fields has been used to extract name from informal texts. Classification and labeling is based on people, organization and location names including date and the money. The study of implementing more efficient by using machine learning techniques during to process focused on achieving results.The study consists of three steps. First, Conditional Random Fields has been used to extract name entities which are person, location and organization names from informal Turkish e-posta. The second step of the study, Conditional Random Fields has been used to extract name entities from domain independent for formal and informal texts. In the last step of the study, Semi-supervised learning approach enrichment with the rule based approach has been used to extract name entities.The training data contains so much labeled entity that the success rate can be influenced for the Named Entity Recognition system that includes a machine learning component.
Benzer Tezler
- A hybrid method for toponym recognition on informal Turkish text
Gündelik Türkçe metinlerde hibrit yöntemle yer isimlerini tanıma
MERYEM KILINÇ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR KARAGÖZ
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Şartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması
Semantic relation extraction by conditional random fields from Turkish Wikipedia pages
CANAN GİRGİN
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Türkçe twitter'da soru algılama
Question identification on Turkish twitter
ZEYNEP BANU ÖZGER
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
- Event extraction from Turkish Trade Registry Gazette
Türkiye Ticaret Sicili Gazetesi'nden olay çıkarımı
İREM NUR DEMİRTAŞ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT