Geri Dön

Yapısal olmayan metinler için adlandırılmış varlık tanıma algoritmaları ve uygulamaları

Named entity recognition algorithms and applications for non-structural texts

  1. Tez No: 767885
  2. Yazar: MUSTAFA GENCER
  3. Danışmanlar: DR. ÖĞR. ÜYESİ RESMİYE NASİBOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 102

Özet

Adlandırılmış varlık tanıma (AVT) problemi, veri çıkarımı, doğal dil işleme ve metin madenciliği gibi alanların alt dalı olarak ele alınmaktadır. Adlandırılmış varlık tanıma, yapılandırılmamış metinlerdeki varlık isimlerinin uygunluklarına göre önceden belirlenen kişi ismi, organizasyon ismi veya yer ismi gibi sınıflara atama yapmak için kullanılan bir araçtır. AVT çalışmaları pek çok alanda kullanıma sahiptir. Bunlara örnek olarak sohbet botlarının oluşturulması, sosyal ağlarda içerik önerisi oluşturma, özgeçmişleri işlemek veya müşteri çağrılarını sınıflandırmak ve onlardan öngörü elde etmek vb. söylenebilir. Bu tez çalışmasında ilk olarak iki farklı durum üzerinde AVT yapılmıştır. İlk olarak İngilizce haber yazılarından oluşan bir veri seti üzerinde iki farklı ön eğitimli kütüphane olan Spacy ve Stanford NLP kütüphaneleri kullanılarak kişi adı, yer adı, organizasyon adı vb. varlık adları tanınmaya çalışılmıştır. Bu çalışmanın sonunda kütüphaneler ile elde edilen doğruluk oranları, kütüphanelerin çalışma yapısı, hızları vb. ölçütler karşılaştırılmıştır. Çalışmanın devamında ise Twitter'daki Türkçe tweetler kullanılarak küfür, hakaret ve uygunsuz kelimeler adlandırılmış varlık tanım problemi olarak ele alınmış ve bu kelimeler farklı yöntemler ile tespit edilmeye çalışılmıştır. Önce metinlerde geçen kelime ve kelime öbekleri etiketlenmiş daha sonra ise etiketlenen kelimeler vektörleştirilmiştir. Vektörler, RNN, çift yönlü RNN, GRU, çift yönlü GRU, LSTM, çift yönlü LSTM ve önceden eğitilmiş çok dilli BERT modeli kullanılarak eğitim yapılmıştır. Modellerin çalışma sonuçları analiz edilmiş ve iki modelin sonuçları kıyaslamalı olarak değerlendirilmiştir.

Özet (Çeviri)

Named entity recognition (NER) problem is considered as a sub-branch of fields such as data extraction, natural language processing and text mining. Named entity recognition is a tool used to assign classes such as predetermined person name, organization name or place name according to the suitability of entity names in unstructured texts. NER studies have uses in many fields. Examples of these are the creation of chatbots, suggesting content on social networks, processing resumes or categorizing customer calls and gaining insights from them, etc. can be said. In this study, NER was performed on two different conditions. Firstly, on a dataset consisting of news articles in English, using two different pre-trained libraries, Spacy and Stanford NLP libraries, the name of the person, the name of the place, the name of the organization, etc. entity names have been tried to be recognized. At the end of this study, the accuracy rates obtained with the libraries, the working structure of the libraries, their speed, etc. criteria were compared. In the rest of the study, using Turkish tweets on Twitter, swearing, insults and inappropriate words were handled as a named entity definition problem and these words were tried to be determined by different methods. First, the words and phrases in the texts were labeled, and then the labeled words were vectorized. Vectors are trained using RNN, bidirectional RNN, GRU, bidirectional GRU, LSTM, bidirectional LSTM and a pre-trained multilingual BERT model. The study results of the models were analyzed and the results of the models were evaluated comparatively.

Benzer Tezler

  1. Medyaların Türk toplumu'nda popüler kültüre etkisi

    The Impact of the popular culture in the Turkish society

    NAJDA ÇILBIYIKOĞLU

    Doktora

    Türkçe

    Türkçe

    2000

    Radyo-Televizyonİstanbul Üniversitesi

    Radyo Televizyon ve Sinema Ana Bilim Dalı

    PROF. DR. ARİF ESİN

  2. Automating information extraction task for Turkish texts

    Türkçe metinlerden otomatik bilgi çıkarımı

    SERHAN TATAR

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. İLYAS ÇİÇEKLİ

    PROF. DR. ÖZGÜR ULUSOY

  3. Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma

    Text classification using graph convolutional networks

    RUKİYE ÖZDEMİR TEKİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU

  4. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  5. Bizlik bilinci? bağlamında Osmanlı İmparatorluğu'nda etnik grupların görünürlük kazanma yolları

    The means of visibility acquisition by ethnic groups within the Ottoman Empire in terms of ?awareness of being together?

    ZEYNEP KURNAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    AntropolojiHacettepe Üniversitesi

    Tarih Bölümü

    PROF. DR. MEHMET ÖZ