Yapısal olmayan metinler için adlandırılmış varlık tanıma algoritmaları ve uygulamaları
Named entity recognition algorithms and applications for non-structural texts
- Tez No: 767885
- Danışmanlar: DR. ÖĞR. ÜYESİ RESMİYE NASİBOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 102
Özet
Adlandırılmış varlık tanıma (AVT) problemi, veri çıkarımı, doğal dil işleme ve metin madenciliği gibi alanların alt dalı olarak ele alınmaktadır. Adlandırılmış varlık tanıma, yapılandırılmamış metinlerdeki varlık isimlerinin uygunluklarına göre önceden belirlenen kişi ismi, organizasyon ismi veya yer ismi gibi sınıflara atama yapmak için kullanılan bir araçtır. AVT çalışmaları pek çok alanda kullanıma sahiptir. Bunlara örnek olarak sohbet botlarının oluşturulması, sosyal ağlarda içerik önerisi oluşturma, özgeçmişleri işlemek veya müşteri çağrılarını sınıflandırmak ve onlardan öngörü elde etmek vb. söylenebilir. Bu tez çalışmasında ilk olarak iki farklı durum üzerinde AVT yapılmıştır. İlk olarak İngilizce haber yazılarından oluşan bir veri seti üzerinde iki farklı ön eğitimli kütüphane olan Spacy ve Stanford NLP kütüphaneleri kullanılarak kişi adı, yer adı, organizasyon adı vb. varlık adları tanınmaya çalışılmıştır. Bu çalışmanın sonunda kütüphaneler ile elde edilen doğruluk oranları, kütüphanelerin çalışma yapısı, hızları vb. ölçütler karşılaştırılmıştır. Çalışmanın devamında ise Twitter'daki Türkçe tweetler kullanılarak küfür, hakaret ve uygunsuz kelimeler adlandırılmış varlık tanım problemi olarak ele alınmış ve bu kelimeler farklı yöntemler ile tespit edilmeye çalışılmıştır. Önce metinlerde geçen kelime ve kelime öbekleri etiketlenmiş daha sonra ise etiketlenen kelimeler vektörleştirilmiştir. Vektörler, RNN, çift yönlü RNN, GRU, çift yönlü GRU, LSTM, çift yönlü LSTM ve önceden eğitilmiş çok dilli BERT modeli kullanılarak eğitim yapılmıştır. Modellerin çalışma sonuçları analiz edilmiş ve iki modelin sonuçları kıyaslamalı olarak değerlendirilmiştir.
Özet (Çeviri)
Named entity recognition (NER) problem is considered as a sub-branch of fields such as data extraction, natural language processing and text mining. Named entity recognition is a tool used to assign classes such as predetermined person name, organization name or place name according to the suitability of entity names in unstructured texts. NER studies have uses in many fields. Examples of these are the creation of chatbots, suggesting content on social networks, processing resumes or categorizing customer calls and gaining insights from them, etc. can be said. In this study, NER was performed on two different conditions. Firstly, on a dataset consisting of news articles in English, using two different pre-trained libraries, Spacy and Stanford NLP libraries, the name of the person, the name of the place, the name of the organization, etc. entity names have been tried to be recognized. At the end of this study, the accuracy rates obtained with the libraries, the working structure of the libraries, their speed, etc. criteria were compared. In the rest of the study, using Turkish tweets on Twitter, swearing, insults and inappropriate words were handled as a named entity definition problem and these words were tried to be determined by different methods. First, the words and phrases in the texts were labeled, and then the labeled words were vectorized. Vectors are trained using RNN, bidirectional RNN, GRU, bidirectional GRU, LSTM, bidirectional LSTM and a pre-trained multilingual BERT model. The study results of the models were analyzed and the results of the models were evaluated comparatively.
Benzer Tezler
- Medyaların Türk toplumu'nda popüler kültüre etkisi
The Impact of the popular culture in the Turkish society
NAJDA ÇILBIYIKOĞLU
Doktora
Türkçe
2000
Radyo-Televizyonİstanbul ÜniversitesiRadyo Televizyon ve Sinema Ana Bilim Dalı
PROF. DR. ARİF ESİN
- Automating information extraction task for Turkish texts
Türkçe metinlerden otomatik bilgi çıkarımı
SERHAN TATAR
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. İLYAS ÇİÇEKLİ
PROF. DR. ÖZGÜR ULUSOY
- Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma
Text classification using graph convolutional networks
RUKİYE ÖZDEMİR TEKİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU
- Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Bizlik bilinci? bağlamında Osmanlı İmparatorluğu'nda etnik grupların görünürlük kazanma yolları
The means of visibility acquisition by ethnic groups within the Ottoman Empire in terms of ?awareness of being together?
ZEYNEP KURNAZ