Evaluation of cosine similarity feature results with different experimental setups for named entity recognition on tweets

Varlık ismi tanımlama üzerine kosinüs benzerliği özelliğinin farklı örneklemlerde değerlendirilmesi

PDF İndir

Tez No: 587371
Yazar: ONUR BÜYÜKTOPAÇ
Danışmanlar: PROF. DR. TANKUT ACARMAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Named entity recognition, Information Extraction, Twitter, Word embedding, Classification, Machine learning, Cosine Similarity
Yıl: 2019
Dil: İngilizce
Üniversite: Galatasaray Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 62

Özet

Sosyal medya günlük hayatımızın hızla büyüyen bir parçası olmuştur. Soayal medya kullanımının artışı ile birlikte her gçen gün muazzam büyüklükte bir içerik oluşmakta ve bu içerik hem araştırmacıların hem de iş dünyasının dikkatini çekmektedir. Bu boyuttaki veri ile çalışmak ve anlamlı sonuçlar elde etmek için bilgisayarların işlem gücüne ihtiyaç duyulmaktadır. Bu noktada da makine öğrenme yaklaşımları geliştirilerek probmlemlere çözüm üretilmesi hedeflenmektedir. Doğal Dil İşleme, yapay zeka uygulamalarının bir alt kategorisidir ve bilgisayar ile insan arasındaki etkileşimi dil üzerinden çözmeye odaklanır. Doğal Dil İşleme'de, Makine öğrenmesi uygulamalarının yardımıyla, metinleri parçalara ayırma, sınıflandırma, duygu analizi yapma, varlık ismi tanımlama gibi işlemler yapılabilmektedir. Gazete, makale, kitap gibi düzgün yapıdaki metinlerde bu çalışmalar başarılı sonuçlar verirken sosyal medyadan elde edilen içerikleri işlemek farklı zorlukları da beraberinde getirmektedir. Bu tarz metinler içerisinde pek çok gramer hatası, kısaltma, emoji ve çoklu dil kullanımı bulundurması sebebiyle öngörülemez ve zorludur. Twitter en çok kullanılan mikro blog sosyal medya platformlarından biridir. Kişisel metin paylaşımlarının yanı sıra, belli bir konuda ve başlık altında da içerik paylaşımları yapılabilmektedir. Bu yönüyle Twitter değerli ve ilgi çekici bir veri kaynağı haline gelmiştir. Bu karşın karakter kısıtlaması ve gündelik dil kullanımı ve emoji kullanımı gibi sebeplerden ötürü sahip olduğu veri yapısal olarak karmaşıktır. Bu çalışmada, temel sınıflandırma algoritmaları kullanılarak mikro blog verisi üzerinde varlık ismi tanımlama sistemi sunulmaktadır. Kosinüs benzerliği özelliğini geliştirerek, tüm temel sınıflandırma algoritmaları üzerinde farklı özellik kümeleri ile birlikte uyguluyoruz. Çalışmalarımızın sonuçları %74 hassasiyet, %68 duyarlılık ve %67 F1 skoru ile Named Entity rEcognition and Linking (NEEL) 2016 Challenge veri kümesi üzerinde alınmıştır. Bununla birlikte, çalışmamızı farklı dağılımlarda ve özelliklerdeki 2 veri kümeri üzerinde de genişlettik. Birinci veri kümemiz Oxtractor isimli bir start-up firmasında aittir. Veri kümesi“Kişi”,“Organizasyon”ve“Konum”bilgi etiketlerini içermektedir. İkinci veri kümesi ise Twitter belli başlıklarda konular üzerinden etiketlediğimiz kendi setimizdir. Bu veri kümesi içerisinde“Kişi”,“Varlık”,“Organizasyon”,“Konum”,“Ürün”,“Etkinlik”ve“Karakter”etiketleri bulunmaktadır. Elde ettiğimiz tüm tahminleme sonuçlarını karşılaştırdığımızda“Logistic regression”,“SVM”ve“Random forest”sınıflandırma algoritmalarının yaklaşımımızda en yüksek sonuçları ürettiğini gözlemledir. Farklı özellik kombinasyonlarındaki sonuçlar incelendiğinde ise yardımcı özelliklerin kosinüs benzerliği özelliğinin sonuçlarına kayda değer bir katkısı olmadığı gözlenmiştir. Varlık isim kümesinin çeşitliliği kosinüs benzerliği özelliği için ayırıcı bir faktör olarak görünmektedir. Son olarak, veri kümelerini 90/10'dan 50/50'ye kadar değişen oranlarda öğrenme/test etme bölümlerine ayırdığımızda kosinüs benzerliği özelliği kullanılan çalışmaların sonuçlarında dikkate değer farkların oluşmadığı gözlemlenmiştir.

Özet (Çeviri)

Today, social media is a huge part of our world and it continues to grow exponentially. Enormous content is being created with these platforms and it draws the attention of people for personal and professional levels. However, extracting meaningful information from this volume of content with human capabilities is not possible. Machine learning approaches are used to solve this problem with the help of computer power. Natural Language Processing (NLP) is a branch of artificial intelligence which is focused on interacting humans and computers using the natural language. By the aid of machine learning, NLP can achieve tasks from text such as tokenization, classification, sentiment analysis, Named Entity Recognition (NER). These tasks are producing successful results for well-structured texts like newspapers, articles, and books yet, working with unstructured texts from social media are challenging. These types of texts contain emoticons, abbreviations, grammar mistakes, and code-switching making data unpredictable and dirty. Twitter is one of the most popular microblog among social media platforms. It provides texts which are publicly posted and contains topic-specific opinions. It is a valuable source for collecting data. On the other hand, the content is unstructured because of character limitation and casual writing. In this study, we present an NER system and we evaluate baseline classifiers for unstructured texts. We develop cosine similarity feature and we evaluate and test each classifier subject to different combinations of features with cosine similarity. Our experimental results show that the presented system is reached at 74% level in precision, 68% in recall and 67% in F1 (micro average), respectively for Named Entity rEcognition and Linking (NEEL) 2016 Challenge dataset. The corpus is created from Twitter. In addition, we evaluate our system with 2 different datasets with different label distribution and types. One dataset is coming from a startup company named Oxtractor. It has 3 label types;“Person”,“Organization”, and“Location”. Also, we present dataset which is labeled manually from specific topics of tweets. It has 7 types of the label; Person“, ”Thing“, ”Organization“, ”Location“, ”Product“, ”Event“, and ”Character". We compare the prediction results and try to find the best fitting classifiers and feature sets. Logistic regression, SVM, and Random forest are producing the highest results with cosine similarity feature. The results are obtained with different feature sets shows that supportive features for cosine similarly do not impact the results significantly. The diversity of named entity is distinctive when working with cosine similarity feature. Finally, we compare prediction results with different testing/training split ratios for the manually labeled dataset from 90/10 to 50/50. The cosine similarity feature does not affect the split ratio remarkably.

Benzer Tezler

Tez No
507150
Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
Tez No
931667
İçerik tabanlı görüntü erişimi ile uzaktan algılama verilerinde obje arama
Object retrieval in remote sensing data using content based imaged retrieval
ÖZGE TOKMAK
Yüksek Lisans
Türkçe
2025
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
PROF. DR. NEBİYE MUSAOĞLU
Tez No
828505
Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım
A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization
MELTEM AKSOY
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEDA YANIK ÖZBAY
PROF. DR. MEHMET FATİH AMASYALI
Tez No
921995
Evaluation of vector and graph-based search methods in a banking knowledge platform using advanced language models
Bankacılık bilgi platformu için vektör ve grafik temelli arama yöntemlerinin gelişmiş dil modelleriyle değerlendirilmesi
BÜNYAMİN BAKIR
Yüksek Lisans
İngilizce
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Büyük Veri ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
949308
Investigating the performance of super-resolved remote sensing images on coastline segmentation with deep learning-based methods
Derin öğrenme tabanlı yöntemlerle kıyı şeridi segmentasyonunda süper çözünürlüklü uzaktan algılama görüntülerinin performansının araştırılması
İLHAN PALA
Yüksek Lisans
İngilizce
2025
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
İletişim Sistemleri Ana Bilim Dalı
DOÇ. DR. UĞUR ALGANCI

Geri Dön