Evaluation of cosine similarity feature results with different experimental setups for named entity recognition on tweets
Varlık ismi tanımlama üzerine kosinüs benzerliği özelliğinin farklı örneklemlerde değerlendirilmesi
- Tez No: 587371
- Danışmanlar: PROF. DR. TANKUT ACARMAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Named entity recognition, Information Extraction, Twitter, Word embedding, Classification, Machine learning, Cosine Similarity
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Sosyal medya günlük hayatımızın hızla büyüyen bir parçası olmuştur. Soayal medya kullanımının artışı ile birlikte her gçen gün muazzam büyüklükte bir içerik oluşmakta ve bu içerik hem araştırmacıların hem de iş dünyasının dikkatini çekmektedir. Bu boyuttaki veri ile çalışmak ve anlamlı sonuçlar elde etmek için bilgisayarların işlem gücüne ihtiyaç duyulmaktadır. Bu noktada da makine öğrenme yaklaşımları geliştirilerek probmlemlere çözüm üretilmesi hedeflenmektedir. Doğal Dil İşleme, yapay zeka uygulamalarının bir alt kategorisidir ve bilgisayar ile insan arasındaki etkileşimi dil üzerinden çözmeye odaklanır. Doğal Dil İşleme'de, Makine öğrenmesi uygulamalarının yardımıyla, metinleri parçalara ayırma, sınıflandırma, duygu analizi yapma, varlık ismi tanımlama gibi işlemler yapılabilmektedir. Gazete, makale, kitap gibi düzgün yapıdaki metinlerde bu çalışmalar başarılı sonuçlar verirken sosyal medyadan elde edilen içerikleri işlemek farklı zorlukları da beraberinde getirmektedir. Bu tarz metinler içerisinde pek çok gramer hatası, kısaltma, emoji ve çoklu dil kullanımı bulundurması sebebiyle öngörülemez ve zorludur. Twitter en çok kullanılan mikro blog sosyal medya platformlarından biridir. Kişisel metin paylaşımlarının yanı sıra, belli bir konuda ve başlık altında da içerik paylaşımları yapılabilmektedir. Bu yönüyle Twitter değerli ve ilgi çekici bir veri kaynağı haline gelmiştir. Bu karşın karakter kısıtlaması ve gündelik dil kullanımı ve emoji kullanımı gibi sebeplerden ötürü sahip olduğu veri yapısal olarak karmaşıktır. Bu çalışmada, temel sınıflandırma algoritmaları kullanılarak mikro blog verisi üzerinde varlık ismi tanımlama sistemi sunulmaktadır. Kosinüs benzerliği özelliğini geliştirerek, tüm temel sınıflandırma algoritmaları üzerinde farklı özellik kümeleri ile birlikte uyguluyoruz. Çalışmalarımızın sonuçları %74 hassasiyet, %68 duyarlılık ve %67 F1 skoru ile Named Entity rEcognition and Linking (NEEL) 2016 Challenge veri kümesi üzerinde alınmıştır. Bununla birlikte, çalışmamızı farklı dağılımlarda ve özelliklerdeki 2 veri kümeri üzerinde de genişlettik. Birinci veri kümemiz Oxtractor isimli bir start-up firmasında aittir. Veri kümesi“Kişi”,“Organizasyon”ve“Konum”bilgi etiketlerini içermektedir. İkinci veri kümesi ise Twitter belli başlıklarda konular üzerinden etiketlediğimiz kendi setimizdir. Bu veri kümesi içerisinde“Kişi”,“Varlık”,“Organizasyon”,“Konum”,“Ürün”,“Etkinlik”ve“Karakter”etiketleri bulunmaktadır. Elde ettiğimiz tüm tahminleme sonuçlarını karşılaştırdığımızda“Logistic regression”,“SVM”ve“Random forest”sınıflandırma algoritmalarının yaklaşımımızda en yüksek sonuçları ürettiğini gözlemledir. Farklı özellik kombinasyonlarındaki sonuçlar incelendiğinde ise yardımcı özelliklerin kosinüs benzerliği özelliğinin sonuçlarına kayda değer bir katkısı olmadığı gözlenmiştir. Varlık isim kümesinin çeşitliliği kosinüs benzerliği özelliği için ayırıcı bir faktör olarak görünmektedir. Son olarak, veri kümelerini 90/10'dan 50/50'ye kadar değişen oranlarda öğrenme/test etme bölümlerine ayırdığımızda kosinüs benzerliği özelliği kullanılan çalışmaların sonuçlarında dikkate değer farkların oluşmadığı gözlemlenmiştir.
Özet (Çeviri)
Today, social media is a huge part of our world and it continues to grow exponentially. Enormous content is being created with these platforms and it draws the attention of people for personal and professional levels. However, extracting meaningful information from this volume of content with human capabilities is not possible. Machine learning approaches are used to solve this problem with the help of computer power. Natural Language Processing (NLP) is a branch of artificial intelligence which is focused on interacting humans and computers using the natural language. By the aid of machine learning, NLP can achieve tasks from text such as tokenization, classification, sentiment analysis, Named Entity Recognition (NER). These tasks are producing successful results for well-structured texts like newspapers, articles, and books yet, working with unstructured texts from social media are challenging. These types of texts contain emoticons, abbreviations, grammar mistakes, and code-switching making data unpredictable and dirty. Twitter is one of the most popular microblog among social media platforms. It provides texts which are publicly posted and contains topic-specific opinions. It is a valuable source for collecting data. On the other hand, the content is unstructured because of character limitation and casual writing. In this study, we present an NER system and we evaluate baseline classifiers for unstructured texts. We develop cosine similarity feature and we evaluate and test each classifier subject to different combinations of features with cosine similarity. Our experimental results show that the presented system is reached at 74% level in precision, 68% in recall and 67% in F1 (micro average), respectively for Named Entity rEcognition and Linking (NEEL) 2016 Challenge dataset. The corpus is created from Twitter. In addition, we evaluate our system with 2 different datasets with different label distribution and types. One dataset is coming from a startup company named Oxtractor. It has 3 label types;“Person”,“Organization”, and“Location”. Also, we present dataset which is labeled manually from specific topics of tweets. It has 7 types of the label; Person“, ”Thing“, ”Organization“, ”Location“, ”Product“, ”Event“, and ”Character". We compare the prediction results and try to find the best fitting classifiers and feature sets. Logistic regression, SVM, and Random forest are producing the highest results with cosine similarity feature. The results are obtained with different feature sets shows that supportive features for cosine similarly do not impact the results significantly. The diversity of named entity is distinctive when working with cosine similarity feature. Finally, we compare prediction results with different testing/training split ratios for the manually labeled dataset from 90/10 to 50/50. The cosine similarity feature does not affect the split ratio remarkably.
Benzer Tezler
- Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım
A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization
MELTEM AKSOY
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEDA YANIK ÖZBAY
PROF. DR. MEHMET FATİH AMASYALI
- Deep convolutional neural network based representations for person re-identification
Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller
ALPER ULU
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL
- Öneri sistemi modellerinde kullanılan makine öğrenmesi tekniklerinin müşteri satın alma tercihleri doğrultusunda karşılaştırılması
Comparison of machine learning techniques used in the recommender system models in accordance with customer purchase preferences
ÖMER UÇAN
- Komşu havzaların hidrolojik ve morfolojik olarak karşılaştırılması
Comparison of adjacent basins in terms of morphological and hydrological characteristics
ARZU KÜTÜKCÜ
Doktora
Türkçe
2016
Coğrafyaİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞİNASİ KAYA