Geri Dön

Evaluation of cosine similarity feature results with different experimental setups for named entity recognition on tweets

Varlık ismi tanımlama üzerine kosinüs benzerliği özelliğinin farklı örneklemlerde değerlendirilmesi

  1. Tez No: 587371
  2. Yazar: ONUR BÜYÜKTOPAÇ
  3. Danışmanlar: PROF. DR. TANKUT ACARMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Named entity recognition, Information Extraction, Twitter, Word embedding, Classification, Machine learning, Cosine Similarity
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Galatasaray Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Sosyal medya günlük hayatımızın hızla büyüyen bir parçası olmuştur. Soayal medya kullanımının artışı ile birlikte her gçen gün muazzam büyüklükte bir içerik oluşmakta ve bu içerik hem araştırmacıların hem de iş dünyasının dikkatini çekmektedir. Bu boyuttaki veri ile çalışmak ve anlamlı sonuçlar elde etmek için bilgisayarların işlem gücüne ihtiyaç duyulmaktadır. Bu noktada da makine öğrenme yaklaşımları geliştirilerek probmlemlere çözüm üretilmesi hedeflenmektedir. Doğal Dil İşleme, yapay zeka uygulamalarının bir alt kategorisidir ve bilgisayar ile insan arasındaki etkileşimi dil üzerinden çözmeye odaklanır. Doğal Dil İşleme'de, Makine öğrenmesi uygulamalarının yardımıyla, metinleri parçalara ayırma, sınıflandırma, duygu analizi yapma, varlık ismi tanımlama gibi işlemler yapılabilmektedir. Gazete, makale, kitap gibi düzgün yapıdaki metinlerde bu çalışmalar başarılı sonuçlar verirken sosyal medyadan elde edilen içerikleri işlemek farklı zorlukları da beraberinde getirmektedir. Bu tarz metinler içerisinde pek çok gramer hatası, kısaltma, emoji ve çoklu dil kullanımı bulundurması sebebiyle öngörülemez ve zorludur. Twitter en çok kullanılan mikro blog sosyal medya platformlarından biridir. Kişisel metin paylaşımlarının yanı sıra, belli bir konuda ve başlık altında da içerik paylaşımları yapılabilmektedir. Bu yönüyle Twitter değerli ve ilgi çekici bir veri kaynağı haline gelmiştir. Bu karşın karakter kısıtlaması ve gündelik dil kullanımı ve emoji kullanımı gibi sebeplerden ötürü sahip olduğu veri yapısal olarak karmaşıktır. Bu çalışmada, temel sınıflandırma algoritmaları kullanılarak mikro blog verisi üzerinde varlık ismi tanımlama sistemi sunulmaktadır. Kosinüs benzerliği özelliğini geliştirerek, tüm temel sınıflandırma algoritmaları üzerinde farklı özellik kümeleri ile birlikte uyguluyoruz. Çalışmalarımızın sonuçları %74 hassasiyet, %68 duyarlılık ve %67 F1 skoru ile Named Entity rEcognition and Linking (NEEL) 2016 Challenge veri kümesi üzerinde alınmıştır. Bununla birlikte, çalışmamızı farklı dağılımlarda ve özelliklerdeki 2 veri kümeri üzerinde de genişlettik. Birinci veri kümemiz Oxtractor isimli bir start-up firmasında aittir. Veri kümesi“Kişi”,“Organizasyon”ve“Konum”bilgi etiketlerini içermektedir. İkinci veri kümesi ise Twitter belli başlıklarda konular üzerinden etiketlediğimiz kendi setimizdir. Bu veri kümesi içerisinde“Kişi”,“Varlık”,“Organizasyon”,“Konum”,“Ürün”,“Etkinlik”ve“Karakter”etiketleri bulunmaktadır. Elde ettiğimiz tüm tahminleme sonuçlarını karşılaştırdığımızda“Logistic regression”,“SVM”ve“Random forest”sınıflandırma algoritmalarının yaklaşımımızda en yüksek sonuçları ürettiğini gözlemledir. Farklı özellik kombinasyonlarındaki sonuçlar incelendiğinde ise yardımcı özelliklerin kosinüs benzerliği özelliğinin sonuçlarına kayda değer bir katkısı olmadığı gözlenmiştir. Varlık isim kümesinin çeşitliliği kosinüs benzerliği özelliği için ayırıcı bir faktör olarak görünmektedir. Son olarak, veri kümelerini 90/10'dan 50/50'ye kadar değişen oranlarda öğrenme/test etme bölümlerine ayırdığımızda kosinüs benzerliği özelliği kullanılan çalışmaların sonuçlarında dikkate değer farkların oluşmadığı gözlemlenmiştir.

Özet (Çeviri)

Today, social media is a huge part of our world and it continues to grow exponentially. Enormous content is being created with these platforms and it draws the attention of people for personal and professional levels. However, extracting meaningful information from this volume of content with human capabilities is not possible. Machine learning approaches are used to solve this problem with the help of computer power. Natural Language Processing (NLP) is a branch of artificial intelligence which is focused on interacting humans and computers using the natural language. By the aid of machine learning, NLP can achieve tasks from text such as tokenization, classification, sentiment analysis, Named Entity Recognition (NER). These tasks are producing successful results for well-structured texts like newspapers, articles, and books yet, working with unstructured texts from social media are challenging. These types of texts contain emoticons, abbreviations, grammar mistakes, and code-switching making data unpredictable and dirty. Twitter is one of the most popular microblog among social media platforms. It provides texts which are publicly posted and contains topic-specific opinions. It is a valuable source for collecting data. On the other hand, the content is unstructured because of character limitation and casual writing. In this study, we present an NER system and we evaluate baseline classifiers for unstructured texts. We develop cosine similarity feature and we evaluate and test each classifier subject to different combinations of features with cosine similarity. Our experimental results show that the presented system is reached at 74% level in precision, 68% in recall and 67% in F1 (micro average), respectively for Named Entity rEcognition and Linking (NEEL) 2016 Challenge dataset. The corpus is created from Twitter. In addition, we evaluate our system with 2 different datasets with different label distribution and types. One dataset is coming from a startup company named Oxtractor. It has 3 label types;“Person”,“Organization”, and“Location”. Also, we present dataset which is labeled manually from specific topics of tweets. It has 7 types of the label; Person“, ”Thing“, ”Organization“, ”Location“, ”Product“, ”Event“, and ”Character". We compare the prediction results and try to find the best fitting classifiers and feature sets. Logistic regression, SVM, and Random forest are producing the highest results with cosine similarity feature. The results are obtained with different feature sets shows that supportive features for cosine similarly do not impact the results significantly. The diversity of named entity is distinctive when working with cosine similarity feature. Finally, we compare prediction results with different testing/training split ratios for the manually labeled dataset from 90/10 to 50/50. The cosine similarity feature does not affect the split ratio remarkably.

Benzer Tezler

  1. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  2. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  3. Deep convolutional neural network based representations for person re-identification

    Kişiyi yeniden tanıma için derin evrişimsel sinir ağı tabanlı modeller

    ALPER ULU

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL

  4. Öneri sistemi modellerinde kullanılan makine öğrenmesi tekniklerinin müşteri satın alma tercihleri doğrultusunda karşılaştırılması

    Comparison of machine learning techniques used in the recommender system models in accordance with customer purchase preferences

    ÖMER UÇAN

    Doktora

    Türkçe

    Türkçe

    2020

    İstatistikAkdeniz Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. CAN DENİZ KÖKSAL

  5. Komşu havzaların hidrolojik ve morfolojik olarak karşılaştırılması

    Comparison of adjacent basins in terms of morphological and hydrological characteristics

    ARZU KÜTÜKCÜ

    Doktora

    Türkçe

    Türkçe

    2016

    Coğrafyaİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞİNASİ KAYA