Geri Dön

Text categorization based on semantic similarity with word2vector

Word2vector ile semantik benzerliğe dayanan metin kategorizasyonu

  1. Tez No: 495923
  2. Yazar: ATHER ABDULRAHEM MOHAMMEDSAED ALSAMURAI
  3. Danışmanlar: YRD. DOÇ. DR. ABDÜL KADİR GÖRÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Çankaya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgi Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 59

Özet

Çoğunlukla bir metin belgesi biçiminde olan çevrimiçi bilginin artmasıyla birlikte, belge erişimi ve yönetimi kolay hale gelmesi için bir organizasyona ihtiyaç duyulmaktadır. Bu belgelerin el ile organize edilmesi zordur, bu nedenle makine öğrenme algoritmaları, belgeleri sınıflandırmak ve organize etmek için kullanılabilir. Çoğunlukla, manuel sınıflandırmadan daha hızlı, daha doğru ve daha az maliyetlidir. Makine öğrenme algoritmalarının geleneksel yaklaşımlarının çoğu, terimlerin bir belgedeki önemini belirlerken kullanılan terim sıklığına ve anlamsal olarak benzer kelimeleri ihmal etmesine bağlıdır. Bu nedenle, belgeler arasındaki benzerliği hesaplamak ve doğru konuyu yakalamak için bir araç olarak Word2Vector modelini kullanarak, metin sınıflandırmasında anlambilimsel olarak benzer kelimelere dayalı bir sınıflandırıcı oluşturmayı önerdik. Bu nedenle, üç aşamalı yaklaşım uygulayarak iki model oluşturduk: Birinci aşama, ön işleme adımlarını uyguladık ve ikinci aşama, Reuter 21578 derleminin ilk on kategorisi için bir sözlük hazırladık ve Wikipedia İngilizce veri setinde Word2Vector modelini eğittiğimiz son aşama ile sınıflayıcı oluşturarak belgeler vii arasındaki benzerliği hesapladık. Çalışmamızın sonuçlarına bağlı olarak, ikinci modeli (en benzer belgenin categorilerini tahmin edilen kategoriler olark belirledik), ikincisinde ise tüm kategorilerdeki ilk modelden (ortalama bazlı) daha iyi bulduk. Çalışmamızın sonuçlarını diğer çalışmalarla karşılaştırdığımızda, sonuçlarımızın diğer çalışmaların sonuçlarına paralel olduğunu ancak kategorilerin bazılarında iyi sonuçlar alırken bazılarında daha kötü sonuçlar alındığınıtespit ettik.

Özet (Çeviri)

With an increase in online information, which is mostly in the form of a text document, there was a need to organize it so that management and retrieval by the search engine became easier. It is difficult to manually organize these documents, therefore, machine-learning algorithms can be used to classify and organize them. Mostly, they are faster, more accurate and less expensive than manual classification. Most traditional approaches of machine learning algorithms depend on the term frequency in determining the importance of the term within a document and neglect semantically similar words. For this reason, we proposed to build a classifier based on semantically similar words in text classification by using the Word2Vector model as a tool to compute the similarity between documents and capture the correct topic. So we built two models by applying three phases: the first phase, we applied preprocessing steps and the second phase, we created a dictionary for top ten categories of Reuters 21578 datasets and the final phase we trained Word2Vector model on the Wikipedia English dataset and use it to compute similarity v between documents. Depending on the results of our study, we found that the second model (the most similar predicted topic) is better than the first model (average based predicted topic) in all categories. When we compare the results of our study with other studies, we found that result of our study is a parallel to the results of other studies, but not overcome them, although these studies use feature selection in the improvement of their results while we use feature extraction in explaining of our results.

Benzer Tezler

  1. Corpus-based semantic kernels for supervised and semi-supervised text classification

    Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler

    AYŞE BERNA ALTINEL

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

    YRD. DOÇ. DR. MURAT CAN GANİZ

  2. A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization

    Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi

    KEREM ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. TUNGA GÜNGÖR

  3. TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması

    Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling

    DOĞANCAN KINIK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYSUN GÜRAN

  4. Türkçe tümcelerin yüklem odaklı anlam ve dilbilgisi çözümlemesi

    Grammatical and semantic analysis of turkish sentence based on predicate

    İLKNUR DÖNMEZ

    Doktora

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  5. Otomatik metin özetleme sistemi

    Automatic tex summarization system

    AYSUN GÜRAN

    Doktora

    Türkçe

    Türkçe

    2013

    MatematikYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT