Geri Dön

A comprehensive analysis of using wordnet, part-of-speech tagging, and word sense disambiguation in text categorization

Metin sınıflandırmada wordnet, kelime türleri ve kelime anlamı belirginleştirme kullanımının kapsamlı analizi

  1. Tez No: 312076
  2. Yazar: KEREM ÇELİK
  3. Danışmanlar: YRD. DOÇ. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 94

Özet

Dijital ortamdaki metinler ve yapay öğrenme tekniklerindeki büyük artış, metinleri otomatik sınıflandırma çalışmalarının artmasına neden oldu. Metin sınıflandırma, temel olarak, öğrenme modellerini kullanarak, daha önceden görülmemiş dökümanları önceden belirlenmiş sınıflara atamaktır. Geleneksel metin sınıflandırma, herbir dökümanı, istatistiksel olarak inceleyerek belirli bir dizi haline getirmeyi hedefler ve ardından, metinleri sınıflandırmak için yapay öğrenme tekniklerini kullanır.Bu tez kapsamında, geleneksel metin sınıflandırma yöntemlerine ek olarak, metinlerde bulunan kelimeleri türlerine gore gruplandırıyoruz ve her bir türün sınıflandırma başarısındaki katkısını hem ayrı ayrı hem beraberce değerlendiriyoruz.Bunların yanı sıra, metinlere WordNet kullanarak, anlamsal özniteliklerden(semantic features) olan; eş anlamı(synonym), genel anlamı(hypernym), özel anlamı(hyponym), parça anlamı(meronyms) ve konuyu(topic) ekliyoruz. Bu sayede metinlere anlam(semantic) eklemiş oluyoruz. Bu aşamada yaşanılacak sorunlardan bir tanesi, bu anlamlar için anlam belirsizliği(ambiguity) oluşmasıydı. Bu problemi geliştirdiğimiz bir yöntem ile ortadan kaldırmaya çalıştıkBu tezdeki temel amacımız, anlamsal özniteliklerin metin sınıflandırmaya olan katkılarını araştırmak ve bu sayede sınıflandırmadaki doğruluk başarısını arttırmaktır.

Özet (Çeviri)

By the huge increase of data volume in the digital environment and the machine learning techniques, studies on automatic categorization of text documents is increased. Text categorization is simply assigning predefined label to unseen documents by using some learning models. Traditional text categorization is based on statistical analysis of documents to represent the document with some vectors. And then, one of the machine learning techniques is used for categorization of documents.In addition to the traditional text categorization techniques, in this thesis, we group words by their part of speech tag and investigate the effect of each part of speech individually and jointly in the classification accuracy.Furthermore, we incorporate semantic features such as synonyms, hypernyms, hyponyms, meronyms and topics into the documents by using WordNet. Thus we add meaning of terms. One of the problems faced in this study is that not all the semantic features really related to the document, in other words synsets generate ambiguity. To solve the problem we introduce a new method to eliminate the ambiguity.In this thesis the main objective is to investigate the contribution of semantic features. By incorporating semantic features we add meaning to the documents and thus the classification accuracy increased.

Benzer Tezler

  1. KeNet: A comprehensive Turkish wordnet and its applications in text clustering

    KeNet: Kapsamlı Türkçe wordnet ve metin kümelemede kullanılması

    RAZIEH EHSANI

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolIşık Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OLCAY TANER YILDIZ

    PROF. DR. ERCAN SOLAK

  2. Lexical cohesion analysis for topic segmentation, summarization and keyphrase extraction

    Konu bölümleme, özetleme ve anahtar kelime çıkarma için kelime bütünlüğü analizi

    GÖNENÇ ERCAN

    Doktora

    İngilizce

    İngilizce

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

    PROF. DR. İLYAS ÇİÇEKLİ

  3. Characterization of different shape objects using EM pulse for several different scenarios

    Farklı senaryolarda EM darbesi kullanarak farklı şekillerdeki nesnelerin karakterizasyonu

    EMRE İŞCAN

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. SEBAHATTİN EKER

    PROF. VASIL TABATADZE

  4. İnvolüsyonel sinir ağları ile hiperspektral verilerin analizi

    Analysis of hyperspectral data with involutional neural networks

    MÜCAHİT CİHAN

    Doktora

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiKonya Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT CEYLAN

  5. Kentsel katılım mekanizması olarak dijital ve geleneksel verinin birlikte çalışabilirliği üzerine bir model denemesi, Esenyurt ilçesi kamusal alanları

    A model experiment on interoperability of digital and traditional data as an urban participation mechanism, public areas of Esenyurt district

    MELİKE AKKAYA

    Doktora

    Türkçe

    Türkçe

    2024

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. ÖZLEM ÖZÇEVİK