Geri Dön

A semi-automated text classification and code organization system for academic papers

Akademik makaleler için yarı otomatik döküman sınıflandırma ve kod organizasyon sistemi

  1. Tez No: 423953
  2. Yazar: ALİCAN ÖZTÜRK
  3. Danışmanlar: YRD. DOÇ. DR. KORHAN KARABULUT, YRD. DOÇ. DR. RAİF SERKAN ALBAYRAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Computer Engineering and Computer Science and Control, Linguistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Yaşar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 54

Özet

Bu tezde, yerel olarak girilmiş 'kodlar'ı (belgedeki anahtar kelimeler) kullanarak, belgeye, kullanıcıya ait bir başlığın atanması için WordNet'in bağlantılarının (synsetlerini ve hypernymlerini) kullanılması amaçlanmıştır. WordNet veritabanı; kelimelerin anlamlarını içermesinin yanı sıra, bu kelime ile alakalı olan alt kelimeleri, kapsayıcı kelimeleri, eş anlamlı sözleri, eşsesli sözleri ve meronimleri içeren zekice bir araya getirilmiş bir sözlüktür. Bütün bu kelimeler birbirine bir ağ yapısı aracılığı ile, aralarında yukarıda belirtilmiş ilişkiler ile bağlıdır. Bir 'kod' kümesinin içindeki kelimelerin, ikililer halinde WordNet üzerinde aralarındaki mesafeyi ölçerek ve buradan yüksek değer olarak sınıflandırılanların da kapsayıcı kelimelerini zenginleştirme amaçlı kullanarak, sonuçta bütün dokümanın konusunu kapsayabilecek potansiyel başlık olabilen anahtar kelimeler elde edilebilmektedir. Sisteme girilen kodlar kişinin tercihleri ve belgeye bakış açısına göre değişmektedir, bu nedenle aynı belgeden elde edilen iki sonucun birbirinden tamamen farklı olması mümkündür. Bunun amacı, genel bir başlık sunmak yerine, başlığı kullanıcının ilgilendiği konuya göre kişiselleştirmektir. Bu projede kelimeler arası benzerliği bulmak için JWS ve kelimelerin anlamlarının seçimi, hypernymlerin elde edilmesi için RitaCore'dan Rita WordNet Java kütüphaneleri kullanılmıştır.

Özet (Çeviri)

In this thesis, the aim is to use the locally entered“codes”(keywords in the document) to determine what the users' associated topic with that document corresponds to via WordNet's connections, synsets and hypernyms. WordNet has a neatly arranged structure that not only includes meaning for each sense of the word but also all the other words associated with it, in forms of hyponyms, hypernyms, synonyms, holonyms and meronyms. All of these words are connected in a network structure with appropriate links in between. By using the distance between the words to calculate the similarities between each pair of words inside a code cluster and enriching them with the hypernyms of high value nodes, it is possible to obtain a list of possible words that can be associated as topic keywords for the document itself. Since the codes entered into the system differ by the users' preferences and point of view on the document, it is highly possible for two instances to have completely different topics derived from the same document. The purpose of this is to personalize the topic according to the users' interest in the document instead of the presenting a generic topic about it. The project uses the Java library JWS to find the similarity between words and RitaWordNet from RitaCore to extract meanings and hypernyms of the words to select proper senses.

Benzer Tezler

  1. Türkçe sözcük anlam belirsizliği giderme

    Word sense disambiguation for Turkish

    BAHAR İLGEN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Multi-view short-text classification using knowledge bases

    Bilgi tabanı kullanarak çok görüntülü kısa metin sınıflandırma

    MERT ÇALIŞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CEMAL OKAN ŞAKAR

  3. Neural semanti̇c parsing, annotation and evaluation for Turkish

    Türkçe için nöral semantik ayrıştırma, etiketleme ve değerlendirme

    NECVA BÖLÜCÜ

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HARUN ARTUNER

    DOÇ. DR. BURCU CAN BUĞLALILAR

  4. Corpus-based semantic kernels for supervised and semi-supervised text classification

    Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler

    AYŞE BERNA ALTINEL

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

    YRD. DOÇ. DR. MURAT CAN GANİZ

  5. Kullanıcı destek sistemlerinde yardım biletlerinin otomatik sınıflandırılması

    Automatic classification of help tickets in user support systems

    MÜCAHİT ALTINTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ