Geri Dön

A taxonomy based semantic similarity of documents using the cosine measure

Kosinüs benzerliğini kullanarak belgeler arası anlamsal benzerliği kavramsal sözlüğe dayalı hesaplama yöntemi

  1. Tez No: 251763
  2. Yazar: AINURA MADYLOVA
  3. Danışmanlar: YRD. DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 74

Özet

Bu çalışmada, belgeler arası anlamsal benzerliği hesaplamak için yeni bir yöntem önerilmektedir. Bu yöntem dökümanları simgeleyen terim vektörlerinin kosinüs benzerliği hesaplamasına dayanmaktadır. Bu terim vektörleri WordNet'in hiyerarşik yapılarından biri olan IS-A taksonomisine dayanmaktadır. Önerilen yöntemin var olan belge anlamsal benzerlik hesaplama ölçütlerinden en önemli farkı kısa zaman karmaşıklığıdır. Çalışmanın ilk bölümünde, varolan belge benzerlik ölçütleri, Türk belgelerindeki demetleme üzerinde oluşturdukları etkiler açısından karşılaştırılmaktadır. İlk deney kümesinin sonuçları, terim benzerliğini kullanarak hesaplanan ölçütlerin, insan yargılarına daha iyi uyan demetleme çözümleri ürettiğini göstermektedir. Ancak, anlamsal benzerlik ölçütleri daha uyumlu ve ayrık demetler oluşturmaktadır. Bu çalışmanın ikinci bölümünde, önerilen yöntem, kosinüs benzerliği ve Gündüz & Yücesoy tarafından önerilen belge anlamsal benzerliği ile karşılaştırılmaktadır. Karşılaştırma demetleme göstergeleri açısından yapılmıştır. Deneysel sonuç önerilen yöntemin yukarıda bahsedilen iki benzerlik ölçütünden daha başarılı sonuçlar verdiğini göstermektedir. Ayrıca, önerilen yöntemin zaman karmaşıklığı terim benzerliği ölçütünün zaman karmaşıklığı ile aynıdır.

Özet (Çeviri)

A new method for measuring the semantic similarity between documents is present in this study. This method is based on cosine similarity calculation of concept vectors representing the documents. Those concept vectors are extracted from the IS-A taxonomy, which is one of the hierarchical structures of the WordNet. The main difference of the proposed method and existing document semantic similarity measures is its low time complexity. In the first part of this study, existing document similarity metrics are compared in terms of the effects they produce on clustering of the Turkish documents. The results of the first experiment set show that single term similarity measure produces clustering solutions that better matches the human judgments. However, semantic similarity measures produce more cohesive and separate clusters. In the second part of this study, the proposed method is compared with the cosine similarity and document semantic similarity measure introduced by Gunduz & Yucesoy. The comparison is done in terms of unsupervised cluster validity indices. The experimental result shows that the proposed method outperforms both of the similarity metrics mentioned above. Moreover, the time complexity of the proposed method is the same with the time complexity of single term similarity measures.

Benzer Tezler

  1. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  2. Ürün tasarımı ve deneyim: Oyun kumandaları üzerine bir inceleme

    Product design and experience: A study on game controllers

    SEREFRAZ AKYAMAN

    Doktora

    Türkçe

    Türkçe

    2024

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstriyel Tasarım Ana Bilim Dalı

    YRD. DOÇ. DR. EKREM CEM ALPPAY

  3. 3 boyutlu yürüyüş analizine dayalı insan tanıma sistemi

    3d gait analysis based human recognition system

    RAMİZ GÖRKEM BİRDAL

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

  4. A corpus based approach to the identification and classification of translation errors committed by ELT students in Turkish context

    Türkiye bağlamında İngiliz Dili Eğitimi bölümü öğrencilerinin çeviri hatalarının belirlenmesi ve sınıflandırılması üzerine derleme dayalı bir yaklaşım

    BURÇİN AKKOÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Eğitim ve ÖğretimÇukurova Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ADNAN BİÇER

  5. Anadili Arapça olan B1-B2 düzeyindeki öğrenicilerin yabancı dil olarak Türkçe öğrenirken yaptıkları sözcüksel hatalar

    Native Arabic speaker's lexical errors in learning Turkish as a foreign language

    MANAL ŞERKAVİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimKocaeli Üniversitesi

    Yabancılara Türkçe Öğretimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA ÇEVİRME