Türkçe dokümanlar için anlamsal benzerlik hesaplama yöntemi

Semantic similarity method for Turkish documents

PDF İndir

Tez No: 223795
Yazar: BÜLENT YÜCESOY
Danışmanlar: Y.DOÇ.DR. ŞULE ÖĞÜDÜCÜ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Veri madenciliği, Türkçe kavramsal sözlük, Anlamsal benzerlik, Data Mining, Turkish Lexical Dictionary, Semantic Similarity
Yıl: 2007
Dil: Türkçe
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 55

Özet

Bu çalışmada, Türkçe dokümanların anlamsal benzerliğinin hesaplanması için, yeni bir yöntem önerilmiştir. Çalışmada kullanılan dokümanlar, Türkçe bir internet sitesinden elde edilmiştir. Türkçe dokümanlar arası anlam benzerliğini hesaplamak için, Türkçe kavramsal sözlüğündeki sözcükler arası ilişkiler ayrıt temelli bir yaklaşımla incelenmiştir. Önerilen yöntemle sözcükler arası ikili benzerlikler saptanıp, bu benzerliklerin ağırlıklı ortalama kullanılarak birleşimi ile de dokümanlar arası ikili benzerlikler bulunmuştur. Sözcükler arası benzerlik ilişkisi için daha önceden kavramsal sözlük kullanılarak uygulanan ayrıt temelli yöntemlerle de kıyaslama yapılmıştır. Önerilen yöntemle hesaplanan ikili benzerlikler, çizge tabanlı bir demetleme yöntemi ile birbirine daha çok benzeyen dokümanların aynı demette olacağı şekilde gruplanmıştır. Demetleme sonuçlarından hareketle benzerlik sonuçları başarımı çıkarılmıştır. Ayrıca daha sağlıklı bir kıyaslama için kavramsal sözlük kullanmayan yöntemlerle benzerlik hesaplaması da yapılmıştır. Yapılan deneyler sonucunda, bu çalışma kapsamında önerilen benzerlik hesaplama yönteminin başarımının yeter seviyede olduğu gözlenmiştir.

Özet (Çeviri)

In this study, a new method is offered for calculating semantic similarity of Turkish documents. The documents used in this research are Turkish web pages. The new method uses edge-based similarity technics from Turkish lexical dictionary to calculate semantic similarity of Turkish documents. At first, pairwise similarities between keywords of two documents are calculated. Afterwards, pairwise word similarities are combined in a weighted average manner to get the pairwise document similarity result. Method results are compared with existing edge-based semantic similarity methods. Similarity results of the new method are then clustered by using a graph-based clustering algorithm so that most similar documents are collected in the same group. Clustering results give the performance of similarity results indirectly. In addition, method results are compared with non-lexical semantic similarity algorithms to have a better performance understanding of the new algorithm. The comparison of the results with the examples given in the literature was in a good agreement.

Benzer Tezler

Tez No
575122
Dokümanların anlamsal benzerliklerine dayalı özgün bir konu modelleme yöntemi
An original topic model method based on semantic similarity of documents
EKİN EKİNCİ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEVİNÇ İLHAN OMURCA
Tez No
348472
Farklı dillerdeki belgelerin benzerliğinin tespiti
Diagnosis of similiarity of texts in different documents
HAKAN YILMAZER
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mersin Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ZEKİ YETGİN
Tez No
651235
Soru dokümanlarının anlamsal benzerliklerine dayalı derin öğrenme tabanlı kümeleme analizi
Deep learning based clustering analysis based on the semantic similarity of question documents
ERAY YELMEN
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kocaeli Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NEVCİHAN DURU
Tez No
374016
Semantic text mining and an application in turkish documents
Anlamsal metin madenciliği ve türkçe dökümanlar üzerine bir uygulama
VOLKAN UZUN
Yüksek Lisans
İngilizce
2014
İstatistik Dokuz Eylül Üniversitesi
İstatistik Ana Bilim Dalı
YRD. DOÇ. DR. ENGİN YILDIZTEPE
Tez No
925231
Doğal dil işleme ile otomatik doküman doğrulama
Automatic document verification with natural language processing
AHMET TOPRAK
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Ticaret Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ METİN TURAN

Geri Dön