Gizli anlamsal analiz ile metin sınıflandırma

Text classification with latent semantic analysis

PDF İndir

Tez No: 476596
Yazar: EMRE DENİZ
Danışmanlar: PROF. DR. HASAN ERBAY
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: Türkçe
Üniversite: Kırıkkale Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 59

Özet

Günümüzde, çoğunluğu metinsel veriler olmak üzere birçok veri kaynağından bilgi elde edilebilmektedir. Spesifik bir konuda aradığımız bilgiyi elde etmek için tüm dokümanları incelemek mümkün değildir. Verileri otomatik olarak sınıflandırmak, istediğimiz verilere ulaşmada önemli bir avantaj sağlar. Gizli Anlamsal Analiz (LSA), Tekil Değer Ayrışımını (SVD) kullanarak bir vektör uzayındaki terimler ve dokümanlar arasındaki gizli yapıyı ortaya çıkaran yöntemlerden biridir. Dokümanların dizinlenmesi, otomatik özetlenmesi ve anahtar kelimelerinin belirlenmesi gibi çalışmalarda kullanılan LSA, yapısı itibari ile metin sınıflandırma alanında da kullanılabilir. Bu çalışmada Reuters veri tabanındaki metinsel veriler kullanılarak LSA ile metin sınıflandırması gerçekleştirilmiştir. Reuters veri tabanından alınan beş sınıfa ait metinsel verilerin terim-sınıf matrisi oluşturulmuştur. Elde edilen terim-sınıf matrisine SVD uygulanarak rank- yaklaşımına göre anlamsal uzay elde edilmiştir. Bu anlamsal uzaydaki terim ve terimlerin ait olduğu sınıfların konumları temel alınarak sınıfı önceden bilinen dokümanların kosinüs benzerliğine göre ait olabileceği sınıflar listelenmiştir. Yapılan testler sonucunda elde edilen bulgular incelendiğinde önerilen sınıflama yönteminin büyük oranda doğru sonuçlar çıkardığı gözlemlenmiştir ve mevcut sınıflandırma yöntemlerine alternatif olabileceği görülmüştür.

Özet (Çeviri)

Today, information can be obtained from many data sources, most of which are textual data. In a specific matter, it is not possible to examine all the documents in order to obtain the information we seek. Classifying the data automatically provides an important advantage in reaching the data we want. Latent Semantic Analysis(LSA) is one of the methods that reveals the latent structure between documents and terms in a vector space using Singular Value Decomposition(SVD). The LSA used in studies such as indexing of documents, automatic summarization and determination of key words documents, can also be used in text classification field by structure. In this study, text classification with LSA was performed using textual data from Reuters database. The term-class matrix of the textual data of the five classes taken from the Reuters database was constructed.The semantic space is obtained according to rank-k approximation by applying SVD to the obtained term-class matrix. Based on the positions of the classes to which the terms and terms in this semantic space belong, the classes to which the previously known documents belong can be classified according to cosine similarity. When the findings obtained from the tests conducted are examined, it is observed that the proposed classification method has resulted in correct results.

Benzer Tezler

Tez No
804910
Yapay zeka yöntemleri ile uzaktan eğitimdeki sorunların tespiti ve öğrencilerin akademik performanslarının tahmin edilmesi
Detecting the problems in distance education and predicting the academic performance of students by using artificial intelligence methods
HALİT IRMAK
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ZÜMRÜT ECEVİT SATI
Tez No
961173
Taxonomy and visualization of digital architecture knowledge: Proposal for a scientific online encyclopedia
Dijital mimarlık bilgisinin taksonomisi ve görselleştirilmesi: Bilimsel bir çevrim içi ansiklopedi önerisi
ESRANUR KARACİF
Doktora
İngilizce
2025
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. ETHEM GÜRER
Tez No
329658
Otomatik metin özetleme sistemi
Automatic tex summarization system
AYSUN GÜRAN
Doktora
Türkçe
2013
Matematik Yıldız Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
Tez No
880308
UNESCO tarafından Türkiye'de dünya miras listesine alınan yerlerin metin madenciliği yöntemleri ile ziyaretçi yorumlarının analizi
Analysis of visitor comments of places included in the world heritage list by UNESCO in Turkey using text mining methods
MUSTAFA KARAKAYA
Yüksek Lisans
Türkçe
2024
İstatistik Ondokuz Mayıs Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. PELİN KASAP
Tez No
353807
Multi̇-document summarization using distortion-rate ratio
Bozulum-hız oranına göre çoklu metin özetinin çıkarılması
ULUKBEK ATTOKUROV
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT

Geri Dön