Metin madenciliği kullanarak ingilizce doküman sınıflama

English document classification using text mining

PDF İndir

Tez No: 600821
Yazar: AHMET GÖRKEM ÖZDOĞAN
Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: İstanbul Ticaret Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 98

Özet

Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Bu çalışmada bilinirliği yüksek olan kosinüs benzerliği ve Jaccard benzerliği ile Noktasal karşılıklı Bilgi (PMI) birliktelik ölçütü karşılaştırılarak sonuçlar gözlemlenmiştir. Özellik seçimi için, Helmholtz prensibi ile Gestalt teorisi kullanılmıştır. Bu yöntem metin madenciliğinde, özellik çıkarımı, özetleme gibi alanlarda kullanılmıştır. Çalışma için kullanılan doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram önceden belirlenmiştir. Önceden belirlenmiş kavramlara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard benzerliğinde herhangi bir iyileşme gözlemlenmemiştir. Çalışmanın sonraki kısmında, PMI benzerlik ölçütünü K-Means modeli üzerinde uygulayarak öbekleme sonuçları gözlemlenmiştir. Sonuçları iyileştirmek üzere benzerlik gösteren kelimelerin sonuçlara daha belirgin etki yapması amacıyla öbeklenen doküman vektörlerin temsilinde yüzdesel eşikler uygulanmıştır. Bu aralıkta yapılan öbekleme çalışmasında yaklaşık %70'lere varan başarı sağlanmıştır.

Özet (Çeviri)

Nowadays, the classification of text-based documents is of very import, especially when lots of corporate correspondence and digital documentation are done. Classification of similar texts from piles is a factor increases productivity. In text mining, various approaches to such problems are sought. In this study, we have compared the Cosine similarity and Jaccard similarity with PMI (Pointwise Mutual Information) criterion and the results are observed. The Gestalt theory with the Helmholtz principle was used to identify meaningful words. This method has been used in text mining in areas such as feature extraction, text summarization. The document data set used for the study was in the sports and educational themes and a total of 14 sub-concepts were pre-determined. Cosine Jaccard and PMI similarity criteria were compared for documents with predetermined concepts. On the basis of all of the documents with a similarity rate on average, the likeness of Cosine similarity was 75%, Jaccard similarity was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard similarity was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In the point of view, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Similarity. In the next part of the study, clustering results were observed by applying the PMI similarity criterion on K-Means model. In the clustering study for randomly selected classes, it was observed that the 20 randomly selected documents were assigned to different classes in the calculations, considering that the first random classes were assigned different topics. Percentage thresholds were applied to the document vectors of the clustered document vectors in order to have a more obvious effect on words with common similarities in order to improve the results. In the calculations of these threshold values between 25% and 75%, the most successful interval was 60-65%. In this range, the success of the clustering was achieved up to 70%.

Benzer Tezler

Tez No
316607
Metin madenciliği ile doküman demetleme
Dokument clustering using text mining
SYOLAİ M.TAHA
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. SUAT ÖZDEMİR
Tez No
639475
Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi
A deep learning analysis on Turkish question classification task using word2vec representations
ŞEYHMUS YILMAZ
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Düzce Üniversitesi
Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SİNAN TOKLU
Tez No
740021
TFEEC : Türkçe finansal olay çıkarım derlemi
TFEEC : Turkish financial event extraction corpus
KADİR ŞİNAS KAYNAK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
299086
Web mining: Pattern discovery on the world wide web
Web madenciliği: Web sayfalarında örüntü keşfi
MUSTAFA TURAN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. DERYA BİRANT
Tez No
453755
Analysis of trends and technologies of robotics by using text mining techniques
Metin madenciliği teknikleri kullanılarak robotik eğilimlerin ve teknolojilerin analizi
HASAN SELÇUK AK
Yüksek Lisans
İngilizce
2017
Mekatronik Mühendisliği Bahçeşehir Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERCAN ÖZCAN

Geri Dön