Metin madenciliği kullanarak ingilizce doküman sınıflama
English document classification using text mining
- Tez No: 600821
- Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: İstanbul Ticaret Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 98
Özet
Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Bu çalışmada bilinirliği yüksek olan kosinüs benzerliği ve Jaccard benzerliği ile Noktasal karşılıklı Bilgi (PMI) birliktelik ölçütü karşılaştırılarak sonuçlar gözlemlenmiştir. Özellik seçimi için, Helmholtz prensibi ile Gestalt teorisi kullanılmıştır. Bu yöntem metin madenciliğinde, özellik çıkarımı, özetleme gibi alanlarda kullanılmıştır. Çalışma için kullanılan doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram önceden belirlenmiştir. Önceden belirlenmiş kavramlara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard benzerliğinde herhangi bir iyileşme gözlemlenmemiştir. Çalışmanın sonraki kısmında, PMI benzerlik ölçütünü K-Means modeli üzerinde uygulayarak öbekleme sonuçları gözlemlenmiştir. Sonuçları iyileştirmek üzere benzerlik gösteren kelimelerin sonuçlara daha belirgin etki yapması amacıyla öbeklenen doküman vektörlerin temsilinde yüzdesel eşikler uygulanmıştır. Bu aralıkta yapılan öbekleme çalışmasında yaklaşık %70'lere varan başarı sağlanmıştır.
Özet (Çeviri)
Nowadays, the classification of text-based documents is of very import, especially when lots of corporate correspondence and digital documentation are done. Classification of similar texts from piles is a factor increases productivity. In text mining, various approaches to such problems are sought. In this study, we have compared the Cosine similarity and Jaccard similarity with PMI (Pointwise Mutual Information) criterion and the results are observed. The Gestalt theory with the Helmholtz principle was used to identify meaningful words. This method has been used in text mining in areas such as feature extraction, text summarization. The document data set used for the study was in the sports and educational themes and a total of 14 sub-concepts were pre-determined. Cosine Jaccard and PMI similarity criteria were compared for documents with predetermined concepts. On the basis of all of the documents with a similarity rate on average, the likeness of Cosine similarity was 75%, Jaccard similarity was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard similarity was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In the point of view, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Similarity. In the next part of the study, clustering results were observed by applying the PMI similarity criterion on K-Means model. In the clustering study for randomly selected classes, it was observed that the 20 randomly selected documents were assigned to different classes in the calculations, considering that the first random classes were assigned different topics. Percentage thresholds were applied to the document vectors of the clustered document vectors in order to have a more obvious effect on words with common similarities in order to improve the results. In the calculations of these threshold values between 25% and 75%, the most successful interval was 60-65%. In this range, the success of the clustering was achieved up to 70%.
Benzer Tezler
- Metin madenciliği ile doküman demetleme
Dokument clustering using text mining
SYOLAİ M.TAHA
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. SUAT ÖZDEMİR
- Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi
A deep learning analysis on Turkish question classification task using word2vec representations
ŞEYHMUS YILMAZ
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SİNAN TOKLU
- TFEEC : Türkçe finansal olay çıkarım derlemi
TFEEC : Turkish financial event extraction corpus
KADİR ŞİNAS KAYNAK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Web mining: Pattern discovery on the world wide web
Web madenciliği: Web sayfalarında örüntü keşfi
MUSTAFA TURAN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. DERYA BİRANT
- Analysis of trends and technologies of robotics by using text mining techniques
Metin madenciliği teknikleri kullanılarak robotik eğilimlerin ve teknolojilerin analizi
HASAN SELÇUK AK
Yüksek Lisans
İngilizce
2017
Mekatronik MühendisliğiBahçeşehir ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERCAN ÖZCAN