Web sayfalarının gizli anlam analizi yaklaşımıyla otomatik olarak sınıflandırılması
Latent semantic analysis approach for automatic classification of web pages contents
- Tez No: 344009
- Danışmanlar: PROF. DR. HASAN ERBAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Kırıkkale Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Bilgisayar ve ağ teknolojisinin hızlı gelişimi İnternet?in popülaritesini arttırmaktadır. İnternet üzerindeki bilgi miktarının devasa artışı ve web sayfalarının barındırdığı gürültülü bilginin çeşitliliği nedeniyle web sayfalarının içerik sınıflandırması doğal metin sınıflandırmasına göre daha karmaşık ve zordur. Geleneksel bilgi alma metotları dokümanların sınıflandırılabilmesi için terimlerin doküman içerisinde bulunmasını kullanır fakat bunun sonucunda genellikle ilgisiz web sayfaları sonuç olarak döndürülür. Bu çalışmada, web sayfalarını etkili bir şekilde sınıflandırabilmek için Gizli Anlam Analiz temelli otomatik web sayfası sınıflandırma algoritması geliştirilmiştir. Algoritmanın son aşamasında Destek Vektör Makinesi yardımıyla sınıfları birbirinden ayıran eğri çizilmiştir. Ayrıca başarı ve performansı etkileyen terim ağırlıklandırma ve özellik uzayının yüksek boyutluluk problemine çözüm sağlayan özellik seçim yöntemleri üzerinde çalışılmıştır. Deneysel sonuçlar önerilen sınıflandırma algoritmasının etkinliğini göstermiştir ve dokümanların iyi temsil edildiği bir terim - doküman matrisinin sınıflandırma performansını geliştirdiğini saptamıştır.
Özet (Çeviri)
The fast development on the computer and network technology has increased the popularity of Web. Due to the gigantic increase in the amount of information on the web and a large variety of noisy information embedded in Web pages, Web page classification is getting more sophisticated and difficult than pure-text classification. Traditional information retrieval methods use terms occurring in document to determine the class of the document, but the retrieve usually results in unrelated web pages. In this study, Latent Semantic Analysis based automatic web page classification algorithm developed in order to effectively classify web pages. The curve separates the document classes plotted by the Support Vector Machine in the final step of the algorithm. We also study on the feature weighting and the feature selection methods which are used to reduce the size of the feature space. The experimental results demonstrate that the proposed classification algorithm robust and effectively classify the documents, moreover, the results demonstrate that the better the representation of the documents by term - document matrix results in the better classification.
Benzer Tezler
- Detection of phishing web pages by combining semantical and visual information
Kimlik avcısı web sayfalarının anlamsal ve görsel bilgiyle tespiti
AHMAD HANI ABDALLA ALMAKHAMREH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET SELMAN BOZKIR
- Güvenli siber iletişim amacıyla web adresleri üzerinden yeni bir steganografik yaklaşım
A new steganographic approach over web addresses for a secure cyber communication
OĞUZHAN KENDİRLİ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ESRA ŞATIR
- Çevrimiçi yorumların metin madenciliği ile analizi: İstanbul'daki alışveriş merkezleri üzerine bir çalışma
Analysis of online reviews with text mining: A study on shopping centers in Istanbul
NERGİZ SÖNMEZ
Yüksek Lisans
Türkçe
2017
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAŞAR ÖZTAYŞİ
- İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
- Data mining applications on web usage analysis and user profiling
İnternet kullanım analizi ve kullanıcı betimleme konularında veri madenciliği uygulaması
OSMAN ONAT ÖNAL
Yüksek Lisans
İngilizce
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. HALİL HALEFŞAN SÜMEN