Web sayfalarının otomatik olarak sınıflandırılması üzerine yaklaşımlar ve örnek simülasyon uygulaması
Approachs on web pages automaticly classification and sample simulation application
- Tez No: 134346
- Danışmanlar: YRD. DOÇ. DR. MEHMET GÖKTÜRK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Web Pages Classification, KNN and Centroid Algorithms, Web Mining
- Yıl: 2003
- Dil: Türkçe
- Üniversite: Gebze Yüksek Teknoloji Enstitüsü
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 69
Özet
IV ÖZET İnternet aracılığı ile ulaşılabilen zengin bilgi kaynaklan, günümüz araştırmacılarına cazip bir veri arama ortamı sunmaktadır. Büyük bölümü WWW (World Wide Web), üzerinde olan erişilebilir bilgi kaynakları, sayılarının inanılmaz derecede yüksek olması nedeni ile sınıflandırıldıktan sonra kişilere sunulmaktadır. İlk zamanlarda insan aracılığı ile yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir şekilde artması dolayısıyla otomatik olarak yapılır hale gelmiştir. Bunun için, bazı ön tanımlı kelimeler yardımı ile web sayfalan sınıflandırılmaktadır. Yaygın olarak kullanılan metin sınıflandırma teknikleri, düz metin belgelerinin sınıflandırılmasında kullanılmaktadır. İnternet ortamı tarafından sunulan link, title ve paragraf başlıkları gibi daha zengin yapıların avantajları, bu teknikler aracılığı ile kullanılamamaktadır. Oysa bu kaynaklar web sayfalarının sınıflandırılmasında büyük kolaylıklar sağlamaktadır.. Bu uygulama sonucunda ortaya çıkarılan analizler ile web sayfalarının otomatik olarak sınıflandırılmasında oldukça yaygın olarak kullanılan ve internet ortamının yukarıda bahsedilen avantajlarını kullanabilen algoritmalar ile geliştirilmiş bir simülasyon uygulaması yazılmıştır. Eğitim sayfalarının ve anahtar kelimelerin doğru seçimi ve eşik seviyesinin doğru tespiti ile beraber otomatik sınıflandırmanın başarılı sonuçlar ürettiği sonucuna varılmıştır. Simülasyon uygulaması spidering prosesini gerçekleştiren bir program ile beraber kullanıldığı taktirde tüm bir siteyi dolaşarak daha doğru sonuçlar verecektir. Anahtar Kelimeler : Web Sayfalarının Sınıflandırılması, KNN ve Centroid Algoritmaları, Web Madenciliği
Özet (Çeviri)
SUMMARY Today's rich information resources - reached by the help of internet - present a very good searching environment. Since most of them are on the WWW (World Wide Web), because of the unbelievable huge numbers, they are presented to the people after the classification. In the first days of the classification issue, it is handled by people manually, but since the number of documents have increased very rapidly by the time, it is now handled automatically by the software. The first step of this process, it is to define the web sites by the help of predefined words. Widely used text categorization techniques are used in the classification of flat documents. The advantages of using enhanced structures like links, titles, paragraph headers could not be classified by the techniques. In fact, these resources play very important role in the classification of the web pages. By the workouts and analysis results obtained from this application, a simulation program is written by using the advantages of the above algorithms that are widely used in automatic classification of web sites. It is determined that this simulation application has produced successful results by correct selection of training pages and features, threshold levels. If the simulation program is used together with spidering process, it will yield better correct results by surfing the whole website.
Benzer Tezler
- Kendinden düzenlenen haritalar ile doküman sınıflandırma
Document classification using self-organizing maps
YILMAZ ALPDOĞAN
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HASAN ŞAKİR BİLGE
- Web sayfalarının gizli anlam analizi yaklaşımıyla otomatik olarak sınıflandırılması
Latent semantic analysis approach for automatic classification of web pages contents
ELVAN DUMAN
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırıkkale ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HASAN ERBAY
- Müşteri yorumları üzerinde metin analitiği çalışmaları ve yorumların makine öğrenmesi algoritmaları ile modellenmesi
Başlık çevirisi yok
MUHAMMED IŞIK
Yüksek Lisans
Türkçe
2019
Mühendislik Bilimleriİstanbul Medeniyet ÜniversitesiUygulamalı Matematik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ELİF KARAKAYA
- Müşteri ilişkileri yönetimi için bloglar üzerinde fikir madenciliği
Opinion mining on blogs for customer relationship management
ÇİĞDEM AYTEKİN
Doktora
Türkçe
2011
İletişim BilimleriMarmara Üniversitesiİletişim Bilimleri Ana Bilim Dalı
PROF. DR. ÖZHAN TINGÖY
- Derin öğrenme ile web verisi ayıklama altyapısı geliştirilmesi
Development of a web data extraction infrastructure using deep learning
GİZEM ABALI
Yüksek Lisans
Türkçe
2021
Bilgi ve Belge YönetimiEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ