Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi

Categorizing the Turkish web pages by data mining techniques

PDF İndir

Tez No: 524839
Yazar: SEÇİL ŞEKERCİ HÜSEM
Danışmanlar: YRD. DOÇ. DR. AYLA GÜLCÜ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: Türkçe
Üniversite: Fatih Sultan Mehmet Vakıf Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 74

Özet

Veri madenciliği, insanın işleyebileceğinden çok miktarda veri üzerinde çalışabilen, bu verileri anlamlandırmak, örtük bağlantıları ortaya çıkarmak amacıyla uygulanan yöntemler bütünüdür. Örneğin, herhangi bir web sayfasının önceden tanımlanmış kategoriler arasından hangi kategoriye ait olduğunun bulunması el ile kolaylıkla yapılabilirken sayfaların sayısı arttıkça her bir sayfanın hangi kategoriye ait olduğunun bulunması imkansız hale gelmektedir. Bu nedenle otomatik sınıflandırma tekniklerinin kullanımı gittikçe daha fazla önem kazanmaktadır. Web sayfalarının sınıflandırılmasından yola çıkılarak oluşturulan veriseti ile eğitilen bir sistemde yalnızca web sayfaları için değil metin tabanlı herhangi bir dokümanın da kategorisinin belirlenme işlemi yapılabilir. Böylece anlamsız bir şekilde bir arada bulunan veri yığınları, içeriklerine uygun kategorilere ayrılmış bir katalog haline getirilebilir. Literatürde Türkçe web sayfalarının sınıflandırılmasıyla ilgili yapılan çalışmaların sayısı azdır. Aynı zamanda bu çalışmalar için kullanılabilecek hazır durumdaki verisetlerinin sayısı ve çeşitliliği kısıtlıdır. Bu tez çalışmasıyla hem Türkçe veriseti ihtiyacına cevap verebilmek hedeflenmiş, hem de literatürdeki metin sınıflandırma için kullanılan çeşitli yöntemler bu veriseti üzerinde denenmiştir. Bu algoritmaların çeşitli durumlardaki performansları kıyaslanarak bu alandaki çalışmalara katkı sağlamaya çalışılmıştır. Veriseti oluşturulurken el ile kategorize edilmiş web sayfalarının tutulduğu DMOZ sisteminden faydalanılmıştır. Buradan Türkçe sayfa verilerini çok kanallı yöntemle çekebilen bir web-gezer tasarlanmıştır. Elde edilen sayfa içeriklerinden sınıflandırma için anlamsız olan veriler otomatik olarak temizlenmiştir ve böylece bir Türkçe veriseti elde edilmiştir. Oluşturulan veriseti üzerinde yapılan ön işlem aşaması sırasında ya da sonrasında, kelime ekleme veya çıkarma gibi hiçbir müdahalede bulunulmamıştır. Elde edilen veriseti benzer çalışmalara kaynak sağlayabilecek niteliktedir. Bu çalışma kapsamında metin sınıflandırma için sıkça kullanılan Naive Bayes (NB) ve Destek Vektör Makineleri (DVM - Support Vector Machines) algoritmalarına n-gram kelime vektörü (n-gram Word Vector) seçimi ve bilgi kazanım oranı (BKO - Information Gain Ratio) yaklaşımları uygulanarak performansları karşılaştırılmıştır. Bunların yanında kategori sayısı, modeli eğitmek için kullanılan veriseti içeriği ve bu verisetinin tamlığı konularına da odaklanılmış ve farklı durumlarda algoritmaların sınıflandırma başarıları da incelenmiştir. Deneyler sonucunda kategori sayısının azlığı sınıflandırma başarısını olumlu etkilemiştir. Eğitim verilerindeki web sayfalarının başlık, anahtar kelime ve açıklama yönünden eksiksiz olmasının sınıflandırma başarısına DMOZ verilerinden daha fazla katkı sağladığı görülmüştür. Dengesiz dağılım gösteren verisetleri üzerinde yapılan deneylerde en yüksek başarıyı gösteren ve değişimlerden en az etkilenen algoritmanın Multinomial Naive Bayes (M-NB) olduğu görülmüştür. M-NB algoritması kelime 2-gram özellik vektöründe daha yüksek sonuçlara ulaşmıştır. Buna rağmen BKO yaklaşımının M-NB algoritmasına önemli bir katkı sağlamadığı görülürken DVM algoritmasına, M-NB algoritmasına oranla daha fazla katkı sağladığı gözlenmiştir.

Özet (Çeviri)

Data mining can be described as a collection of the methods that are able to work on large-scale data, extract meaningful information and discover hidden patterns from the data. For example, identifying the category of a given web page is a data mining job. Although it seems to be quite easy job to determine the category of a given web page manually; it happens to be impossible to do by hand as the number of these web pages increases. Nowadays, the use of data mining techniques to automatically place web pages into predefined categories has become more important. Additionally, a system that has been trained to classify web pages using a given text dataset can also be used to classify all other text documents. Classification can convert piles of text data into categorized documents. As far as we are aware, there are only a few studies in the literature in which text classification methods have been applied on Turkish text data. In addition, there is lack of proper Turkish dataset in the literature. Therefore, in this study, we decided to address both of these needs by first generating a Turkish corpus for text classification and then by testing some algorithms using this Turkish corpus. A comparison of these algorithms under different configurations have also been presented to contribute other works on this subject. DMOZ data, which is the most extensive human-made data source consisting of pre-classified web pages, is decided to use. A web-crawler that brings only Turkish pages along with their classes is designed. After cleaning redundant information for classification task on these web pages automatically, a Turkish corpus is obtained. During or after the cleaning phase, there has been no manual intervention such as removing or adding some words. The obtained dataset is in such a high quality that it can be used as a test bed for other studies, as well. In this study, the performance of Naive Bayes and Support Vector Machines algorithms, which are among the most frequently used algorithms for text classification have been compared. Selection of n-gram word vector and information gain ratio approach have also been considered. Moreover, it has been focused on the number of categories, the content of data used to train the model and the completeness of this data, and also the effects of these on classification success are examined. The results show that the performance of both algorithms increase significantly when instances with small number of categories are used. Also, the quality of the content such as including title, keywords and description completely provided to be another factor that affects the classification performance more than the DMOZ data. When the algorithms are trained with instances that are composed of web pages with no missing information such as the web site title and meta data their performance is again, seem to be better. The results show that Multinominal Naive Bayes algorithm is more robust when compared to Support Vector Machines method. In addition, it has been shown that the performance of Multinomial Naive Bayes can further be improved by using 2- gram word vectors. The inclusion of Information Gain Ratio did not seem to improve the performance of Naive Bayes, however it did affect the performance of Support Vector Machines in the positive way.

Benzer Tezler

Tez No
299086
Web mining: Pattern discovery on the world wide web
Web madenciliği: Web sayfalarında örüntü keşfi
MUSTAFA TURAN
Yüksek Lisans
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. DERYA BİRANT
Tez No
684920
Web 3.0 veri toplama teknikleri ve pandemi ile değişen online sepet analizi
Web 3.0 data collection techniques and online basket analysis changed by the pandemic
İSMAİL GÜLER
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Aydın Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZAFER ASLAN
Tez No
397075
Veri madenciliği teknikleriyle içerik tabanlı görüntü erişimi
Content based image retrieval with data mining techniques
NESA JAHANGIRI
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
YRD. DOÇ. HACER KARACAN
Tez No
643531
Web kullanımı madenciliği teknikleriyle bir öneri sistemi uygulaması geliştirilmesi
Developing a suggestion system application with web use mining techniques
ŞÜKRÜ CAN ŞAYAN
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TAHSİN ÇETİNYOKUŞ
Tez No
867525
Analitik hiyerarşi süreci ve veri madenciliği teknikleriyle hibrit bir karar destek sistemi uygulaması: kovid19 tanısı
A hybrid decision support system application with analytic hierarchy process and data mining techniques: diagnosis of COVİD 19
AHMET BURSALI
Yüksek Lisans
Türkçe
2023
Biyoistatistik Ege Üniversitesi
Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
DOÇ. DR. ASLI SUNER KARAKÜLAH

Geri Dön