Improving web page classification with unlabeled data
Etiketsiz verileri kullanarak web sayfası sınıflandırmasının etkinliğini arttırmak
- Tez No: 553117
- Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Çukurova Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 170
Özet
Etiketlenmemiş verilerle birçok alanda sıklıkla karşılaşılmakta ve bu verileri kullanmak için de etkili yollara ihtiyaç duyulmaktadır. Etiketlenmemiş verilerden faydalı bilgiler elde etmek için yarı-denetimli öğrenme yöntemleri kullanılmaktadır. Bu tez çalışmasında Çapraz Doğrulamalı Artımlı Paralel Eğitim (APE-ÇD) ve Artımlı Seri Eğitim (ASE) olarak adlandırılan iki farklı yarı-denetimli öğrenme yöntemi önerilmiştir. Önerilen yarı-denetimli öğrenme yöntemleri etiketlenmemiş verileri verimli bir şekilde etiketlemek için denetimli sınıflandırıcıları ve veri kümelerinin farklı görünümlerini kullanmaktadır. Bu nedenle öncelikle önerilen yarı-denetimli sınıflandırıcılarda hangi sınıflandırıcıların ve özellik çıkarma algoritmalarının kullanılması gerektiğini belirlemek amacıyla denemeler yapılmıştır. Önerilen yöntemlerin etkinliğini değerlendirmek için, bilinen iki yarı-denetimli öğrenme yöntemi olan Eş-Eğitim (“Co-Training”) ve Yinelemeli Çapraz Eğitim (“Iterative Cross Training”) metotları seçilmiştir. Web üzerinde yüksek miktarda etiketlenmemiş veriye ulaşılabileceği için tez kapsamında yapılan denemeler bu alandan toplanmış veri kümeleri ile yapılmıştır. Tezde herkese açık“SyskillWebert”,“WebKB”ve“Banksearch”ile elle toplanan Konferans veri kümelerinden elde edilen 13 adet iki sınıflı veri kümesi kullanılmıştır. Her bir veri kümesi için 30 adet rastgele seçilmiş etiketli başlangıç eğitim seti ile yöntemler karşılaştırılmış ve sonuçlar istatistiksel olarak analiz edilmiştir. Bu analizlere göre, önerilen iki yöntemin de performansının çok yüksek olduğu, özellikle APE-ÇD yönteminin tüm yöntemler arasında en yüksek sınıflandırma performansına sahip olduğu gösterilmiştir.
Özet (Çeviri)
There are plenty of unlabeled data in different areas and effective ways are needed to be found to use them. In order to drive the useful information from these unlabeled data, semi-supervised learning methods are used. In this thesis, two different semi-supervised learning methods are proposed, namely Incremental Parallel Training with Cross-Validation (IPT-CV) and Incremental Serial Training (IST). The proposed semi supervised learning methods employ supervised classifiers and different views of the datasets for labeling unlabeled data efficiently. Therefore, to determine which classifiers and feature extraction algorithms should be used in the proposed semi-supervised learning methods experiments are performed. Then, to evaluate the effectiveness of the proposed methods, two known semi-supervised learning methods are implemented; Co-Training, and Iterative Cross-Training (ICT). Since web is a land of unlabeled files that is increasing tremendously, the web domain is chosen for the experiments. In the thesis, 13 binary classification datasets are used from the publicly available WebKB (i.e., Course, Faculty, Project, and Student), Banksearch (i.e., Biology, Commercial Banks, Motor Sport, and Programming), SyskillWebert (i.e., Bands, Biomedical, Goats, and Sheep) datasets, as well as manually collected Conference dataset. Experiments on 30 different randomly chosen initial labeled sets are made for each dataset and the results are analyzed statistically. According to these analyses, it is observed that the performance of the two proposed methods are very high, especially the IPT-CV method has the highest classifying performance among all methods.
Benzer Tezler
- Improving the prediction of page access by using semantically enhanced clustering
Anlamsal gelişmiş sınıflandırma ile gelişmiş sayfa erişim tahmini geliştirme
ERMAN ŞEN
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL HAKKI TOROSLU
DOÇ. DR. PINAR KARAGÖZ
- Anlamsal web yetenekli çok etmenli sistemler için bir alana özgü modelleme diline ait sözdizim
Syntax of a domain specific modeling language for semantic web enabled multi-agent systems
SEBLA DEMİRKOL
Yüksek Lisans
Türkçe
2012
Bilim ve TeknolojiEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. GEYLANİ KARDAŞ
- Embedded WEB server based home appliance networks
Gömülü WEB sunucuları bazlı ev cihaz ağları
MUSTAFA CAN FİLİBELİ
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. M. REHA CİVANLAR
YRD. DOÇ. DR. ÖZNUR ÖZKASAP
- Web üzerinde sanal kütüphane tasarımı
Virtual library design on the web
CENK ORHUN
Yüksek Lisans
Türkçe
2001
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
DOÇ.DR. BAHAR KARAOĞLAN
- Online mapping application development for the school of forest resources and environmental science geospatial data
Başlık çevirisi yok
AYŞEN SÖZEN
Yüksek Lisans
İngilizce
2017
Ormancılık ve Orman MühendisliğiMichigan Technological UniversityDR. ANN L. MACLEAN