Geri Dön

Improving web page classification with unlabeled data

Etiketsiz verileri kullanarak web sayfası sınıflandırmasının etkinliğini arttırmak

  1. Tez No: 553117
  2. Yazar: HAVVA ESİN ÜNAL
  3. Danışmanlar: PROF. DR. SELMA AYŞE ÖZEL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Çukurova Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 170

Özet

Etiketlenmemiş verilerle birçok alanda sıklıkla karşılaşılmakta ve bu verileri kullanmak için de etkili yollara ihtiyaç duyulmaktadır. Etiketlenmemiş verilerden faydalı bilgiler elde etmek için yarı-denetimli öğrenme yöntemleri kullanılmaktadır. Bu tez çalışmasında Çapraz Doğrulamalı Artımlı Paralel Eğitim (APE-ÇD) ve Artımlı Seri Eğitim (ASE) olarak adlandırılan iki farklı yarı-denetimli öğrenme yöntemi önerilmiştir. Önerilen yarı-denetimli öğrenme yöntemleri etiketlenmemiş verileri verimli bir şekilde etiketlemek için denetimli sınıflandırıcıları ve veri kümelerinin farklı görünümlerini kullanmaktadır. Bu nedenle öncelikle önerilen yarı-denetimli sınıflandırıcılarda hangi sınıflandırıcıların ve özellik çıkarma algoritmalarının kullanılması gerektiğini belirlemek amacıyla denemeler yapılmıştır. Önerilen yöntemlerin etkinliğini değerlendirmek için, bilinen iki yarı-denetimli öğrenme yöntemi olan Eş-Eğitim (“Co-Training”) ve Yinelemeli Çapraz Eğitim (“Iterative Cross Training”) metotları seçilmiştir. Web üzerinde yüksek miktarda etiketlenmemiş veriye ulaşılabileceği için tez kapsamında yapılan denemeler bu alandan toplanmış veri kümeleri ile yapılmıştır. Tezde herkese açık“SyskillWebert”,“WebKB”ve“Banksearch”ile elle toplanan Konferans veri kümelerinden elde edilen 13 adet iki sınıflı veri kümesi kullanılmıştır. Her bir veri kümesi için 30 adet rastgele seçilmiş etiketli başlangıç eğitim seti ile yöntemler karşılaştırılmış ve sonuçlar istatistiksel olarak analiz edilmiştir. Bu analizlere göre, önerilen iki yöntemin de performansının çok yüksek olduğu, özellikle APE-ÇD yönteminin tüm yöntemler arasında en yüksek sınıflandırma performansına sahip olduğu gösterilmiştir.

Özet (Çeviri)

There are plenty of unlabeled data in different areas and effective ways are needed to be found to use them. In order to drive the useful information from these unlabeled data, semi-supervised learning methods are used. In this thesis, two different semi-supervised learning methods are proposed, namely Incremental Parallel Training with Cross-Validation (IPT-CV) and Incremental Serial Training (IST). The proposed semi supervised learning methods employ supervised classifiers and different views of the datasets for labeling unlabeled data efficiently. Therefore, to determine which classifiers and feature extraction algorithms should be used in the proposed semi-supervised learning methods experiments are performed. Then, to evaluate the effectiveness of the proposed methods, two known semi-supervised learning methods are implemented; Co-Training, and Iterative Cross-Training (ICT). Since web is a land of unlabeled files that is increasing tremendously, the web domain is chosen for the experiments. In the thesis, 13 binary classification datasets are used from the publicly available WebKB (i.e., Course, Faculty, Project, and Student), Banksearch (i.e., Biology, Commercial Banks, Motor Sport, and Programming), SyskillWebert (i.e., Bands, Biomedical, Goats, and Sheep) datasets, as well as manually collected Conference dataset. Experiments on 30 different randomly chosen initial labeled sets are made for each dataset and the results are analyzed statistically. According to these analyses, it is observed that the performance of the two proposed methods are very high, especially the IPT-CV method has the highest classifying performance among all methods.

Benzer Tezler

  1. Improving the prediction of page access by using semantically enhanced clustering

    Anlamsal gelişmiş sınıflandırma ile gelişmiş sayfa erişim tahmini geliştirme

    ERMAN ŞEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL HAKKI TOROSLU

    DOÇ. DR. PINAR KARAGÖZ

  2. Anlamsal web yetenekli çok etmenli sistemler için bir alana özgü modelleme diline ait sözdizim

    Syntax of a domain specific modeling language for semantic web enabled multi-agent systems

    SEBLA DEMİRKOL

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilim ve TeknolojiEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    YRD. DOÇ. DR. GEYLANİ KARDAŞ

  3. Embedded WEB server based home appliance networks

    Gömülü WEB sunucuları bazlı ev cihaz ağları

    MUSTAFA CAN FİLİBELİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. M. REHA CİVANLAR

    YRD. DOÇ. DR. ÖZNUR ÖZKASAP

  4. Web üzerinde sanal kütüphane tasarımı

    Virtual library design on the web

    CENK ORHUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2001

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Uluslararası Bilgisayar Ana Bilim Dalı

    DOÇ.DR. BAHAR KARAOĞLAN