Clueweb09 ve clueweb12 veri kümelerinin waterloo spam sıralamalarinin retrospektif olarak değerlendirilmesi
Retrospective evaluation of waterloo spam rankings of the ClueWeb09 and ClueWeb12 datasets
- Tez No: 535576
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARSLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Anadolu Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
ClueWeb09 ve ClueWeb12, Web sayfalarından oluşan en büyük iki veri kümesidir ve 2009'dan 2017'ye kadar birçok TREC görevinde kullanılmıştır. Her yıl yaklaşık 50 yeni sorgu yayınlanmış, bu sorgulara karşılık gelen Web sayfaları havuzu ilgili, ilgisiz ve spam olarak değerlendiriciler tarafından etiketlenmiştir. ClueWeb korpora için önemli miktarda sorgu uygunluk yargısı toplanmıştır. Ticari arama motorlarını kasten kandırmak için tasarlanan spam sayfaları, gerçek Web'in olduğu gibi ClueWeb korporanın da bir parçasıdır ve Web bilgi erişim sistemlerinin spam sayfalarla başa çıkması gerekir. ClueWeb09 veri kümesindeki her sayfanın spam olma değerini belirleyen dört farklı (Fusion, Britney, GroupX, UK2006) spam sıralaması yayınlanmıştır. Bu spam sıralamalarını kullanarak, belirlenen bir eşik değeri için ClueWeb09'daki dokümanları spam ya da non-spam olarak sınıflandırmak mümkündür. Bu tezde, birçok TREC Web Tracks ve Tasks Tracks sorgu uygunluk yargıları kullanılarak, ClueWeb korpora spam sıralamalarının“intrinsic”ve retrospektif değerlendirmesi sunulmuştur. Herhangi bir sorgu için ilgili olarak etiketlenen Web sayfalarının spam olamayacağı varsayılarak, ikili sınıflandırma için spam ya da ilgili olarak etiketlenen dokümanlardan bir eğitim seti oluşturulmuştur. Evrensel sınıflandırma ölçüm metrikleri kullanılarak yapılan deneylerde elde edilen“intrinsic”değerlendirme sonuçlarının, önceki araştırmacılarca gerçekleştirilen“extrinsic”değerlendirme sonuçlarıyla uyumlu olduğu bulunmuştur. Yapılan analizler, GroupX'in ilgili dokümanlar ile spam dokümanları ayırt etmede en güçlü yöntem olduğunu ortaya koymuştur. Ayrıca, ClueWeb12 spam sıralamasının ClueWeb09 kadar iyi performans göstermediği tespit edilmiştir.
Özet (Çeviri)
ClueWeb09 and ClueWeb12, are the two largest collection of Web pages that are used in various tracks of TREC ran through 2009 to 2017. For each year, approximately 50 new queries are released and a pool of Web pages are judged against these queries by human assessors as relevant, non-relevant, or spam/junk. Thus, a considerable amount of query relevance judgments is collected for the ClueWeb corpora. Spam pages, which are designed deliberately deceive the commercial search engines, are part of the real Web, so of ClueWeb corpora. Thus, a Web retrieval system has to cope with spam pages. In this direction, four different (Fusion, Britney, GroupX, UK2006) spam rankings that quantify“spamminess”of every page in the ClueWeb09 dataset are released in 2009. For a given threshold, it is possible to classify documents in the ClueWeb09 dataset as spam or non-spam using these spam rankings. This thesis presents an intrinsic and retrospective evaluation of spam rankings of the ClueWeb corpora using the query relevance judgments of several TREC tracks. A ground truth for binary classification task is created by using documents that are judged as junk/spam or relevant. It is assumed that Web pages judged as relevant for any query cannot be spam. The experimental results of intrinsic evaluation using the universal binary classification evaluation measures are found to be aligned with extrinsic evaluations of spam rankings performed by previous researches. The analysis of the distribution of relevant documents over spam percentile score intervals reveal that GroupX is the most powerful at discriminating relevant documents from spam documents. It is also found that the spam ranking of the ClueWeb12 does not perform as good as ClueWeb09's.
Benzer Tezler
- İngilizce bilgi erişimi veri kümelerinde Latin dışı alfabelerle yazılmış içeriğin analizi
Analysis of non-Latin content on the English information retrieval datasets
AHMET ALKILINÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET ARSLAN
- Sıralamayı öğrenme algoritmalarında kullanılmak üzere SEO-tabanlı özniteliklerin türetilmesi ve değerlendirilmesi
Construction and evaluation of SEO-based features for to use in learning to rank algorithms
AHMET AYDIN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET ARSLAN
- Sentiment-focused web crawling
Düşünce odaklı web tarayıcılık
AVNİ GÜRAL VURAL
Doktora
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR KARAGÖZ
DR. BERKANT BARLA CAMBAZOĞLU