Sıralamayı öğrenme algoritmalarında kullanılmak üzere SEO-tabanlı özniteliklerin türetilmesi ve değerlendirilmesi
Construction and evaluation of SEO-based features for to use in learning to rank algorithms
- Tez No: 776467
- Danışmanlar: DOÇ. DR. AHMET ARSLAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 107
Özet
Web belgesi koleksiyonlarını hedefleyen bilgi erişimi üzerine yapılan geçmiş çalışmalar, web belgelerinin kalitesini ölçen ve sadece belgelere dayalı (sorgu-bağımsız) ölçütlerin veya ön belge özelliklerinin (PageRank vb.) bir bilgi erişim sistemine dahil edilmesinin, sistem etkinliğini artırdığını göstermektedir. Bu çalışmada Arama Motoru Optimizasyonu tekniklerinden ilham alınarak yeni ön belge özellikleri tanıtılmaktadır. Tanıtılan bu özellikler sıralamayı öğrenme algoritmalarında öznitelik olarak kullanılarak etkinlikleri test edilmektedir. Deneyler iki standart web belge koleksiyonunda gerçekleştirilmektedir: 500 milyon belge içeren ClueWeb09 ve 733 milyon belge içeren ClueWeb12 koleksiyonları. Deneylerde sorgu kümesi olarak bu koleksiyonları hedef alan ve toplam 1,204 sorgu içeren TREC ve NTCIR sorgu kümeleri kullanılmaktadır. Önceki çalışmalarda tanıtılan standart öznitelikler kullanılarak güçlü bir referans öznitelik kümesi oluşturulmuş ve bu çalışmada tanıtılan özniteliklerin etkisi referans öznitelikler ile deneysel olarak karşılaştırılarak incelenmiştir. Deney sonuçları, bu çalışmada tanıtılan özniteliklerin bilgi erişim sistemi başarımını kullanılan test koleksiyonlarında istatistiksel olarak anlamlı derecede artırdığını göstermiştir (örneğin, ClueWeb09 veri setinde %18'lik ortalama nDCG@10 puan artışı). Ayrıca tanıtılan öznitelikler fonksiyonel özelliklerine göre 5 farklı gruba ayrılmış ve grupların sistem başarımına katkısı detaylı olarak analiz edilmiştir.
Özet (Çeviri)
The past work on information retrieval targeting web document collections shows that incorporating a measure that is solely based on documents (query-independent) and measures the quality of web documents, or rather the document prior (e.g., PageRank), into an information retrieval system improves the retrieval effectiveness. In this study, we introduce new document priors, inspired by Search Engine Optimization techniques. We also empirically investigate their effect by employing them as features in a learning to rank deployment. The experiments are performed on the two standard Web Information Retrieval test collections: the ClueWeb09 and the ClueWeb12 datasets, which include 500 and 733 million web documents, respectively. TREC and NTCIR query sets, which target those collections and contain a total of 1,204 queries, are used as query sets in the experiments. A strong baseline is formed by using standard features introduced in the previous works, with respect to which the effect of newly introduced features in this study is empirically compared. The experimental results reveal that the features introduced in this work led to statistically significant improvements in retrieval performance on the test collections in use (e.g., for the ClueWeb09 dataset, 18% improvement on average nDCG@10 score). The introduced features are classified into 5 groups with respect to functional properties and the contribution of each group to retrieval performance is also analyzed in detail.
Benzer Tezler
- Design, control and evaluation of educational devices with series elastic actuation
Uygulamalı eğitim amaçlı seri elastik eyleyici tahrikli eğitim cihazlarının tasarımı ve denetimi
ATA OTARAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN PATOĞLU
- Karsinogenezde mutasyonlar arası ilişkilerin veri madenciliği metotları ile tespiti
Determining relations between mutations in carcinogenesis with data mining methods
UĞUR TOPRAK
Yüksek Lisans
Türkçe
2015
BiyoistatistikKaradeniz Teknik ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. KEMAL TURHAN
- Investigation of artificial intelligence-based point cloud semantic segmentation
Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi
MUHAMMED ENES ATİK
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ZAİDE DURAN
- Application of neural networks to heuristic scheduling algorithms
Yapay sinir ağlarının sezgisel çizelgeleme algoritmalarına uygulanması
DERYA EREN
Yüksek Lisans
İngilizce
2001
Endüstri ve Endüstri MühendisliğiDokuz Eylül ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF.DR. DEMİR ASLAN
- Advanced methods for diversification of results in general-purpose and specialized search engines
Genel-amaçlı ve özelleşmiş arama motorlarında sonuç çeşitlendirme için ileri yöntemler
SEVGİ YİĞİT SERT
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL SENGÖR ALTINGÖVDE
PROF. DR. ÖZGÜR ULUSOY