Cluster labeling improvement by utilizing data fusion and Wikipedia
Veri birleştirme ve Wikipedia kullanarak küme etiketlemenin iyileştirilmesi
- Tez No: 470042
- Danışmanlar: PROF. FAZLI CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 82
Özet
Bir küme ilgili belgelerin bir araya gelmesiyle oluşur. Küme etiketleme, kümelere tanımlayıcı etiketler atama işlemidir. Bu çalışma, çeşitli küme etiketleme yaklaşımlarını incelemekte ve yeni yöntemler sunmaktadır. İlki kümelerin kendilerini kullanır ve farklı istatistiksel özellik seçim yöntemleriyle kümeleri birbirinden ayıran önemli terimleri çıkarır. Daha sonra onların sonuçlarını birleştirmek için farklı veri birleştirme yöntemleri uygular. Sonuçlarımız, bazı durumlarda istatistiksel olarak daha iyi sonuçlar vermesine rağmen bu yöntemin istikrarlı ve güvenilir bir etiketleme yöntemi olmadığını göstermektedir. Bu durum iyi bir etiketin kümede bulunmayabileceği gerçeğiyle açıklanabilir. ̇İkinci yöntem Wikipedia'yı harici bir kaynak olarak kullanır ve etiket havuzunu zenginleştirmek için bağlantı metinleri ve kategorilerinden faydalanmaktadır. Bağlantı metinleri kullanılarak önerilen etiketler ikincil temalara odaklanmaya meyilli olduğundan bu yöntem başarısız olmuştur. Her ne kadar ikincil temalar birbirleriyle ve ana temayla ilgili olsalar da tam olarak ana temayı tanımlamıyorlar. Bu gözlem sonrasında, etiket havuzumuzu iyileştirmek için Wikipedia sayfalarının kategorilerini iki şekilde kullanıyoruz. Birincisi, önemli terimleri ve Wikipedia kategorilerini sıra esaslı birleştirme yöntemleriyle birleştirir. İkincisi Wikipedia sayfalarının kümelere olan ilişkinliğine bakar ve yalnızca ilişkili sayfaların kategorilerini kullanır. Deneysel sonuçlar, her iki yöntemin de bu çalışmada incelediğimiz diğer küme etiketleme yaklaşımlarına göre istatistiksel olarak daha iyi sonuçlar verdiğini göstermektedir.
Özet (Çeviri)
A cluster is a set of related documents. Cluster labeling is the process of assigning descriptive labels to clusters. This study investigates several cluster labeling approaches and presents novel methods. The first uses clusters themselves and extracts important terms, which distinguish clusters from each other, with different statistical feature selection methods. Then it applies different data fusion methods for combining their outcomes. Our results show that although it provides statistically significantly better results for some cases, it is not a stable and reliable labeling method. This can be explained by the fact that a good label may not occur in the cluster at all. The second exploits Wikipedia as an external resource and uses its anchor texts and categories to enrich the label pool. Labeling with Wikipedia anchor text fails because the suggested labels tend to focus on minor topics. Although the minor topics are related to the main topic, they do not exactly describe it. After this observation, we use categories of Wikipedia pages to improve our label pool in two ways. The first fuses important terms and Wikipedia categories with rank based fusion methods. The second looks relatedness of Wikipedia pages to the clusters and use only categories of related pages. The experimental results show that both methods provide statistically significantly better results than the other cluster labeling approaches that we examine in this study.
Benzer Tezler
- Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation
Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma
ARDA ÇELEBİ
Doktora
İngilizce
2020
Bilgi ve Belge YönetimiBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti
An application of machine learning to anomaly detection in insurance industry using strategic management approach
AYŞE NURBANU ŞAHAN
Yüksek Lisans
Türkçe
2020
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. TOLGA KAYA
- Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Task based management of user queries for effective query suggestions
NURULLAH ATEŞ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
- Generating landmark labels for short distance queries in a distributed setting
Dağıtık ortamda en kısa yol sorguları için yer işareti etiketleri oluşturma
ARDA ŞENER
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. KAMER KAYA
- Elektronik baskı uygulamalarına yönelik alaşım ve metalik nano partiküllerin üretimi
Alloy and metallic nanoparticle production for printed electronics
ŞERZAT SAFALTIN
Yüksek Lisans
Türkçe
2017
Kimyaİstanbul Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
PROF. DR. SEBAHATTİN GÜRMEN