Geri Dön

Cluster labeling improvement by utilizing data fusion and Wikipedia

Veri birleştirme ve Wikipedia kullanarak küme etiketlemenin iyileştirilmesi

  1. Tez No: 470042
  2. Yazar: GÖKÇE AYDUĞAN
  3. Danışmanlar: PROF. FAZLI CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 82

Özet

Bir küme ilgili belgelerin bir araya gelmesiyle oluşur. Küme etiketleme, kümelere tanımlayıcı etiketler atama işlemidir. Bu çalışma, çeşitli küme etiketleme yaklaşımlarını incelemekte ve yeni yöntemler sunmaktadır. İlki kümelerin kendilerini kullanır ve farklı istatistiksel özellik seçim yöntemleriyle kümeleri birbirinden ayıran önemli terimleri çıkarır. Daha sonra onların sonuçlarını birleştirmek için farklı veri birleştirme yöntemleri uygular. Sonuçlarımız, bazı durumlarda istatistiksel olarak daha iyi sonuçlar vermesine rağmen bu yöntemin istikrarlı ve güvenilir bir etiketleme yöntemi olmadığını göstermektedir. Bu durum iyi bir etiketin kümede bulunmayabileceği gerçeğiyle açıklanabilir. ̇İkinci yöntem Wikipedia'yı harici bir kaynak olarak kullanır ve etiket havuzunu zenginleştirmek için bağlantı metinleri ve kategorilerinden faydalanmaktadır. Bağlantı metinleri kullanılarak önerilen etiketler ikincil temalara odaklanmaya meyilli olduğundan bu yöntem başarısız olmuştur. Her ne kadar ikincil temalar birbirleriyle ve ana temayla ilgili olsalar da tam olarak ana temayı tanımlamıyorlar. Bu gözlem sonrasında, etiket havuzumuzu iyileştirmek için Wikipedia sayfalarının kategorilerini iki şekilde kullanıyoruz. Birincisi, önemli terimleri ve Wikipedia kategorilerini sıra esaslı birleştirme yöntemleriyle birleştirir. İkincisi Wikipedia sayfalarının kümelere olan ilişkinliğine bakar ve yalnızca ilişkili sayfaların kategorilerini kullanır. Deneysel sonuçlar, her iki yöntemin de bu çalışmada incelediğimiz diğer küme etiketleme yaklaşımlarına göre istatistiksel olarak daha iyi sonuçlar verdiğini göstermektedir.

Özet (Çeviri)

A cluster is a set of related documents. Cluster labeling is the process of assigning descriptive labels to clusters. This study investigates several cluster labeling approaches and presents novel methods. The first uses clusters themselves and extracts important terms, which distinguish clusters from each other, with different statistical feature selection methods. Then it applies different data fusion methods for combining their outcomes. Our results show that although it provides statistically significantly better results for some cases, it is not a stable and reliable labeling method. This can be explained by the fact that a good label may not occur in the cluster at all. The second exploits Wikipedia as an external resource and uses its anchor texts and categories to enrich the label pool. Labeling with Wikipedia anchor text fails because the suggested labels tend to focus on minor topics. Although the minor topics are related to the main topic, they do not exactly describe it. After this observation, we use categories of Wikipedia pages to improve our label pool in two ways. The first fuses important terms and Wikipedia categories with rank based fusion methods. The second looks relatedness of Wikipedia pages to the clusters and use only categories of related pages. The experimental results show that both methods provide statistically significantly better results than the other cluster labeling approaches that we examine in this study.

Benzer Tezler

  1. Utilizing weakly-supervised learning for hashtag segmentation and named entity disambiguation

    Zayıf denetimli öğrenme yaklaşımı kullanarak hashtag ayrıştırma ve varlık ismi anlamlandırma

    ARDA ÇELEBİ

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgi ve Belge YönetimiBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  2. Stratejik yönetim perspektifinden sigortacılık sektöründe makine öğrenmesi algoritmaları ile anomali tespiti

    An application of machine learning to anomaly detection in insurance industry using strategic management approach

    AYŞE NURBANU ŞAHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. TOLGA KAYA

  3. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  4. Generating landmark labels for short distance queries in a distributed setting

    Dağıtık ortamda en kısa yol sorguları için yer işareti etiketleri oluşturma

    ARDA ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. KAMER KAYA

  5. Elektronik baskı uygulamalarına yönelik alaşım ve metalik nano partiküllerin üretimi

    Alloy and metallic nanoparticle production for printed electronics

    ŞERZAT SAFALTIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Kimyaİstanbul Teknik Üniversitesi

    Metalurji ve Malzeme Mühendisliği Ana Bilim Dalı

    PROF. DR. SEBAHATTİN GÜRMEN