Geri Dön

Improving search result clustering by integrating semantic information from Wikipedia

Wikipedia'daki anlamsal bilgiyi kullanarak arama sonucu kümelemenin geliştirilmesi

  1. Tez No: 269380
  2. Yazar: ÇAĞATAY ÇALLI
  3. Danışmanlar: DR. ONUR TOLGA ŞEHİTOĞLU, PROF. DR. GÖKTÜRK ÜÇOLUK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 118

Özet

Sonek Ağacı Kümeleme (SAK), anlamlı isimlere sahip, örtüşebilen kümeleri lineer zamanda üretmeye odaklanan bir arama sonucu kümeleme (ASK) algoritmasıdır. SAK, ASK'nin uygulanabilirliğini göstermiştir. Ancak sonraki çalışmalar daha anlamlı küme isimleri üreten, daha hassas algoritmalar ortaya koymuştur. Buna rağmen, SAK en hızlı sonuç kümeleme algoritması olarak kalmış ve SAK'ın problemleriyle ilgili çalışmalar yapılmıştır. SAK'ı geliştiren başka çalışmaların aksine, bu tezde hatalı küme isimlerini filtrelemek ve birleştirme fazını geliştirmek amacıyla küme isimleri ve dökümanlar arasındaki anlamsal bağlantılardan faydalanılmıştır. Bu bağlantıları belirlemek için Wikipedia kullanılmış ve anlamsal bilgiyi SAK'a entegre etmek için yöntemler önerilmiştir. Terim frekans vektörleriyle beraber kullanıldığında anlamsal özelliklerin ASK'de etkili olduğu gösterilmiştir. Ayrıca, şimdiye kadar Türkçe için bir ASK çalışması yapılmamıştır. Bu tezde, Türkçe için bir veri seti oluşturulmuş ve yöntemlerin bazıları test edilmiştir.

Özet (Çeviri)

Suffix Tree Clustering (STC) is a search result clustering (SRC) algorithm focused on generating overlapping clusters with meaningful labels in linear time. It showed the feasibility of SRC but in time, subsequent studies introduced description-first algorithms that generate better labels and achieve higher precision. Still, STC remained as the fastest SRC algorithm and there appeared studies concerned with different problems of STC. In this thesis, semantic relations between cluster labels and documents are exploited to filter out noisy labels and improve merging phase of STC. Wikipedia is used to identify these relations and methods for integrating semantic information to STC are suggested. Semantic features are shown to be effective for SRC task when used together with term frequency vectors. Furthermore, there were no SRC studies on Turkish up to now. In this thesis, a dataset for Turkish is introduced and a number of methods are tested on Turkish.

Benzer Tezler

  1. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  2. Kapalı mekandaki acil durum senaryosunda tahliye alanlarının incelenmesi

    Examination of evacuation areas in an indoor emergency scenario

    MEHMET RAŞİD ÜÇKARDEŞLER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. HİMMET KARAMAN

  3. Exploiting clustering patterns in training sets to improve classification performance of fully connected layers

    Tam bağlantılı katmanların sınıflandırma performansını iyileştirmek için eğitim setlerindeki kümeleme örüntülerinden faydalanma

    TOLGA AHMET KALAYCI

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UMUT ASAN

  4. Gezgin satıcı problemi

    Traveling salesman problem

    VOLKAN M. ÖZALP

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    DOÇ.DR. FÜSUN ÜLENGİN

  5. Donanım hızlandırmalı veri demetleme

    Hardware accelerated data clustering

    NAZİRE MERVE ÇETİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    ÖĞR. GÖR. MURAT HACIÖMEROĞLU