Enhancing feature selection with contextual relatedness filtering using Wikipedia
Wikipedia yolu ile bağlamsal ilişki filtrelemesi kullanarak geliştirilmiş özellik seçme
- Tez No: 470041
- Danışmanlar: PROF. FAZLI CAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 54
Özet
Özellik çıkarımı, bilgi getirimi ve doğal dil işleme alanlarındaki uygulamalar için önemli bir bileşendir. Bu bileşen, dökümanlar için ayırt edici kelimeler seçmek için kullanılır ve bu kelimeler kümeleme, çoklu döküman özetleme ve sınıflandırma için kullanılabilir. Seçilen özellikler dökümaları için ilgisiz kelimeler olabileceğinden seçildikleri bu dökümanları her zaman en iyi biçimde temsil edemeyebilirler. Bu problemi ele aldığımızda biz iki yönlü bir katkı sağlıyoruz. Birinci olarak, özellik gruplarının kalitesini arttırmak amacıyla kelimelerin, kümelerinin konularıyla arasındaki bağlamsal ilişkiyi kullanarak ilgisiz kelimelerin özellik listelerinden silen yeni bir yaklaşım sunuyoruz. İkinci olarak, kelimelerin, kümelerinin konularıyla arasında bir ilişki olup olmadığına karar vermek amacıyla yeni bir yöntem öne sürüyoruz. Yöntemimiz, söz konusu bir kelimenin, bir döküman kümesi için ayırt edici olarak seçilmiş olan kelimeler ile dış bir kaynakta beraber bulunma sayısına göre bağlamsal olarak ilişkili olup olmadığına karar veriyor. Bu çalışmamız için dış kaynak olarak Wikipedia'yı kullandık. Özellik setlerinden ilgisiz olan kelimelerin silinmesi daha iyi ve ilgili özellik listelerinin ortaya çıkmasını sağlıyor. Yaklaşımlarımızı, özellik setlerinin direk olarak etiket adayı olarak kullanılabildiği kümeleme etiketleme problemi üzerinde değerlendiriyoruz. Bu problem için birçok kez kullanılmış olan 20NG ve ODP veri setleri üzerinde çalışıyoruz. Bulgularımıza göre, bağlamsal ilişki değerlendirme yöntemimiz başarılı bir şekilde kelimelerin konularla olan bağlamsal ilişki durumunu tespit ediyor ve bu ilişki bilgisini kullanarak ilgisiz kelimelerin etiket adayları arasından silinmesi kümeleme etiketleme kalitesini kayda değer biçimde geliştiriyor.
Özet (Çeviri)
Feature selection is an important component of information retrieval and natural language processing applications. It is used to extract distinguishing terms for a group of documents; such terms, for example, can be used for clustering, multi-document summarization and classification. The selected features are not always the best representatives of the documents due to some noisy terms. Addressing this issue, our contribution is twofold. First, we present a novel approach of filtering out the noisy, unrelated terms from the feature lists with the usage of contextual relatedness information of terms to their topics in order to enhance the feature set quality. Second, we propose a new method to assess the contextual relatedness of terms to the topic of their documents. Our approach automatically decides the contextual relatedness of a term to the topic of a set of documents using co-occurrences with the distinguishing terms of the document set inside an external knowledge source, Wikipedia for our work. Deletion of unrelated terms from the feature lists gives a better, more related set of features. We evaluate our approach for cluster labeling problem where feature sets for clusters can be used as label candidates. We work on commonly used 20NG and ODP datasets for the cluster labeling problem, finding that it successfully detects relevancy information of terms to topics, and filtering out irrelevant label candidates results in significantly improved cluster labeling quality.
Benzer Tezler
- İnvolüsyonel sinir ağları ile hiperspektral verilerin analizi
Analysis of hyperspectral data with involutional neural networks
MÜCAHİT CİHAN
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiKonya Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT CEYLAN
- Kıyı kentlerindeki ikonik kültür-sanat yapılarının tasarım kriterleri üzerine bir değerlendirme
An evaluation on design criteria of iconic cultural buildings in coastal cities
İMRAN GÜMÜŞ
Yüksek Lisans
Türkçe
2018
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. FATMA ERKÖK
- Türkiye'deki e-ticaret sektöründe, müşteri deneyiminin müşteri memnuniyeti üzerindeki etkisi
The impact of customer experience on customer satisfaction in the e-commerce sector in Turkey
ŞEVVAL KARABACAK
- Yer bağlılığı ve sosyal sürdürülebilirlik ilişkisinin kurtuluş semti üzerinden okunması
The relationship between place attachment and social sustainability: The case of kurtuluş district
İREM OĞUZ
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiKentsel Tasarım Ana Bilim Dalı
PROF. DR. GÜLÇİN PULAT GÖKMEN
- Çok sınıflı medikal görüntü sınıflandırması için melez derin öğrenme yaklaşımları
Hybrid deep learning approaches for the multi class medical image classification
ZELİHA KAYA AKÇELİK
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖNÜL ULUDAĞ