A novel generalized mutual information approach and its use in feature selection
Yeni bir genelleştirilmiş karşılıklı bilgi yaklaşımı ve değişken seçiminde kullanımı
- Tez No: 215918
- Danışmanlar: YRD. DOÇ. DR. OLCAY KURŞUN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 50
Özet
Değişken seçimi birçok yapay zeka ve örnek tanıma problemlerinin kritik adımlarından biridir. Shannon'ın karşılıklı bilgi (KB) ölçümü iyi bir değişken seçim algoritması olarak yaygın şekilde kullanılmaktadır. Ancak KB ortalama karşılıklı bilgiyi iyi ölçmesine rağmen, örnek sayısı az olan sınıfları (ender olayları) gözden kaçırarak yanlış sınıflandırmalara neden olabilmektedir (önemli ama ender rastlanan bu sınıflar hakkında bilgi içeren alakalı değişkenlerin kaçırılması sonucunda). KB iyi örneklenmiş veri kümelerine ihtiyaç duyar; bu da özellikle biomedikal alanındaki gibi sınırlı sayıda örneği olan veya en azından, bazı sınıfları iyi örneklenmemiş (biomedikal alanında ender rastlanan hastalık, kanser örnekleri gibi) veri kümelerine sahip modern bilim dallarında kullanımını verimsizleştirir. Ayrıca bu tip veri kümelerinde değişkenler, tahmin, analiz ve modelleme yapılacak hedef değişkene ancak küçük katkılar yapar. Bu tez çalışmasında, değişkenlerin kendi aralarındaki koşullu olasılıklarını da dikkate alan yeni bir istatistiksel ilişki metriği, Koşullu Karşılıklı Bilgi (KKB), önerilmiştir. KKB, KB'ye kıyasla, sadece deneysel çalışmalarda değil, bilgisayar ile işaret tanıma modellerinin oluşturulmasında da önemli olan şüpheli derecede ilginç durumları yakalamada daha başarılı değişken seçebilmektedir. Bu metrik, formülasyonu itibariyle KB'nin bir genel halidir. Buna ek olarak, KKB'yi, aralarında ortak bilgi taşıyan değişkenleri mümkün olduğu kadar az seçecek şekilde daha da geliştirerek, mümkün olan en az sayıda ama hedef değişken ile azami karşılıklı bilgi içereek bir değişken seçimi metodu önerilmiştir. KKB'nin kullanışlılığı ve KB'ye olan üstünlükleri yapay ve gerçek veri kümeleri üzerinde gösterilmiştir.
Özet (Çeviri)
Feature selection is a critical step in many artificial intelligence and pattern recognition problems. Shannon?s Mutual Information (MI) is a classical and widely used measure of dependence measure that serves as a good feature selection algorithm. However, as it is a measure of mutual information in average, under-sampled classes (rare events) can be overlooked by this measure, which can cause critical false negatives (missing a relevant feature very predictive of some rare but important classes). Shannon?s mutual information requires a well sampled database, which is not typical of many fields of modern science (such as biomedical), in which there are only a limited number of samples to learn from, or at least, not all the classes of the target function (such as certain phenotypes in biomedical) are well-sampled. Moreover in such settings, each feature, among many, contributes in small amounts to the target function to be predicted, analyzed, or modeled. A new measure of relevance, Predictive Mutual Information (PMI), is proposed in this thesis which also accounts for predictability of signals from each other in its calculation. PMI has more improved feature detection capability than MI, especially in catching suspicious coincidences that are rare but potentially important not only for experimental studies but also for building computational models. This measure, in its formulation, turns out to be a generalization of Shannon?s mutual information. Moreover, PMI is further developed with the aim of selecting the most compact set of most relevant variables (with minimal redundancies among them). The usefulness of PMI and superiority over MI is demonstrated on both toy and real datasets.
Benzer Tezler
- Determinant maximization criterion as a normative principle for biologically plausible credit assignment
Biyolojik olarak makul kredi tahsisi için normatif bir ilke olarak determinant maksimizasyon kriteri
BARIŞCAN BOZKURT
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ALPER TUNGA ERDOĞAN
- Çoklu-sensör uzaktan algılamada kör yöntemlerle öznitelik sentezleme
Feature synthesis for multi-sensor remote sensing via blind methods
ÖZGÜR MURAT POLAT
Doktora
Türkçe
2015
Elektrik ve Elektronik MühendisliğiHacettepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. YAKUP SABRİ ÖZKAZANÇ
- Generalized scattering matrix techniques for hybrid solutions of radiowave propagation problems
Radyodalgası yayılımı problemlerinin hibrit çözümlerine uygun genelleştirilmiş saçılma matrisi yöntemleri
ALİCAN UYSAL
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. FUNDA AKLEMAN YAPAR
- Reconfigurable intelligent surface-based novel transceiver architectures and multiple access
Başlık çevirisi yok
AYMEN KHALEEL
Doktora
İngilizce
2023
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERTUĞRUL BAŞAR
- Method of Moments analysis of microstrip antennas in cylindrically stratified media using closed-form Green's functions
Kapalı formda Green?in fonksiyonlarını kullanarak silindirik katmanlı yüzeylerde mikroşerit antenlerin Momentler Metodu ile analizi
ŞAKİR KARAN
Doktora
İngilizce
2012
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. VAKUR BEHÇET ERTÜRK