Mutual information based feature selection for acoustic autism diagnosis
Akustik otizm teşhisi için ortak bilgiye dayalı öznitelik seçimi
- Tez No: 387379
- Danışmanlar: PROF. DR. SADIK FİKRET GÜRGEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 64
Özet
Çocukların sosyal etkileşimi ve zeka gelişiminin yaygın gelişsel hastalıklar (YGH) tarafından etkilendiği bilinmektedir. Bu hastalıkların erken yaşta teşhis edilmesinde vezinsel ve dilbilimsel ipuçları kullanılabilir. YGH'li çocukları uzaktan izlemek ve/veya eğitmek için hesaplamasal paralinguistik uygulanabilir. Hastalıkları daha iyi anlamak için, oldukça bilgi verici özniteliklerin küçük bir altkümesine ihtiyaç vardır. Makine öğrenimi perspektifinden bakıldığında, öznitelik seçimi (ÖS) öğrenicinin genelleme kabiliyeti için ve altta yatan problemler hakkında çıkarımlar yapmak için çok önemli bir aşamadır. Çünkü, yüksek boyutlu veriler bağıntısız ve artık özniteliklerden oluşmaya eğilimlidir. Ortak bilgiye dayalı en popüler öznitelik seçim yöntemleri, özniteliklerin ayrıklaştırılmasına başvurur. Literatürde farklı ayrıklaştırma yöntemlerinin etkisi incelenmiş olmasına rağmen, bildiğimiz kadarıyla eşit genişlikte z-skor ayrıklaştırma için farklı sayıda aralığın etkisi ortak bilgiye dayalı öznitelik seçimi için çalışılmamıştır. Ortak Bilgi (OB) hesaplaması ayrık bölümlerin sayısına bağlı olduğundan, öznitelik dizimi ve dolayısıyla performans yörüngesinin değişeceğini varsaymaktayız. INTERSPEECH 2013 Otizm alt müsabaka veri kümesinde ortak bilgiye dayalı öznitelik seçim yöntemleri kullanarak kapsamlı deneyler yaptık. Karşılaştırmalı sonuçlar varsayımımızı doğrulamakta olup gelecek çalışmalar için ilgi çekici yorumlara yol açmaktadır. Ek olarak bu tezde, OB normalizasyonu için şans faktörü düzeltmesi önerilmiş ve yeni bir OB temelli ÖS kriteri elde edilmiştir. Son olarak ayrıklaştırmanın etkisini dikkate alarak aday sıralı öznitelikleri seçiyor ve özniteliklerin sadece \%2'sini kullanarak test kümesinde \%70.68 Ağırlıksız Ortalama Tanıma (AOT) performansı elde ediyoruz. Bu sonuç, yarışma protokülüne bağlı kalarak test kümesi üzerinde alandaki en iyi performansı iyileştiriyor.
Özet (Çeviri)
Pervasive Developmental Disorders (PDD) are known to affect children's social interactions and mental development. Prosodic and linguistic cues can be used to diagnose the disorders at early ages. Computational paralinguistics can be applied for tele-monitoring and/or educating the children with PDD. For better understanding the disorders, a small subset of highly informative features is needed. From machine learning perspective, feature selection (FS) is an important step for generalization ability of the learner and drawing inferences about the underlying problems. Since, the high dimensional data are vulnerable to comprise redundant and irrelevant features. The most popular FS methods depend on Mutual Information (MI), that resort to discretization of features. Though the effect of different discretization schemes are studied in literature, to the best of our knowledge the effect of different number of bins for equal width z-score discretization is not studied for MI based FS. Since MI computation depends on the number of discrete categories, we hypothesize that the feature ranking and therefore performance trajectory also changes. We carry out extensive experiments using eight MI based FS methods on the INTERSPEECH 2013 Autism sub-challenge corpus. The comparative results verify our hypothesis and lead to interesting remarks for future studies. Also in this thesis, adjustment for chance factor is proposed for normalizing MI measures, therefore obtaining a new MI based FS criterion. Finally, we choose the candidate ranked features by considering the effect of discretization, and achieve 70.68\% Unweighted Average Recall (UAR) performance on the test set using only 2\% of the feature set. This result advances state-of-the-art performance on the test set adhering to the challenge protocol.
Benzer Tezler
- Borsa İstanbul (BİST) 100 endeksi yönünün ekonomi haberleri ile tahmin edilmesi
Prediction of Borsa Istanbul 100 index direction using financial news articles
HAKAN GÜNDÜZ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Ensemble of feature selection models for malware datasets
Kötücül yazılım veri kümeleri için öznitelik seçim modellerinin topluluğu
FARUK CÜREBAL
Yüksek Lisans
İngilizce
2022
Bilim ve TeknolojiKadir Has ÜniversitesiYönetim Bilimleri Ana Bilim Dalı
PROF. DR. HASAN DAĞ
- Kararlı ve başarımı yüksek öznitelik seçimi
Stable and accurate feature selection
GÖKHAN GÜLGEZEN
Yüksek Lisans
Türkçe
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Supervised and semi-supervised learning using informative feature subspaces
Bilgi içeren öznitelik alt uzayları ile eğitmenli ve yarı eğitmenli öğrenme
YUSUF YASLAN
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE
- Makine öğrenmesi ile akademik başarı analizi ve tercih tespiti: Isparta ili örneği
Academic achievement analysis and preference determination with machine learning: The case of Isparta province
MUSTAFA İNAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBurdur Mehmet Akif Ersoy ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EMRE ÇOMAK
DOÇ. DR. ONUR SEVLİ