An evaluation of existing and new feature selection metrics in automatic text categorization
Metin sınıflandırmada kullanılan eski ve yeni öznitelik seçme metriklerinin değerlendirmesi
- Tez No: 232628
- Danışmanlar: DOÇ. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
Son yıllarda elektronik ortamda bulunan elektronik kitap, dijital kütüphane ve e-posta mesajları gibi dökümanların miktarı hızla arttı. Bu nedenle, bu kaynakları düzenleme ve idare etme işi daha çok önem kazanmakla birlikte daha da zorlaştı. Metin sınıflandırma, elektronik ortamdaki bu dökümanların düzenlenmesi ve idaresi için geniş ölçüde kullanılmaktadır. Bununla birlikte, metin sınıflandırmada kullanılan veri çok boyutlu olduğu için öznitelik seçme işlemin daha verimli ve kusursuz yapılmasında çok önemlidir.Bu çalışmada, metin sınıflandırmadaki öznitelik seçme metriklerinin yerel ve genel politika kullanarak kapsamlı bir değerlendirmesini yapıyoruz. Yaptığımız deneyler için; boyutları, karmaşıklıkları ve çarpıklıkları farklılık gösteren yedi adet veri kümesi kullandık. Terim ağırlıklandırması için tf-idf metodu, sınıflandırıcı olarak da SVM (Destek Vektör Makinası) kullandık. Hemen hemen tüm veri kümeleri ve metriklerde, az sayıda anahtar sözcük için yerel politikanın, anahtar sözcük sayısı arttırıldığındaysa genel politikanın daha başarılı olduğunu gözlemledik.Mevcut öznitelik seçme metriklerinin değerlendirilmesine ek olarak, özellikle az sayıda anahtar sözcük kullanıldığında yüksek başarım sergileyen yeni metrikler tasarladık. Ayrıca, Uyarlamalı Anahtar Sözcük Seçimi (AKS) adını verdiğimiz bir anahtar sözcük seçme sistemi tasarladık. Bu yöntem, farklı sınıflar için farklı sayıda anahtar sözcük seçimine dayanıyor ve özellikle çarpık veri kümelerindeki başarımı farkedilir derecede geliştirdi.
Özet (Çeviri)
In recent years, the amount of available documents in the electronic medium such as electronic books, digital libraries and email messages increased rapidly. Therefore, the task of organizing and manipulating these resources has gained more importance and has become more difficult. Automatic text categorization is widely used for organizing and manipulating these documents in the electronic medium. However, since the data in text categorization is very high-dimensional, feature selection is crucial to make the task more efficient and precise.In this study, we make an extensive evaluation of the feature selection metrics used in text categorization by using local and global policies. For the experiments, we use seven datasets which vary in size, complexity and skewness. We use SVM as the classifier and tf-idf weighting for term weighting. We observed that almost in all metrics and datasets, the local policy outperforms others when the number of keywords is low and global policy outperforms others as the number of keywords increases.In addition to the evaluation of the existing feature selection metrics, we propose new metrics which have shown high success rates especially with low number of keywords. Moreover, we propose a keyword selection framework called Adaptive Keyword Selection (AKS). It is based on selecting different number of keywords for different classes and it improved the performance significantly in skew datasets.
Benzer Tezler
- Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators
Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi
MAHMUT SAMİ SİVRİ
Doktora
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Betonarme perdelerin çevrimsel sönümlenen enerji kapasitesinin makine öğrenmesi yöntemleri ile incelenmesi
Investigation of energy dissipation capacity of RCc shear walls with machine learning methods
BERKAY TOPALOĞLU
Yüksek Lisans
Türkçe
2022
Deprem Mühendisliğiİstanbul Teknik ÜniversitesiDeprem Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEYNEP DEĞER
- Kentsel mikro iklimin iyileştirilmesine yönelik kent dokularında ısı adası etki değerlendirme ve azaltım stratejileri geliştirme modeli: İstanbul örneği
The model of urban heat island impact assessment and mitigation strategies in urban fabric to improve urban microclimate: The case of İstanbul
DENİZ ERDEM OKUMUŞ
Doktora
Türkçe
2022
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
PROF. DR. FATİH TERZİ
- Cross-domain one-shot object detection by online fine-tuning
Çevrimiçi ince-ayar ile tek-örnekli çapraz-alan nesne tespiti
İREM BEYZA ONUR
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL