Veri madenciliğinde sınıflandırma problemleri için optimizasyon yaklaşımları
Optimization approaches for classification problems in data mining
- Tez No: 850221
- Danışmanlar: PROF. DR. BANU SOYLU
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Makine öğrenmesi, sınıflandırma, optimizasyon, dal-sınır algoritması, düğüm kapama kuralları, düğüm seçme stratejileri, Machine learning, classification, optimization, branch-and-bound, fathoming rule, node selection
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Fen Bilimleri ve Teknolojileri Bilim Dalı
- Sayfa Sayısı: 86
Özet
Veri madenciliği yöntemlerinden olan sınıflandırma algoritmaları, eğitim verisi üzerinden sınıflandırma modelinin öğrenilmesi ve sınıfı belirli olmayan test verilerini doğru tahmin etmeye çalışan yöntemdir. Sınıflandırma problemleri, sınıflandırma hatasının (maliyetin) minimizasyonu şeklinde formülüze edildiğinde, bir optimizasyon problemi olarak da değerlendirilebilir. Karar ağaçları en çok kullanılan sınıflandırma algoritmalarından birisidir. Karar ağacı oluşumun en önemli adımlarından biri olan bölünme işlemi her seferinde bir değişken seçilerek veya birden fazla değişken kullanılarak yapılabilmektedir. Bu çalışmada, dal-sınır algoritmasın da kullanılan budama ve düğüm seçme stratejileri çoklu-değişkenli karar ağaçlarına (MDT) entegre edilerek yeni bir karar ağacı algoritması önerilmiştir. Her düğümde bölünme hiperdüzlemini elde etmek için ise doğrusal programlama temelli sapma modeli çözülmüştür. Model, yanlış sınıflandırılan gözlemlerin bölünme düzlemine olan uzaklığını en küçüklemeyi amaçlamaktadır. Düğüm sapma miktarı çocuk düğümler için bir üst sınır oluştururken, alt sınır yaprak düğümlerdeki sapma miktarından elde edilmektedir ve ağaç oluşturma sürecinde otomatik olarak güncellenmektedir. Ayrıca, bölünme düzlemini destek vektör makineleri algoritmasını kullanarak elde eden bir karar ağacı da önerilmiştir. Geliştirilen iki yeni algoritmanın sonuçları, literatürde bilinen sınıflandırma algoritmaları ile karşılaştırılarak analiz edilmiştir.
Özet (Çeviri)
Classification algorithms, which are part of data mining methods, involve learning a classification model from training data and accurately predicting the class of unlabeled test data. The classification problem can also be considered as an optimization problem when it is formulated as minimizing classification errors (costs). Decision trees are one of the most widely used classification algorithms. One of the most important steps in the induction of a decision tree is the splitting process. This process can be performed by selecting one or more features. In this study, pruning and node selection strategies commonly used in the branch and bound algorithm are integrated into a multivariate decision tree (MDT) and a new decision tree algorithm is developed. A linear programming based deviation model is solved at each node to obtain the splitting hyperplane, with the aim of minimizing the distance of misclassified entities to the splitting plane. The deviation amount at each node forms an upper bound for the child nodes, while the lower bound is obtained from the deviation amount at the leaf nodes and is automatically updated during the tree induction process. Furthermore, another decision tree algorithm is proposed which uses the support vector machine algorithm to obtain the splitting plane. The results of the two newly developed algorithms are compared and analyzed with well-known classification algorithms in the literature.
Benzer Tezler
- Özellik tabanlı görüş madenciliğinde yapay zeka teknikleri kullanarak görüş hedefi çıkarımı ve kategori tespiti
Opinion target extraction and category detection using artificial intelligence techniques in aspect-based opinion mining
KÜRŞAT MUSTAFA KARAOĞLAN
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ FINDIK
- Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı
Utilization of metaheuristic optimization methods for feature selection and discretization on classification problems
İSMAİL KOÇ
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İSMAİL BABAOĞLU
- Tıbbi veri kümeleri arasındaki birliktelik kurallarının çok amaçlı genetik algoritma ile çıkarılması
Extraction of association rules in medical datasets via multi-objective genetic algorithms
BUKET KAYA
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBiyomühendislik Ana Bilim Dalı
DOÇ. DR. İBRAHİM TÜRKOĞLU
- Metaheuristic algorithms to enhance artificial neural network for medical data classification
Tıbbi veri sınıflandırması için yapay sinir ağını geliştirmek için meta-heuristik algoritmalar
IHSAN SALMAN JASIM AL GBURI
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiPROF. DR. OSMAN NURİ UÇAN
DOÇ. DR. KHALİD SHAKER
- Pre-release forecasting of imdb movie ratings using multi-view data
Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi
BEYZA ÇİZMECİ
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ