Geri Dön

Veri madenciliğinde sınıflandırma problemleri için optimizasyon yaklaşımları

Optimization approaches for classification problems in data mining

  1. Tez No: 850221
  2. Yazar: ENVER ENGÜR
  3. Danışmanlar: PROF. DR. BANU SOYLU
  4. Tez Türü: Doktora
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Makine öğrenmesi, sınıflandırma, optimizasyon, dal-sınır algoritması, düğüm kapama kuralları, düğüm seçme stratejileri, Machine learning, classification, optimization, branch-and-bound, fathoming rule, node selection
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Fen Bilimleri ve Teknolojileri Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Veri madenciliği yöntemlerinden olan sınıflandırma algoritmaları, eğitim verisi üzerinden sınıflandırma modelinin öğrenilmesi ve sınıfı belirli olmayan test verilerini doğru tahmin etmeye çalışan yöntemdir. Sınıflandırma problemleri, sınıflandırma hatasının (maliyetin) minimizasyonu şeklinde formülüze edildiğinde, bir optimizasyon problemi olarak da değerlendirilebilir. Karar ağaçları en çok kullanılan sınıflandırma algoritmalarından birisidir. Karar ağacı oluşumun en önemli adımlarından biri olan bölünme işlemi her seferinde bir değişken seçilerek veya birden fazla değişken kullanılarak yapılabilmektedir. Bu çalışmada, dal-sınır algoritmasın da kullanılan budama ve düğüm seçme stratejileri çoklu-değişkenli karar ağaçlarına (MDT) entegre edilerek yeni bir karar ağacı algoritması önerilmiştir. Her düğümde bölünme hiperdüzlemini elde etmek için ise doğrusal programlama temelli sapma modeli çözülmüştür. Model, yanlış sınıflandırılan gözlemlerin bölünme düzlemine olan uzaklığını en küçüklemeyi amaçlamaktadır. Düğüm sapma miktarı çocuk düğümler için bir üst sınır oluştururken, alt sınır yaprak düğümlerdeki sapma miktarından elde edilmektedir ve ağaç oluşturma sürecinde otomatik olarak güncellenmektedir. Ayrıca, bölünme düzlemini destek vektör makineleri algoritmasını kullanarak elde eden bir karar ağacı da önerilmiştir. Geliştirilen iki yeni algoritmanın sonuçları, literatürde bilinen sınıflandırma algoritmaları ile karşılaştırılarak analiz edilmiştir.

Özet (Çeviri)

Classification algorithms, which are part of data mining methods, involve learning a classification model from training data and accurately predicting the class of unlabeled test data. The classification problem can also be considered as an optimization problem when it is formulated as minimizing classification errors (costs). Decision trees are one of the most widely used classification algorithms. One of the most important steps in the induction of a decision tree is the splitting process. This process can be performed by selecting one or more features. In this study, pruning and node selection strategies commonly used in the branch and bound algorithm are integrated into a multivariate decision tree (MDT) and a new decision tree algorithm is developed. A linear programming based deviation model is solved at each node to obtain the splitting hyperplane, with the aim of minimizing the distance of misclassified entities to the splitting plane. The deviation amount at each node forms an upper bound for the child nodes, while the lower bound is obtained from the deviation amount at the leaf nodes and is automatically updated during the tree induction process. Furthermore, another decision tree algorithm is proposed which uses the support vector machine algorithm to obtain the splitting plane. The results of the two newly developed algorithms are compared and analyzed with well-known classification algorithms in the literature.

Benzer Tezler

  1. Özellik tabanlı görüş madenciliğinde yapay zeka teknikleri kullanarak görüş hedefi çıkarımı ve kategori tespiti

    Opinion target extraction and category detection using artificial intelligence techniques in aspect-based opinion mining

    KÜRŞAT MUSTAFA KARAOĞLAN

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ FINDIK

  2. Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı

    Utilization of metaheuristic optimization methods for feature selection and discretization on classification problems

    İSMAİL KOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İSMAİL BABAOĞLU

  3. Tıbbi veri kümeleri arasındaki birliktelik kurallarının çok amaçlı genetik algoritma ile çıkarılması

    Extraction of association rules in medical datasets via multi-objective genetic algorithms

    BUKET KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    DOÇ. DR. İBRAHİM TÜRKOĞLU

  4. Metaheuristic algorithms to enhance artificial neural network for medical data classification

    Tıbbi veri sınıflandırması için yapay sinir ağını geliştirmek için meta-heuristik algoritmalar

    IHSAN SALMAN JASIM AL GBURI

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    PROF. DR. OSMAN NURİ UÇAN

    DOÇ. DR. KHALİD SHAKER

  5. Pre-release forecasting of imdb movie ratings using multi-view data

    Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi

    BEYZA ÇİZMECİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ