Geri Dön

Clustering mixed datasets using multi objective genetic algorithm

Çok amaçlı genetik algoritma ile karışık verilerin sınıflandırılması

  1. Tez No: 316531
  2. Yazar: ONUR CAN SERT
  3. Danışmanlar: YRD. DOÇ. DR. TANSEL ÖZYER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: Türkçe
  9. Üniversite: TOBB Ekonomi ve Teknoloji Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Son yıllarda gittikçe büyüyen veri kümeleri içerisinden kullanıcının işine yarayacak olan saklı bilgiye ulaşmak ve çıkarmak gittikçe önemini arttıran bir araştırma konunusudur. Bu bilgiler üzerinden veriler arasında bulunan ilişkiler saptanabilir ve çeşitli yöntemler kullanılarak bu verilerin öbeklenmesi ve sınıflandırılması sağlanabilir. Bu bilgilerin çıkartılması adına bir çok algoritma geliştirilmiştir ve bu işlemler şu anda bankacılık, biyoenformatik, sağlık sektörü ve benzeri bir çok alanda aktif olarak kullanılmaktadır.Sadece numerik veya sadece kategorik öznitelikler içeren veri kümeleri için bu öbekleme işlemlerini yapan k ? means, k ? modes gibi algoritmalar mevcuttur fakat numerik ve kategorik özniteliklerin karışık olarak yer aldığı veri kümeleri için çözüm üreten çok sayıda yöntem bulunmamaktadır.Bu tezde karışık özniteliklerden oluşan veri kümelerinin öbeklenmesine yönelik bir araştırma yapılmış ve bu doğrultuda bir çözüm yöntemi önerilmiştir. Önerilen çözüm yönteminde karışık öznitelikler içeren veri kümeleri özniteliklerinin türleri doğrultusunda ayrılmakta ve değerlendirilmekte daha sonra ise numerik ve kategorik olarak ayrı ayrı alınan sonuçlar birleştirilerek sonuca ulaşılmaktadır. Bu işlemlerin yapılabilmesi adına numerik ve kategorik öznitelikler için farklı uzaklık (benzerlik) metrikleri tanımlanmıştır. Son olarak ise tanımlanan bu uzaklık metrikleri bir k ? means yapısına oturtularak istenilen algoritma elde edilmiştir. Bu algoritmadan elde edilen sonuçlar üzerinden çeşitli metrikler doğrultusunda ideal öbek sayıları tespit edilmeye çalışılmış ve elde edilen sonuçların başarımları saflık metriği adı verilen bir metrik hesaplanmış ve farklı yöntemler ile elde edilen sonuçlarla karşılaştırılmıştır.

Özet (Çeviri)

Collecting and extracting the useful information for users from the datasets becomes very popular and important among the research areas of computer sciences. For using the extracted information people can easily create links between the different data and make clustering or classification operations with them. In order to do that information extraction process, there are remarkable number of algorithms are developed and they are used in areas like banking, bioinformatics and medicine.There are lot of algorithms which are do clustering operations for datasets which are included only numerical attributes or only categorical attributes. However the number of the algortihms convenient for the mixed datasets, which are included both numerical and categorical attributes, are very low.In this thesis, it has been stutied on developing a new clustering algorithm for all the three types (numerical, categorical and mixed) of datasets. The algorithm which is proposed is seperating the types of the attributes as numerical and categorical, calculating the distances between the data and returning a clustering result. For calculating the distance between two datum, there are fitness functions. Fitness functions are also seperated for numerical and categorical attributes and they are use in the same way as the fitness functions in the k ? modes and k ? means algorithm. Finally the clustering results, which are returned from the algorithm, are evaluated and the optimal clustering numbers are detected. The success of the results are evaluated with purity index and they are compared with the results of the other algorithms.

Benzer Tezler

  1. Deniz yolu üzerinde göçmen sayısı tahmini ve devriye botu rotalaması

    Forecasting the number of immigrants on the maritime line and patrol boat routing

    FATMA ÇARMAN ÇEVİK

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHİR HANALİOĞLU

  2. Grup teknolojisi imalat sistemleri tasarımı için bir metodoloji ve bu metodolojinin endüstride uygulanması

    Başlık çevirisi yok

    NEVİN AYDIN

    Doktora

    Türkçe

    Türkçe

    1998

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. M. BÜLENT DURMUŞOĞLU

  3. A hybrid approach for data classification based on mathematical modelling and improved online learning algorithm for general fuzzy min-max neural network

    Genel bulanık min-maks sinir ağları için gelişmiş çevrimiçi öğrenme algoritmasına ve matematiksel modellemeye dayalı veri sınıflandırması için hibrit bir yaklaşım

    ÖMER NEDİM KENGER

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri MühendisliğiGaziantep Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EREN ÖZCEYLAN

  4. Modelling the effects of brand image components on advertising awareness using a neuro-fuzzy system

    Marka imaj birleşenlerinin reklam hatırlanırlığı üzerine etkisinin bulanık sinir ağları sistemi ile modellenmesi

    ALI FAHMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. KEMAL BURÇ ÜLENGİN

    PROF. DR. CENGİZ KAHRAMAN

  5. Veri odaklı karar almada makine öğrenmesi algoritmaları

    Machine learning algorithms in data-driven decision making

    MUHAMMED KARA

    Doktora

    Türkçe

    Türkçe

    2024

    İstatistikOndokuz Mayıs Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. YÜKSEL TERZİ