Geri Dön

Kategorik ve kategorik olmayan verilerden oluşan veri setleri için K-ortalama tabanlı bir yaklaşım

K-means based approach for categorical and non categorical data sets

  1. Tez No: 352006
  2. Yazar: MUSTAFA DEMİRKAN
  3. Danışmanlar: DOÇ. DR. GÖKHAN SİLAHTAROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: K-Means, Jaccard Similarity Measure, categorical data, non categorical data
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Beykent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 88

Özet

Günümüzde ilerleyen teknoloji ve bilgiye erişebilirliğin artması ile birlikte kurum ve kuruluşlar bu bilgilerden faydalanarak üretim, satış ve kaynakların yönetilmesi gibi konularda daha doğru, düzgün ve yeni kararlar verebilmek için önemli bir yol olarak veri medenciliğinden yararlanmanın faydalı olabileceğini düşünmüşlerdir. Bununla birlikte veri madenciliğinde yeni yöntemler, algoritmalar, düşünceler gelişmiş ve veri madenciliği sektörlerin olmazsa olmazı haline gelmiştir. Veri madenciliğinin yapı taşlarını veri tabanları, istatistik, görselleştirme, karar verme mekanizması ve makine öğrenmesi alanları oluşturur. Hepimizin çok duyduğu fakat çok yakından bilmediği makine öğrenmesi veri madenciliğinde vazgeçilemeyecek bir unsurdur çünkü makine öğrenmesi verilen bir problemi elde olan verilere göre şekillenen, bilgisayar algoritmalarının hepsini kapsayan bir yöntemdir. Bu tez çalışmasında veri madenciliği bölümlerinde olan makine öğrenmesi içerisindeki K-Means algoritması ve Jaccard benzerlik ölçütünden yaralanarak daha farklı bir çözüm üretmektir. Veri tabanlarında elde ettiğimiz veriler her zaman tam ihtiyaca göre olan veriler olmayabilir. Bu verilerin içerinde gereksiz veriler, eksik veriler, uyumsuz veri ölçekleri, kategorik ve kategorik olmayan veriler mevcuttur. Burada gereksiz veriler veri tabanı içerisinden çıkartılabilir, eksik veriler yok sayılabilir ya da gereksiz veriler gibi veri tanımından çıkartılabilir, verilerin arasındaki ölçeklemeler normalize edilebilir ve sonuç olarak bu sorunlar kolayca düzeltilebilir fakat her zaman kategorik ve kategorik olmayan verilerin bulunduğu veri tabanlarında makine öğrenmesinin algoritmaları kullanıldığı zaman özellikle kümelemelerde sorunlar yaşanmaktadır. Bir algoritma kategorik verilerde başarılı sonuçlar verirken kategorik olmayan verilerde başarısız, bir diğeri de kategorik olamayan verilerde başarısız sonuç verirken kategorik verilerde başarılı sonuçlar vermektedir. Bunun anlamı normal şartlar altında kategorik veriler kategorik veriler ile kategorik olmayan veriler ise kategorik olmayan veriler ile kümelenebilmektedir. Fakat bu iki tip veriler birlikte kümelenebilmelidirler. Bu hipotezde kategorik ve kategorik olmayan karışık veri kümeleri alınarak, ne oranda anlamlı, mantıklı ve doğru bir sonuç kümesi oluşturulabileceğine yönelik bir çalışma ele alınmıştır. Tezin içeriğinde de kategorik olmayan veri kümeleri için K-Means algoritması, kategorik veri kümeleri içinse Jaccard benzerlik ölçütünden yararlanılmış ve iki kümeleme yöntemi birleştirilip örnek veri setleri kullanılarak yepyeni anlamlı bir sonuç kümesi, kümeleme yöntemi oluşturulması anlatılmaya çalışılmıştır. Anahtar Kelimeler : K-Means, Jaccard Benzerlik Ölçütü, Kategorik Veri, Kategorik Olmayan Veri

Özet (Çeviri)

Nowadays, corporations and enterprises are used data mining to increase sales and profits through reaching data. Therefore new algorithms and methods are developed in data minig. The machine learning is indispensable component of data mining. In machine learning, there are a lot of algorithms for classification, clustering etc. One of the well known algorithm is K-Means algorithm in machine learning. In K-Means algorithm non categorical data sets are clustering. However in real world categorical and non categorical data sets are nested. The aim of thesis is to develop K-Means algorithm which does clusters categorical and non categorical data sets together. To do this, Jaccard similarity measure is embeded inside K-Means algorithm instead of Euclid for categorical part of data sets then two algorithms are combined each other clustering categorical and non categorical data sets.

Benzer Tezler

  1. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  2. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  3. Assessing the impact of super-resolution on enhancing the spatial quality of historical aerial photographs

    Tarihi hava fotoğraflarının mekansal kalitesini artırmada süper-çözünürlüğün etkisinin irdelenmesi

    ABDULLAH HARUN İNCEKARA

    Doktora

    İngilizce

    İngilizce

    2024

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  4. Yer tabanlı uzaktan algılama sistemleri kullanılarak Akdeniz bölgesinde hortum hadiselerinin sinoptik analizi ve modellenmesi

    Synoptic analysis and modeling of tornadoes events by using ground-based remote sensing systems in the Mediterranean region

    RAMAZAN ÖZGENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Meteorolojiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ DENİZ

  5. Endüstri 4.0 uygulamalarının makine verimliliğine etkisi ve beyaz eşya üretim sektöründe bir uygulama

    Effects of industry 4.0 implementation on machine efficiency and an application on home appliance production sector

    UMUT AK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İREM UÇAL SARI