Geri Dön

Büyük veri kümelerinde sınıflandırma problemi için yeni bir algoritma ve bir uygulama

A new algorithm and an application for the classification problem in big data sets

  1. Tez No: 574732
  2. Yazar: HATİCE ŞENOZAN
  3. Danışmanlar: PROF. DR. BANU SOYLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Büyük veri kümeleri içerisinde çok sayıda anlamlı bilgi içerebilir. Büyük veri kümelerinden anlamlı bilgilerin çıkarılması oldukça zaman alıcı ve zorlayıcıdır. Danışmanlı sınıflandırma problemleri veri analizinde karşılaşılan en eski problemlerden biridir. Literatürde bu amaçla geliştirilmiş çeşitli teknikler bulunmaktadır. Verinin türü (sayısal, kategorik vb.) hangi algoritmanın kullanılacağına yönelik ipucu verir. Bu çalışmada reel değerlerle ifade edilen özelliklerin bulunduğu büyük veri kümelerinden biri olan otizm hastalarına ait gen ifade verisi kullanılmıştır. Birçok sınıflandırma algoritmasının performansı bu tür veri ile çalıştırıldığında düşmektedir. Bu durumun önüne geçebilmek için verinin dönüştürülmesi gerekmektedir. Bu çalışmada reel veya tamsayı gibi sayısal türde değerler alan özelliklerin bulunduğu veri kümelerinde verinin ikili (binary vb.) değerlere dönüşümünü yapacak bir matematiksel model geliştirilmiştir. Dönüştürülmüş veriye veri madenciliği algoritmaları uygulanarak otizm hastalığı üzerinde etkili olan genler bulunmaya çalışılmıştır. Önerilen yöntemin uygulaması sadece bu veri seti ile sınırlı olmayıp genel amaçlıdır. Yöntemin performansı çeşitli veri madenciliği algoritmaları kullanılarak kolon, bupa, ionosphere, sonar veri kümeleri üzerinde de test edilmiştir. Sonuçlar tartışılmıştır.

Özet (Çeviri)

Big data sets can contain lots of meaningful information. Extracting meaningful information from large data sets is quite time-consuming and challenging. Supervised classification problems are one of the oldest problems that has been encountered in data analysis. For this purpose there are various techniques developed in the literature. The type of data (numerical, categorical, etc.) gives a clue about which algorithm to be used. In this study, gene expression data of autism patients, which is one of the big data sets having features expressed by real values, were used. The performance of many classification algorithms decreases when the classification algorithms are run with such data. In order to avoid this situation, the data must be converted. In this study, a new mathematical model, which converts the real or integer valued attributes to binary values, was developed. Genes that are effective on autism were found by applying data mining algorithms to the transformed data. The application of the proposed method is not limited to this data set. It is for general purpose. The performance of the method was tested by using various data mining algorithms on colon, bupa, ionosphere, sonar data sets as well. The results are discussed.

Benzer Tezler

  1. New proposed methods for synthetic minority over-sampling technique

    Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler

    HAKAN KORUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

  2. Fuzzy clustering based ensemble learning approach: Applications in digital advertising

    Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar

    AHMET TEZCAN TEKİN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. FERHAN ÇEBİ

    PROF. DR. TOLGA KAYA

  3. Efficient machine learning models for cancer biology

    Kanser biyolojisi için etkin yapay öğrenme modelleri

    AYYÜCE BEGÜM BEKTAŞ

    Doktora

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiKoç Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET GÖNEN

  4. Yeni makine öğrenmesi metotları ve ilaç tasarımına uygulamaları

    New machine learning algorithms and applications to drug design

    MEHMET FATİH AMASYALI

    Doktora

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. OKAN ERSOY

    PROF. DR. OYA KALIPSIZ

  5. Dynamic heuristic approach to enhance the performance of few-shot meta-learning

    Az örnekle meta-öğrenmenin performansını artırmak için dinamik heuristik bır yaklaşım

    ÖMER MİRHAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    PROF. DR. NUMAN ÇELEBİ