Geri Dön

Veri madenciliği sınıflandırma yöntemlerinin veri bilimi anketi veri seti ile karşılaştırmalı analizi

Comparative analysis of data mining classification methods with data science survey data set

  1. Tez No: 713534
  2. Yazar: ELVAN KÜBRA DOĞAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ARAFAT ŞENTÜRK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 95

Özet

Veri Madenciliği teknolojisi günden güne popülerliğini artıran bir teknoloji olmaktadır. Popülerliğinin artmasının en büyük sebeplerinden biri de çalışma alanı sınırının bulunmamasıdır. Teknik altyapı olarak bilişim sektörüne ait olan Veri Madenciliği teknolojisi, birçok sektöre kolaylık ve avantaj sağlamak için hizmet sunmaktadır. Çalışma kapsamında Veri Madenciliği teknolojisinde tercih edilen yazılım dili, kullanılan algoritma vb. kriterlerinin girdi olarak kabul edildiği, veri bilimcilerin tercih ettikleri bu teknik bilgilerden çıkarımla hangi sektörde çalıştıklarına dair çıktı bilgilerinin yer aldığı“Veri Bilimi Anketi”isimli veri seti kullanılmaktadır. Veri setinin Sınıflandırma Algoritmalarından C4.5 Algoritması, Rastgele Orman Algoritması ve K- En Yakın Komşu Algoritması ile modellenmesi sonucu başarı oranları değerlendirmelerine değinilmiştir. Modellerin başarı oranı kıyaslamaları gerçekleştirilirken, Sınıflandırma yöntemine ait olan algoritmalar hem orijinal hem de işlenmiş veri setini kullanmışlardır. Veri setleri bazında model başarı oranları değerlendirildiğinde, orijinal veri seti kullanılarak oluşturulan modellerin başarı oranları, veri ön işleme aşaması sonrasında oluşturulan işlenmiş veri seti kullanılarak da modellendiğinde başarı oranlarında %14-15 oranında artış olmaktadır. İşlenmiş veri seti, seçili sınıflandırma algoritmaları (C4.5, Rastgele Orman ve KNN) ve bu algoritmaların varsayılan algoritmik nitelikleri ile modellendiğinde elde edilen başarı oranları algoritmalar bazında kıyaslandığında sapma oranı çok düşük olmaktadır. Algoritmaların başarı oranları ön işleme öncesi kullanılan orijinal veri seti ve ön işleme sonrasında kullanılan işlenmiş veri seti ile algoritma bazında değerlendirildiğinde ise sapma değeri daha belirgin olmaktadır. Ayrıca KNN algoritmasına özgü olan“k”nitelik değerinin farklı değerler alması sonucu veya Eğitim-Test veri seti bölümleme seçenekleri gibi model başarı oranında sapma yaratacak durumlar için de başarı oranı değerleri gözlemlenmiştir. Ancak bahsedilen durumların model başarısına etkisi, ön işleme aşamasının model başarısına olan etkisi kadar belirgin değildir. Gerçekleştirilmiş olan bu kıyaslamalardan çıkarımla, başarılı modeller oluşturulabilmesi için Veri Madenciliği aşamalarının önem/etki seviyeleri değerlendirilmiş olup, Veri Madenciliği aşamaları“döngüsellik”ve“öznellik”kavramlarından faydalanılarak yorumlanmışlardır.

Özet (Çeviri)

Data Mining technology is a technology that is increasing its popularity day by day. One of the biggest reasons for its increasing popularity is the absence of a workspace limit. Data Mining technology, which belongs to the IT sector as a technical infrastructure, provides services to many sectors to provide convenience and advantage. Within the scope of the study, the preferred software language in Data Mining technology, the algorithm used, etc. The data set named“Data Science Questionnaire”is used, in which the criteria of the data scientists are accepted as input, and the output information about which sector they work in with inferences from this technical information preferred by data scientists. As a result of modeling the data set with Classification Algorithms C4.5 Algorithm, Random Forest Algorithm and K-Nearest Neighbor Algorithm, success rates evaluations are mentioned. While comparing the success rate of the models, the algorithms belonging to the Classification method used both the original and the processed data set. When model success rates are evaluated on the basis of data sets, the success rates of models created using the original data set are increased by 14-15% when modeled using the processed data set created after the data preprocessing stage. When the processed data set is modeled with selected classification algorithms (C4.5, Random Forest and KNN) and the default algorithmic features of these algorithms, the deviation rate is very low when the success rates are compared on the basis of algorithms. When the success rates of the algorithms are evaluated on the basis of the original data set used before the preprocessing and the processed data set used after the preprocessing, the deviation value becomes more evident. In addition, the success rate values were observed for the situations that would cause deviations in the model success rate, such as the“k”attribute value, which is specific to the KNN algorithm, taking different values or the Training-Test data set partitioning options. However, the effect of the mentioned situations on model success is not as clear as the effect of the preprocessing stage on model success. By inferring from these comparisons, the importance/effect levels of Data Mining stages were evaluated in order to create successful models, and Data Mining stages were interpreted by using the concepts of“cyclicality”and“subjectivity”.

Benzer Tezler

  1. Mesleki ve teknik eğitim öğrencilerinin teknoloji bağımlılıklarının veri madenciliği ile analizi

    Data mining analysis of technology dependencies of vocational and technical education students

    AKINER KAÇMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    DOÇ. DR. ALİ BULDU

    DR. ÖĞR. ÜYESİ KAZIM YILDIZ

  2. Modeling educational data with machine learning methods

    Eğitim verilerinin makine oğrenmesi algoritmaları kullanılarak modellenmesi

    AYŞE İLKNUR DİLEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür Üniversitesi

    Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET FATİH UÇAR

  3. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  5. Veri madenciliği kullanarak akıllı reklam/anket uygulaması

    Smart advertisement/survey application using data mining

    DAVUT ÇELİK

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

    YRD. DOÇ. DR. TOLGA ENSARİ