Veri madenciliği sınıflandırma yöntemlerinin veri bilimi anketi veri seti ile karşılaştırmalı analizi

Comparative analysis of data mining classification methods with data science survey data set

PDF İndir

Tez No: 713534
Yazar: ELVAN KÜBRA DOĞAN
Danışmanlar: DR. ÖĞR. ÜYESİ ARAFAT ŞENTÜRK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Düzce Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 95

Özet

Veri Madenciliği teknolojisi günden güne popülerliğini artıran bir teknoloji olmaktadır. Popülerliğinin artmasının en büyük sebeplerinden biri de çalışma alanı sınırının bulunmamasıdır. Teknik altyapı olarak bilişim sektörüne ait olan Veri Madenciliği teknolojisi, birçok sektöre kolaylık ve avantaj sağlamak için hizmet sunmaktadır. Çalışma kapsamında Veri Madenciliği teknolojisinde tercih edilen yazılım dili, kullanılan algoritma vb. kriterlerinin girdi olarak kabul edildiği, veri bilimcilerin tercih ettikleri bu teknik bilgilerden çıkarımla hangi sektörde çalıştıklarına dair çıktı bilgilerinin yer aldığı“Veri Bilimi Anketi”isimli veri seti kullanılmaktadır. Veri setinin Sınıflandırma Algoritmalarından C4.5 Algoritması, Rastgele Orman Algoritması ve K- En Yakın Komşu Algoritması ile modellenmesi sonucu başarı oranları değerlendirmelerine değinilmiştir. Modellerin başarı oranı kıyaslamaları gerçekleştirilirken, Sınıflandırma yöntemine ait olan algoritmalar hem orijinal hem de işlenmiş veri setini kullanmışlardır. Veri setleri bazında model başarı oranları değerlendirildiğinde, orijinal veri seti kullanılarak oluşturulan modellerin başarı oranları, veri ön işleme aşaması sonrasında oluşturulan işlenmiş veri seti kullanılarak da modellendiğinde başarı oranlarında %14-15 oranında artış olmaktadır. İşlenmiş veri seti, seçili sınıflandırma algoritmaları (C4.5, Rastgele Orman ve KNN) ve bu algoritmaların varsayılan algoritmik nitelikleri ile modellendiğinde elde edilen başarı oranları algoritmalar bazında kıyaslandığında sapma oranı çok düşük olmaktadır. Algoritmaların başarı oranları ön işleme öncesi kullanılan orijinal veri seti ve ön işleme sonrasında kullanılan işlenmiş veri seti ile algoritma bazında değerlendirildiğinde ise sapma değeri daha belirgin olmaktadır. Ayrıca KNN algoritmasına özgü olan“k”nitelik değerinin farklı değerler alması sonucu veya Eğitim-Test veri seti bölümleme seçenekleri gibi model başarı oranında sapma yaratacak durumlar için de başarı oranı değerleri gözlemlenmiştir. Ancak bahsedilen durumların model başarısına etkisi, ön işleme aşamasının model başarısına olan etkisi kadar belirgin değildir. Gerçekleştirilmiş olan bu kıyaslamalardan çıkarımla, başarılı modeller oluşturulabilmesi için Veri Madenciliği aşamalarının önem/etki seviyeleri değerlendirilmiş olup, Veri Madenciliği aşamaları“döngüsellik”ve“öznellik”kavramlarından faydalanılarak yorumlanmışlardır.

Özet (Çeviri)

Data Mining technology is a technology that is increasing its popularity day by day. One of the biggest reasons for its increasing popularity is the absence of a workspace limit. Data Mining technology, which belongs to the IT sector as a technical infrastructure, provides services to many sectors to provide convenience and advantage. Within the scope of the study, the preferred software language in Data Mining technology, the algorithm used, etc. The data set named“Data Science Questionnaire”is used, in which the criteria of the data scientists are accepted as input, and the output information about which sector they work in with inferences from this technical information preferred by data scientists. As a result of modeling the data set with Classification Algorithms C4.5 Algorithm, Random Forest Algorithm and K-Nearest Neighbor Algorithm, success rates evaluations are mentioned. While comparing the success rate of the models, the algorithms belonging to the Classification method used both the original and the processed data set. When model success rates are evaluated on the basis of data sets, the success rates of models created using the original data set are increased by 14-15% when modeled using the processed data set created after the data preprocessing stage. When the processed data set is modeled with selected classification algorithms (C4.5, Random Forest and KNN) and the default algorithmic features of these algorithms, the deviation rate is very low when the success rates are compared on the basis of algorithms. When the success rates of the algorithms are evaluated on the basis of the original data set used before the preprocessing and the processed data set used after the preprocessing, the deviation value becomes more evident. In addition, the success rate values were observed for the situations that would cause deviations in the model success rate, such as the“k”attribute value, which is specific to the KNN algorithm, taking different values or the Training-Test data set partitioning options. However, the effect of the mentioned situations on model success is not as clear as the effect of the preprocessing stage on model success. By inferring from these comparisons, the importance/effect levels of Data Mining stages were evaluated in order to create successful models, and Data Mining stages were interpreted by using the concepts of“cyclicality”and“subjectivity”.

Benzer Tezler

Tez No
961173
Taxonomy and visualization of digital architecture knowledge: Proposal for a scientific online encyclopedia
Dijital mimarlık bilgisinin taksonomisi ve görselleştirilmesi: Bilimsel bir çevrim içi ansiklopedi önerisi
ESRANUR KARACİF
Doktora
İngilizce
2025
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
DOÇ. DR. ETHEM GÜRER
Tez No
582553
Mesleki ve teknik eğitim öğrencilerinin teknoloji bağımlılıklarının veri madenciliği ile analizi
Data mining analysis of technology dependencies of vocational and technical education students
AKINER KAÇMAZ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Marmara Üniversitesi
Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
DOÇ. DR. ALİ BULDU
DR. ÖĞR. ÜYESİ KAZIM YILDIZ
Tez No
737877
Modeling educational data with machine learning methods
Eğitim verilerinin makine oğrenmesi algoritmaları kullanılarak modellenmesi
AYŞE İLKNUR DİLEK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Kültür Üniversitesi
Matematik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET FATİH UÇAR
Tez No
389371
Türkçe metinlerde duygu analizi
Sentiment analysis in Turkish texts
CUMALİ TÜRKMENOĞLU
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
Tez No
847190
Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK

Geri Dön