Veri madenciliğinde hibrit model yaklaşımı
Hybrid model approach in data mining
- Tez No: 683392
- Danışmanlar: PROF. DR. ATİLLA HALİL ELHAN
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Hibrit Model, Veri Madenciliği, Performans Ölçütleri, Data mining, Hybrid Model, Performance Criterias
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Ankara Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 132
Özet
Son yıllarda, tıp disiplinlerinde toplanan veri miktarı giderek artmaktadır. Dijital teknolojideki gelişmeler, toplanan verilerin boyutu, karmaşıklığı ve miktarında, yani tıbbi raporlarda ve ilgili görüntülerde benzeri görülmemiş bir büyümeye yol açmıştır. Dünya çapında her yıl milyarlarca sağlık kaydı işlemi yapılmaya başlanmıştır. Özellikle, sinir ağları, istatistiksel modelleme, evrimsel algoritmalar ve görselleştirme araçları gibi veri madenciliği algoritmalarındaki son gelişmeler, her türlü ham verinin üst düzey bilgiye dönüştürülmesini mümkün kılmıştır. Ancak asıl sorun, her yöntemin veri yapısı, şekli ve geçerliliği ile ilgili kendi yaklaşımına sahip olmasıdır. Bu sınırlama sınıflandırma sistemlerinin performansını etkiler. Sonuç olarak, hibrit bir veri madenciliği yaklaşımına duyulan ihtiyaç, veri madenciliği topluluğu tarafından kabul görmektedir ve bu konuda son yıllarda yapılan çalışma sayısı gittikçe artmaktadır. Hibrit veri madenciliği, her bir tekniğin gücünü kullanmak ve birbirlerinin zayıflıklarını telafi etmek için çeşitli veri madenciliği tekniklerinin etkili bir kombinasyonu olarak tanımlanmaktadır. Bu çalışmanın amacı, son teknoloji veri madenciliği algoritmalarını ve uygulamalarını sunmak ve tıbbi verilerin kümelenmesi ve sınıflandırılması için yeni bir hibrit veri madenciliği yaklaşımı önermektir. Ayrıca çalışmada, denetimli ve denetimsiz öğrenme yöntemlerinin dengeli ve dengesiz veri setlerinde, farklı örneklem büyüklüklerinde ve farklı değişkenler arası ilişkiler olması durumunda performans ölçütlerinin hesaplanması ve bu ölçütlerin hibrit modelden elde edilen ölçütler ile karşılaştırılması amaçlanmıştır. Çalışmada çeşitli senaryolar baz alınarak üretilen simüle veri setleri ve UCI veri tabanından alınan hepatit ve meme kanseri veri setleri kullanılmıştır. Sık kullanılan ve veri setlerinde en iyi performansa sahip denetimli öğrenme algoritmalarından Karar Ağaçları, Destek Vektör Makinesi, Random Forest, Naive Bayes ve K-en yakın komşu'nun yanı sıra Lojistik Regresyon ve Yapay Sinir Ağları algoritmaları, denetimsiz öğrenme algoritmalarından ise K-ortalama kullanılmıştır. Ayrıca kullanılan denetimli ve denetimsiz öğrenme algoritmaları birleştirilerek hibrit modeller oluşturulmuştur. Simüle veri setlerinde bağımsız değişkenler arası korelasyon ve örneklem büyüklüğü arttıkça MKK değerlerinin de arttığı görülmüştür. Ayrıca dengesiz veri setlerinde bağımsız değişkenler arası korelasyon arttıkça düşük örnekleme sahip gruba ait performans ölçütlerinde de gözle görülür bir artış gözlemlenmiştir. Gerçek veri setleri incelendiğinde de durumun benzer olduğu görülmektedir.
Özet (Çeviri)
In recent years, the amount of data collected in medical disciplines has been increasing. Advances in digital technology have led to an unprecedented growth in the size, complexity and amount of collected data in medical reports and related images. Every year, billions of health records are made worldwide. In particular, recent advances in data mining algorithms such as neural networks, statistical modeling, evolutionary algorithms, and visualization tools have made it possible to transform any raw data into high-level information. However, the main problem is that each method has its own approach to data structure, form and validity. This limitation affects the performance of classification systems. As a result, the need for a hybrid data mining approach is recognized by the data mining community, and the number of studies on this subject has been increasing in recent years. Hybrid data mining is defined as an effective combination of various data mining techniques to harness the power of each technique and compensate for each other's weaknesses. The purpose of this study is to present state-of-the-art data mining algorithms and applications and to propose a new hybrid data mining approach for clustering and classifying medical data. In addition, in the study, it was aimed to calculate performance criteria of supervised and unsupervised learning methods in balanced and unbalanced data sets, different sample sizes and in case of different relationships between variables and to compare these criteria with the criteria obtained from the hybrid model. In the study, simulated data sets produced on the basis of various scenarios and hepatitis and breast cancer data sets obtained from the UCI database were used. From supervised learning algorithms Decision Trees, Support Vector Machine, Random Forest, Naive Bayes, K-nearest neighbor, Logistic Regression and Artificial Neural Networks algorithms were used and K-mean was used for unsupervised learning algorithms, which are frequently used and have best performance in data sets. In addition, hybrid models were created by combining the supervised and unsupervised learning algorithms used. In simulated data sets, it was observed that as the correlation between independent variables and sample size increased, MCC values also increased. In addition, as the correlation between independent variables increased in unbalanced data sets, a noticeable increase was observed in the performance criteria of the group with low sampling. When the actual data sets are examined, it is seen that the situation is similar.
Benzer Tezler
- A hybrid method for missing value imputation
Kayıp verilerin tamamlanması için bir hibrit model
BASMA AL-BRGE
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
Assoc. Prof. Dr. MURAT KOYUNCU
- Kablosuz algılayıcı ağlarda yeni bir hibrit saldırı tespit sisteminin geliştirilmesi
Development of a new hybrid intrusion detection system in wireless sensor networks
HAMZA ELBAHADIR
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EBUBEKİR ERDEM
- Satış tahminlemesinde hibrit bir yaklaşım: Pestel, RFM, gradient boosting
A hybrit approach to sales prediction: Pestel, RFM, gradient boosting
ESRA AKCA
Yüksek Lisans
Türkçe
2022
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. SEMRA ERPOLAT TAŞABAT
- Karınca koloni algoritması ile öznitelik seçimi
Feature selection with ant colony algorithm
UMUT AKCAN
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiBursa Uludağ ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. DUYGU YILMAZ EROĞLU
- Detecting novel behavior and process improvement with multi-modal process mining
Çok modlu süreç madenciliği ile yeni davranışın tespiti ve süreç iyileştirme
ABDURRAHMAN TELLİ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYÇA KOLUKISA TARHAN
DR. TUĞBA GÜRGEN ERDOĞAN