Büyük veri kümelerinde sınıflandırma problemi için yeni bir algoritma ve bir uygulama
A new algorithm and an application for the classification problem in big data sets
- Tez No: 574732
- Danışmanlar: PROF. DR. BANU SOYLU
- Tez Türü: Yüksek Lisans
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 55
Özet
Büyük veri kümeleri içerisinde çok sayıda anlamlı bilgi içerebilir. Büyük veri kümelerinden anlamlı bilgilerin çıkarılması oldukça zaman alıcı ve zorlayıcıdır. Danışmanlı sınıflandırma problemleri veri analizinde karşılaşılan en eski problemlerden biridir. Literatürde bu amaçla geliştirilmiş çeşitli teknikler bulunmaktadır. Verinin türü (sayısal, kategorik vb.) hangi algoritmanın kullanılacağına yönelik ipucu verir. Bu çalışmada reel değerlerle ifade edilen özelliklerin bulunduğu büyük veri kümelerinden biri olan otizm hastalarına ait gen ifade verisi kullanılmıştır. Birçok sınıflandırma algoritmasının performansı bu tür veri ile çalıştırıldığında düşmektedir. Bu durumun önüne geçebilmek için verinin dönüştürülmesi gerekmektedir. Bu çalışmada reel veya tamsayı gibi sayısal türde değerler alan özelliklerin bulunduğu veri kümelerinde verinin ikili (binary vb.) değerlere dönüşümünü yapacak bir matematiksel model geliştirilmiştir. Dönüştürülmüş veriye veri madenciliği algoritmaları uygulanarak otizm hastalığı üzerinde etkili olan genler bulunmaya çalışılmıştır. Önerilen yöntemin uygulaması sadece bu veri seti ile sınırlı olmayıp genel amaçlıdır. Yöntemin performansı çeşitli veri madenciliği algoritmaları kullanılarak kolon, bupa, ionosphere, sonar veri kümeleri üzerinde de test edilmiştir. Sonuçlar tartışılmıştır.
Özet (Çeviri)
Big data sets can contain lots of meaningful information. Extracting meaningful information from large data sets is quite time-consuming and challenging. Supervised classification problems are one of the oldest problems that has been encountered in data analysis. For this purpose there are various techniques developed in the literature. The type of data (numerical, categorical, etc.) gives a clue about which algorithm to be used. In this study, gene expression data of autism patients, which is one of the big data sets having features expressed by real values, were used. The performance of many classification algorithms decreases when the classification algorithms are run with such data. In order to avoid this situation, the data must be converted. In this study, a new mathematical model, which converts the real or integer valued attributes to binary values, was developed. Genes that are effective on autism were found by applying data mining algorithms to the transformed data. The application of the proposed method is not limited to this data set. It is for general purpose. The performance of the method was tested by using various data mining algorithms on colon, bupa, ionosphere, sonar data sets as well. The results are discussed.
Benzer Tezler
- New proposed methods for synthetic minority over-sampling technique
Sentetik azınlık aşırı örnekleme tekniği için yeni önerilen yöntemler
HAKAN KORUL
Yüksek Lisans
İngilizce
2024
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiVeri Mühendisliği ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN
- Fuzzy clustering based ensemble learning approach: Applications in digital advertising
Bulanık kümeleme tabanlı topluluk öğrenmesi yaklaşımı: Dijital reklam alanında uygulamalar
AHMET TEZCAN TEKİN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
PROF. DR. TOLGA KAYA
- Efficient machine learning models for cancer biology
Kanser biyolojisi için etkin yapay öğrenme modelleri
AYYÜCE BEGÜM BEKTAŞ
Doktora
İngilizce
2022
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET GÖNEN
- Yeni makine öğrenmesi metotları ve ilaç tasarımına uygulamaları
New machine learning algorithms and applications to drug design
MEHMET FATİH AMASYALI
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. OKAN ERSOY
PROF. DR. OYA KALIPSIZ
- Dynamic heuristic approach to enhance the performance of few-shot meta-learning
Az örnekle meta-öğrenmenin performansını artırmak için dinamik heuristik bır yaklaşım
ÖMER MİRHAN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. NUMAN ÇELEBİ