Sınıflandırma problemlerinde kural çıkarımı için yeni bir yöntem geliştirilmesi ve uygulamaları
Development and applications of a new method for rule extraction in classification problems
- Tez No: 398747
- Danışmanlar: PROF. DR. NOVRUZ ALLAHVERDİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 121
Özet
Bilgisayar teknolojileri ve veri tabanı yazılımlarındaki gelişmeler sonucunda büyük miktarda veri birikmiş ve eldeki verilerden anlamlı bilgi çıkarma ihtiyacı ortaya çıkmıştır. Büyük miktarda depolanan bu veriler birçok gizli örüntü içermesine rağmen, toplanan veri miktarı büyüdükçe ve verilerdeki karmaşıklık arttıkça, geleneksel yöntemler ile veri bilgiye dönüştürülemez hale gelmektedir. Bu nedenle günümüzde büyük miktarda verileri çözümlemek amacıyla veri madenciliği yöntemleri yaygın bir şekilde kullanılmaktadır. Veri madenciliği yöntemlerinden sınıflandırma, kümeleme ve birliktelik kuralı keşfetme sıklıkla tercih edilmektedir. Sınıflandırma, önceden kategorisi belli olan veriler kullanılarak bir model oluşturulup, yeni karşılaşılan verinin hangi sınıfa ait olduğunu belirleme işlemidir. Yeni bir verinin, belirli sınıflar içinde hangi sınıfa ait olduğunu tespit edecek bir sınıflayıcı oluşturmak amacıyla veri madenciliği yöntemleri sıklıkla kullanılmaktadır. Bu sınıflandırma yöntemleri genellikle başarılı olmasına rağmen, ortaya konulan değişik sınıflandırma ve kural çıkarma algoritmaları özellikle çok sınıflı gerçek dünya problemleri için henüz arzu edilen seviyeye ulaşamamıştır. Bu tez çalışmasında çok sınıflı verilerden kural çıkarımı için yeni bir yöntem geliştirilmiştir. Geliştirilen bu yöntemde ayrık ve gerçel öznitelikler farklı şekilde kodlanmıştır. Ayrık öznitelikler ikili olarak, gerçek öznitelikler ise, iki gerçel değer kullanılarak kodlanmıştır. Gerçel değerler kuralları oluşturan özniteliklerin değer aralıklarının orta noktası ve genişlemesini ifade etmektedir. Kural çıkarım işlemi için sınıflandırma başarısı uygunluk fonksiyonu olarak kullanılmıştır. Uygunluk fonksiyonunun optimizasyonu amacıyla Yapay Bağışıklık Sistemi (YBS) yöntemlerinden olan CLONALG algoritması kullanılmıştır. Önerilen yöntem en uygun aralıkları keşfettiğinden dolayı bu yönteme isim olarak“Aralık Keşfi”anlamına gelen INDISC (INterval DISCovery) verilmiştir. INDISC yöntemi 8 farklı veri kümesi üzerinde test edilmiştir. INDISC yöntemini uygulamak için Pima yerlileri diyabet hastalığı, Orjinal wisconsin göğüs kanseri, Teşhis wisconsin göğüs kanseri, Deniz kabuğu, Süsen çiçeği, Cam kimliklendirme, Şarap ve Tiroid hastalığı veri kümeleri kullanılmıştır. Veriler Irvine California Üniversitesi (UCI) makine öğrenmesi veri deposundan temin edilmiştir. INDISC yöntemi, Pima yerlileri diyabet hastalığı %80.34, Wisconsin göğüs kanseri (orjinal) %99.12, Wisconsin göğüs kanseri (teşhis) %96.31, Deniz kabuğu %62.59, Süsen çiçeği %100, Cam kimliklendirme %77.10, Şarap %99.44 ve Tiroid hastalığı %93.95 doğrulukla sınıflandırmıştır. Diğer yöntemlerle elde edilen başarı yüzdeleri ile geliştirdiğimiz INDISC yöntemi başarı yüzdeleri karşılaştırılmıştır. Tüm veri kümelerinde INDISC yöntemi ile elde edilen sonuçların diğer yöntemlerle elde edilen sonuçlardan daha başarılı olduğu görülmüştür.
Özet (Çeviri)
It has been aroused the necessity of extracting meaningful information from huge amount of available data that is accumulated as result of development in computer technology and database software. Traditional methods can't cope with turning the data to the knowledge due to amount and complexity of accumulated data that has so many hidden patterns in it. Thus, nowadays the data mining techniques are commonly used for analyzing huge amount of information. Classification, clustering and associated rule extraction of data mining techniques are preferred widely. Classification is the operation of determining class of the data by forming a model that makes use of data whose categories are previously determined. Data mining techniques are frequently used to form a classifier that determines belonging class of a new data among the predetermined classes. Although these classification methods including different classification and rule extraction algorithms are generally successful they don't reach the required success levels when it comes to multi-class real world problems. In this dissertation thesis a new method for rule extraction was developed. Real and discrete attributes were coded differently. Discrete and real attributes were coded as binary and two real values, respectively. Real values represent middle points and extensions of value intervals of attributes that forms of rules. Classification success was used as fitness function for rule extraction operation. One of the methods of Artificial Immune System (AIS) called CLONALG algorithm was used for optimization fitness function. Since the proposed method invents the most appropriate intervals it is called as INDISC (Interval DISCovery) meaning“Interval Invention”. INDISC method was tested on 8 different data sets. In order to apply INDISC method the data sets of Pima Indian diabetic illness, Original wisconsin breast cancer, Diagnosis wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid were used. The data were obtained from Irvine California University (UCI) machine learning data bank. INDISC method has classified Pima indian diabetic illness, Original Wisconsin breast cancer, Diagnosis Wisconsin breast cancer, Abolone, Iris, Glass Identification, Wine and Newthyroid in the success ratios of %80.34, %99.12, %96.31, %62.59, %100, %77.10, %99.44 and %93.95, respectively. Other methods were compared with proposed INDISC method according to success rates of classification. It has been seen that the results obtained from proposed INDISC method are more successful than all other methods.
Benzer Tezler
- Yapay zeka metotlarının bir sınıflandırma probleminde karşılaştırılması
Comparison of artificial intelligience methods for a classification problem
NİLGÜN ŞENGÖZ
Yüksek Lisans
Türkçe
2016
Endüstri ve Endüstri MühendisliğiSüleyman Demirel ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLTEKİN ÖZDEMİR
- Protein fold classification and motif retrieval methods by using the primary and secondary structures
Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı
ÖZLEM POLAT
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ZÜMRAY DOKUR ÖLMEZ
- Bulanık dalgacık çekirdek tabanlı aşırı öğrenme makineleri yaklaşımı ile sınıflandırma analizi
Classification analysis with fuzzy wavelet kernel extreme learning machines approach
ASLI KAYA KARAKÜTÜK
Doktora
Türkçe
2023
İstatistikEskişehir Teknik Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. ÖZER ÖZDEMİR
- Karınca koloni optimizasyoni ile yapay sinir ağlarından kural çıkarımı
Rule extraction from artificial neural networks by ant colony optimization
SİNEM KULLUK
Doktora
Türkçe
2009
Makine MühendisliğiErciyes ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. HÜSEYİN YAPICI
YRD. DOÇ. DR. LALE ÖZBAKIR