Tümevarım öğrenme tekniklerinden C4.5'in incelenmesi
Research on C4.5 as of the inductive learning techniques
- Tez No: 142659
- Danışmanlar: PROF. DR. ŞAKİR KOCABAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2003
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 91
Özet
TÜMEVARIM ÖĞRENME TEKNİKLERİNDEN C4.5İN İNCELENMESİ ÖZET Makine öğrenmesinin önemli tekniklerinden biri olan C4.5 (Karar Ağacı Eğitme Algoritması) ve eski uyarlaması ID3 ile farklılıkları bu tez kapsamında ele alınmıştır. Sadece C4.5 sisteminin getirdiği yaklaşımlar değil diğer yaklaşımlar da incelenmiştir. Tıp, Savunma, Ekonomi vb. bir çok alanda kullanılan karar destek sistemleri için önemli bir noktada duran karar ağacı oluşturma algoritmaları bu alanlarda çok faydalı işler görmektedir. Quinlan tarafından 1993'te C dilinde yazılan bu algoritma bu tez kapsamında Java programlama dilinin grafik desteği ile yazılmış ve bir çok deney yapılarak yaklaşımın zayıf ve güçlü yanları belirtilmiş ve bazı iyileştirmeler önerilmiştir. Veri kümesindeki olaylar ilgili özelliklerine göre sorgulanır ve kurallar oluşturulur. Buradaki amaç birbirinden bağımsız duran veriler arasındaki ilişkiyi çözmektir. Her veri kümesinde gizlenmiş kurallar mevcuttur ve karar ağacı oluşturulurken bu kurallar ortaya çıkarılır. Karar ağacı oluşturmadaki en önemli aşama, veri kümesini bölerken soruların hangi sırayla sorulacağı aşamasıdır Bunun için her bir özelliğin gücü ya da bilgi kazancı, entropi formüllerine dayanarak hesap edilir. Kategorik verilere sahip özelliklerin bilgi kazancının hesap edilmesi sayısal verilere göre kısmen daha kolaydır. Sayısal özelliklerin bilgi kazancı sayısal aralığın belli bir noktadan ikiye bölünmesiyle hesap edilir. Bu çalışmada sayısal Özelliklerin, ikiden fazla bölgeye bölünerek incelenmesi durumunda olumlu sonuçlar verdiği görülmüştür. Veri kümesi en güçlü özelliği içeren soru ile sorgulanarak bölünür ve bu işlem yinelenerek karar ağacı oluşturulur. Yaprak oluşturma işlemi için belli koşulların oluşması beklenir. Koşulların oluştuğu ilk aşamada yaprak oluşturulur ve yaprağa ilişkili olduğu sınıfın içerik bilgisi eklenir. Yaprak oluşturmaya yönelik ilk yaklaşım şöyledir: Bölünen veri kümesindeki bütün olaylar aynı sınıfa ait ise bu noktada dur ve o sınıfın içeriğine sahip bir yaprak yarat. Yaprak yaratmak için koşulların nasıl belirleneceği önemli bir sorun olduğundan bu konu ayrıntılı olarak tartışılmıştır. vınÖnemli başlıklardan biri olan ağaç budama işlemi ikiye ayrılır: ön budama (pre- pruning) ve sonradan budama (post-pruning). Bu tekniklerden ön budama ağaç oluşturulurken yapılır ve yaprak oluşturma koşullarına eklenir. Sonradan budamada, ağaç oluşturulduktan sonra her bir yaprağa, kapsadığı olay sayısına göre bir ağırlık bilgisi verilir ve bu bilgi kullanılarak hata tabanlı bir budama yapılır. Ancak C4.5'in budama oranını girdi olarak kabul etmesi bir eksikliktir. Bu yüzden ağacın doğruluk oranını maksimum yapabilecek budama oranını hesaplayan bir birimin oluşturulması gerekir. Ağaç budama ilk bakışta ağacın performansını olumsuz etkiler gibi görünmektedir. Ancak ağaç bağımsız veriler tarafından test edildiğinde bunun tam tersi olduğu görülmektedir. Makine öğrenmesi alanında çalışan araştırmacılar tarafından oluşturulmuş veri kümeleri ile deneyler yapılmış ve verilerin hangi aralıkta budanması gerektiği hesap edilmiş ve önerilmiştir. Bunun yanında her ağacın kendine özgü budama oranı olduğu ve budamadaki en önemli unsurun yaprakların taşıdığı olay sayısı olduğu gözlemlenmiştir. Budama işleminde yaprak sayısından ziyade yaprakların taşıdığı yükler göz önüne alınmıştır. Karar ağacının doğruluğunu hesaplamak için ilgili veri kümesi ikiye bölünür. Bu kümelerden biriyle ağaç oluşturulur ve diğeriyle ağaç test edilir. Böylelikle bu karar mekanizmasına ne kadar güvenileceği bilgisi elde edilmiş olur. Bu ikili bölme yönteminin yanında başka yöntemlerde araştırılmıştır. Çünkü veri kümesinin bölünecek kadar büyük olmaması karar ağacını test etmede önemli bir sorunlar yaratmaktadır. Bu algoritmaların programlanmasında Java programla dilinin desteğine başvurulmuştur. Bu sebepten dolayı Java programlama dilinin yapısına ayrıntılı olarak değinilmiştir. Nesneye yönelik programlama dilinin getirdiği avantajlarla, ağaç yapısı çok kolay bir şekilde ifade edilmiştir. Buna ek olarak oluşturulan ağaçlar Java'nın grafik kütüphanesi yardımıyla ve grafik ara yüz desteği İle iki boyutlu uzayda dinamik olarak çizdirilmiştir. Veri kümesini seçme, ağacı oluşturma, budama, test etme gibi tüm aşamalar görsel hale getirilmiştir. Sonuç aşamasında karar ağacının tüm başlıkları (Ağaç oluşturma, bilgi kazancının hesaplanması, sayısal özellikler, budama, sağlama vb.) değerlendirilmiştir. C4.5'in ıxID3'e getirdiği yeni yaklaşımlar ele alınmış, bu sistemin güçlü ve zayıf yanları belirtilmiş ve gerektiğinde bazı iyileştirmeler öne sürülmüştür.
Özet (Çeviri)
RESEARCH ON C4.5 AS ONE OF THE INDUCTIVE LEARNING TECHNIQUES SUMMARY The thesis in hand deals with C4.5 (Decision Tree Construction Algorithm) as one of the most significant techniques of machine learning, and how it differs from its older version ID3. With this aim in mind, not only the approaches provided by C4.5 but also other approaches are examined. The decision tree algorithms are useful in a variety of spheres from defense to medicine or economics; and bear a vital importance for decision support systems in these areas. Written by Quinlan in 1993 in C programming language, this algorithm is written in this thesis with the graphic support of Java programming language and has been subject to many experiments that point out the strong and insufficient aspects of the approach. Some suggestions of improvement are also included. The instances in data sets are inquired according to their attributes and the rules are created. The aim of this inquiry is to figure out the relationship between data that seem to be totally distinct from each other. In each of the data sets some rules are hidden inherently; and in the course of creating the decision tree, these rules are revealed. The most important stage in the creation of decision trees is the order of the questions to be asked during the process of dividing the data sets. For this reason, power and information gain of each attribute is calculated on the basis of formulas of entropy. Calculating the information gain of the nominal attributes is relevantly easier when compared to the continues attributes. The information gain of numerical attributes is calculated by dividing the numerical range into two parts from a particular point, in this thesis it has been observed that analyzing the numerical attributes by dividing them into more than two parts leads us to some positive results. The data set is inquired with the question that contains the most powerful attribute; and via the repetition of this process the decision tree is created. For the process of leaf creation the appropriate conditions must occur. As soon as the conditions are proper, leaf is created and content information is added to the leaf about the class to which it is related to. The first approach to leaf creation is as follows: If all the instances in the divided data set belong to the same class, stop here and create a leaf that possesses the content of that class. The determination of XIthe proper conditions in leaf creation has been regarded as an issue of magnitude and thus has been discussed in detail. Being one of the important titles, the process of pruning is analyzed in two parts: pre-pruning and post-pruning. Pre-pruning process is realized in the course of tree creation and is added to the leaf creation conditions. In post-pruning, after the tree is created each leaf is given weight information according to the number of instances that it contains. Next this information is used while pruning is done on error basis. However, the fact that C4.5 accepts the pruning rate as an input is a deficiency of this algorithm. Due to this fact it is necessary to create a unit that calculates the pruning rate necessary for the maximum accuracy rate. At first sight tree pruning may seem to affect the performance of the tree negatively. In fact, testing the tree by using independent data that do not create the tree is enough to prove the opposite. Researchers in the field of machine learning have created data sets and used these sets in their experiments; coming up with the results of which range is the most appropriate for pruning the data. In addition, it has been observed that each tree has its own unique pruning rate and that the most important element in pruning is the number of instances that a leaf contains. In the process of pruning, rather than the number of leaves, the weight that the leaves bear is taken into consideration. In order to calculate the accuracy of the decision tree, the related data set is divided into two. One of these sets serves the creation of the tree whereas the other is used to test it. As a result, we learn to what extent we can rely on this decision mechanism. In addition to this division technique, new techniques have been searched. That is simply because in the case of the data set not being big enough to be divided, vital problems occur while testing the decision tree. The support of Java programming language has been beneficial in the programming of these algorithms. That is why the structure of Java programming language has been dealt in this thesis in detail. Thanks to the advantages of object-oriented programming, the tree structure was able to be defined much more easily. Furthermore, the trees that were created could be dynamically graphed in two- dimensional space with the help of Java's graphic library and graphic inter-face support. All the stages of data set selection, creating the tree, pruning and testing have been visualized. XllIn the conclusion part, all the titles of decision tree (creation of trees, calculation of information gain, numerical attributes, pruning, validation, etc.) have been evaluated. New approaches of C4.5 to its older version ID3 have been taken into consideration, the strong and insufficient aspects of the system have been Identified and some suggestions of improvement have been offered. xni
Benzer Tezler
- Application of rule inductionalgorithms to DNA sequence analysis
Tümevarımla kural öğrenme algoritmalarının DNA dizi analizinde kullanımı
MAHMUT ULUDAĞ
Yüksek Lisans
İngilizce
1997
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MEHMET R. TOLUN
- Öğretmen adaylarının uzaktan eğitim tercihlerini etkileyen faktörlerin belirlenmesi
Determining the factors affecting the distance education preferences of teacher candidates
YUSUF DİNÇ
Yüksek Lisans
Türkçe
2020
Eğitim ve ÖğretimNecmettin Erbakan ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. AHMET NACİ ÇOKLAR
- Multi-label and single-label text classification using standard machine learning algorithms and pre-trained BERT transformer
Standart makine öğrenimi algoritmaları ve önceden eğitilmiş BERT transformer kullanarak çok etiketli ve tek etiketli metin sınıflandırma
HUDA ALFIGI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDULKADİR GÜRER
- Alışveriş merkezlerindeki tüketici deneyimlerinin fotoğraflara dayalı öykülemeler yoluyla incelenmesi
An investigation of consumers' experience in shopping malls through photo-essay
MUTLU UYGUN
- Recaizade Mahmut Ekrem'in edebiyat öğretimi ile ilgili görüşleri
The opinions of Recaizade Mahmut Ekrem on literature teaching
SEÇİL YÜKSEL
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimÇanakkale Onsekiz Mart ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YASEMİN UZUN