Geri Dön

Veri madenciliği nde regresyon ağaçları ile sınıflandırma ve bir uygulama

Classification with regression trees in data mining, and a appiication

  1. Tez No: 304788
  2. Yazar: GÜLSER DONDURMACI
  3. Danışmanlar: PROF. DR. NALAN CİNEMRE
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 166

Özet

Bilgisayar teknolojisindeki gelişmelerle birlikte üretilen hem sayısal hem de sayısal olmayan bilgi miktarının arttığı, veri tabanlarının daha fazla veriyi saklayabilecek boyutlara ulaştığı, ayrıca veriye ulaşmanın giderek kolaylaştığı görülmektedir. Veri tabanı sistemlerinin artan kullanımı ve hacimlerindeki olağanüstü artış, ister istemez elde edilen bu büyük hacimli verilerden organizasyonların nasıl yararlanacağı konusunu gündeme getirmiştir. Büyük hacimli veri kümelerinden değerli olan bilginin ve gizli örüntülerin ortaya çıkarılması olayına ?Veri Madenciliği? adı verilmektedir.Bilgisayarların gücündeki artış ve fiyatlarının düşmesi, veri madenciliği kapsamındaki tekniklerin de çeşitlenmesini sağlamıştır. Veri madenciliginin amaçları genellikle sınıflandırma, kümeleme, tahmin öngörü ve benzer gruplama olarak sıralanmaktadır. Amaçlardan biri olan kümeleme, istatistiksel veri analizi, örüntü tanıma vb, birçok alanda oldukça sık kullanılmaktadır. Veritabanlarındaki verilerin gruplar veya kümeler altında toplanarak, benzer özelliklere sahip nesnelerin bir araya gelmesini sağlayan sınıflandırma algoritmaları veri madenciliği alanında büyük öneme sahiptir. Bu tekniklerden biri de ağaç tabanlı sınıflandırma yöntemleri arasında yer alan ?Regresyon Ağaçları? dır. Regresyon ağaçları, sayısal değerlerin kullanılabildiği ve sonuç olarak karar vericilere karar vermelerinde kullanabilecekleri karar kurallarının üretilebildiği bir veri madenciliği yöntemidir.Bu çalışma üç bölümden oluşmuştur. Birinci bölümde veri madenciliği süreci, verilerin hazırlanması, nitelik seçimi, sınıflandırma, modelin değerlendirilmesi konuları açıklanmıştır. İkinci bölümde öğrenme kavramı, karar ağaçlarının elde edilme süreci, karar kuralları ve karar ağaçlarında entropiye dayalı bölünme, regresyon ağaçları ile sınıflandırma esasları ele alınmıştır. Üçüncü bölümde IMKB 30 grubuna dahil menkul kıymetlere ilişkin günlük kapanış fiyatları, menkul kıymet teknik analizlerinde yaygın biçimde kullanılan teknik göstergeler, altın fiyatlarındaki değişmeler, dolar kurundaki değişmeler ve bazı yurtdışı borsa göstergeleri göz önüne alınarak karar ağaçlarının oluşturulması ve bu ağaçlara dayalı olarak karar kurallarının elde edilmesi sağlanmıştır.Analize dahil edilen niteliklerin sayısını azaltmak amacıyla ?Çoklu Doğrusal Regresyon Modelleri? düzenlenmiş, çok sayıdaki modele giren değişkenlerden istatistiksel bakımdan anlamlı olanlar dikkate alınarak bu değişkenleri içeren regresyon ağaçları oluşturulmuştur. Karar kuralları da bu regresyon ağaçlarının yorumlanmasıyla oluşturulmuştur. Bu deneysel işlemlerin sonucunda, bazı menkul kıymetlere ait regresyon modellerinden elde edilen niteliklerin seçilmesiyle daha düşük ortalama hataya sahip regresyon ağaçlarının elde edilebileceği anlaşılmıştır.

Özet (Çeviri)

It is seen that the amount of digital information produced has increased, the databases reached heights to store more data and it became easier reach data with advances in computer technology. Increased use of data base systems and an extraordinary increase in volumes raised the issue of how organizations benefit from the data obtained. The revelation of knowledge and hidden patterns in large-volume datasets are called“Data Mining”. The increase in the power of computers and decrease in prices have also diversified the techniques within the scope of data mining. One of these techniques is“Regression Trees”that is among the tree-based classification methods. Regression trees are a data mining method where numerical values can be used and decision rules are produced as a result.This study consisted of three parts. In the first part, the mining process, data preparation, quality selection, classification, assessment of model has been described. The second chapter discussed the concept of learning, the process of acquisition of decision trees, decision rules and the entropy-based division of decision trees, regression trees and classification principles. In the third chapter, the creation of decision trees and provision of decision rules based on these trees have been provided considering ISE, the daily market prices regarding securities included in ISE 30 group, technical indicators widely used in technical analysis of securities, changes in gold prices, changes in dollar and some foreign stock market indicators.In order to reduce the number of attributes included in the analysis, Multiple Linear Regression Analysis models were found, regression trees including these variables considering the variables in the model and decision rules were created as a result. As a result of these experimental procedures, it has been understood that regression trees with less average error in the selection of variables obtained from the Multiple Linear Regression model derived from securities were revealed.

Benzer Tezler

  1. Veri madenciliğinde hibrit model yaklaşımı

    Hybrid model approach in data mining

    BATUHAN BAKIRARAR

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    PROF. DR. ATİLLA HALİL ELHAN

  2. Veri madenciliğinde sınıflandırma yöntemlerinin karşılaştırılması 'bankacılık müşteri veri tabanı üzerinde bir uygulama'

    Comparison of classification techniques in data mining 'an application in banking customer database'

    ÖZGÜR ÇAKIR

    Doktora

    Türkçe

    Türkçe

    2008

    İşletmeMarmara Üniversitesi

    İşletme Bölümü

    PROF. DR. İSMAİL HAKKI ARMUTLULU

  3. Açıköğretim öğrencilerinin okul terkine etki eden faktörlerin veri madenciliği ile keşfi

    Predicting the factors affecting school dropout in open and distance education students by using data mining

    SELMA TOSUN

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. DİLARA BAKAN KALAYCIOĞLU

  4. Fonksiyonel veri analizinin karar ağaçlarında kullanımı

    Utilization of functional data analysis in decision trees

    BURCU KOCARIK GACAR

    Doktora

    Türkçe

    Türkçe

    2023

    EkonometriDokuz Eylül Üniversitesi

    Ekonometri Ana Bilim Dalı

    DOÇ. DR. İSTEM KESER

  5. Lisansüstü programlara öğrenci kabulünde kullanılan kriter puanların işlevselliği üzerine bir veri madenciliği çalışması

    Title of the thesis a data mining study on the functionality of the criteria scores used in student admission to graduate programs

    SELCAN KESER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimBolu Abant İzzet Baysal Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. ZEKERİYA NARTGÜN