Geri Dön

Knowledge discovery in databases and data mining techniques: An applied study

Veri tabanlarında bilgi keşfi ve veri tabancılığı teknikleri: Bir uygulama

  1. Tez No: 198371
  2. Yazar: TAYİP ALTAY
  3. Danışmanlar: PROF.DR. ÜMİT FIRAT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2005
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

ÖZETVER TABANLARINDA B LG KEŞF VE VERMADENC L Ğ TEKN KLER : B R UYGULAMAVeri madenciliği, kendi başına değersiz olan çok miktardaki veriden, geçerli, yararlıve bilinmeyen değerli bilginin elde edilmesi olarak tanımlanabilir. Veri madenciliğinin başlıcakullanım alanları olarak, bankacılık, sigortacılık, parekende ticaret, tıp, üretim, vetelekominikasyon sayılabilir. şletmeler hedefledikleri karlılık oranlarına ulaşabilmek için,veri madenciliğini, karar vermelerine yardımcı bir araç olarak kullanırlar.Bu uygulamada veri madenciliği yazılımı olarak, SPPS Clementine ürününün 8.1versiyonu kullanıldı. Veri madenciliği pazarının önemli oyuncularından olan SPSS, başarılıbir model oluşturmak için altı safha içeren CRISP-DM metodolojisini önermektedir. Busafhalar sırasıyla: şin anlaşılması, verinin anlaşılması, verinin hazırlanması, modellerinoluşturulması, sonuçların değerlendirilmesi ve modelin uygulamaya geçirilmesidir.Tezin başlangıç aşamasında, veri madenciliğinin, ilgili diğer teknolojiler olan veriambarı, anında analitik işleme (OLAP), ve iş zekası ile bağlantıları araştırıldı. Sonra, verimadenciliği teknikleri, üç kategoriden oluşan bir sınıflandırmaya tabi tutuldu: Kümelemeteknikleri, birliktelik kuralları ve tahmin edici teknikler. Kümeleme modelleri başlıca üçkısımda incelenildi: K-ortalamalar kümelemesi, hiyerarşik kümeleme, ve Kohonen ağları.Birliktelik kurallarının en önemlileri olan Apriori ve GRI hakkında bilgi verildikten sonra,tahmin edici teknikler dört ana başlık altında incelenildi: Yapay sinir ağları, karar ağaçları,lojistik regresyon, ve seri keşfi analizi.Modellerin oluşturulması safhasına geçilmeden önce, uygulamanın dayandığı teoriktemeller sunuldu. MLP sinir ağı metodunun temel iki unsuru olan, ileriye besleme ve geriyeyayılım hesaplamaları sunulduktan sonra, CART tekniğine dayalı karar ağaçlarınınoluşturulmasında en önemli etmenler olan, safsızlık ölçütleri ve ağaç budanması işlemiayrıntılarıyla incelendi.Başarılı modeller oluşturabilmek için; daha anlamlı yeni alanların türetilmesi, aradosyaların üretilmesi ve eksik ya da tutarsız verilerin temizlenmesi işlemleri yapıldı.Uygulamanın veri kümesi, sanal bir şirketin müşterilerinin, 2001 yılında düzenlenen birkampanyaya yanıt verip vermediklerini sorgulayan bir anket çalışması sonucu elde edilmişti.Uygulamanın amacı, sözü geçen veri kümesini kullanarak, müşterilerin izleyen yıllardadüzenlenecek kampanyalara yanıt verip vermeyeceklerini belirlemekti. Oluşturulan iki farklımodelden, sinir ağları kullanılarak elde edilen model; gerçek değerlerle, tahmin edilendeğerler karşılaştırıldığında daha iyi sonuçlar üretti. Ayrıca, Clementine tarafından sunulanAnalysis nodu kullanılarak, oluşturulan test kümesinden yararlanılarak, ve son olarak dakazanç grafikleri çizilerek yapılan tüm karşılaştırmalar; üretilen MLP sinir ağı modelinin,CART karar ağacı modelinden daha iyi sonuçlar ürettiğini gösterdi. MLP modeli,müşterilerin kampanyaya ilgi düzeylerini yaklaşık %91 oranında doğru tahmin etmişti.

Özet (Çeviri)

ABSTRACTKNOWLEDGE DISCOVERY IN DATABASES AND DATAMINING TECHNIQUES: AN APPLIED STUDYData mining can be defined as extraction of valid, useful, and unknown informationfrom masses of data which is worthless by itself. Banking, insurance, retailing, medicine,manufacturing, and telephony may be mentioned as the primary sectors for data mining usage.Businesses use data mining to achieve their ultimate goals; making profit by making betterdecisions.SPPS Clementine Version 8.1 was used to construct the models. As a prominentvendor, SPPS proposes following the CRISP-DM methodology to build a successful datamining model. This methodology includes six stages: Business understanding, dataunderstanding, data preparation, modeling, evaluation and deployment.In this study, as a first step, the relationships of data mining with related technologiessuch as data warehousing, OLAP, and business intelligence was investigated. Then, datamining techniques were classified into three broad categories: Clustering techniques,association techniques, and predictive techniques. K-means clustering, hierarchical clustering,and Kohonen networks are mentioned as the three main clustering techniques while Apriori,and GRI as the two principal association techniques. Then, four predictive techniques areexamined: Neural networks, rule induction (decision trees), logistic regression, and sequencedetection.Before the actual construction of models takes place, the underlying theoretical basis forthe application was introduced. The key factors of an MLP neural network, i.e.backpropagation and feedforward calculations are investigated in details. Similarly, the keypoints of a CART decision tree; impurity measures and pruning process, were examined.The data was preprocessed to construct successful models: Some more meaningful newfields are derived, intermediate files are created, and the noisy data is cleaned. Theapplication?s data was coming from a campaign conducted in year 2001 by a hypotheticalcompany performing in retailing sector. The aim was predicting whether a customer willrespond for the following years? campaigns or not. After the two models were constructed, ithad been seen that the neural network model gives better results when the predicted values arecompared with the actual ones. Similarly, comparison of outcomes of the two models byusing Analysis node, validation data and gains chart proved that the MLP modeloutperformed over the CART model by giving about 91% precision.

Benzer Tezler

  1. Clustering web usage transactions for efficient association rule mining

    Verimli eşleştirme sorgusu çıkarımı için web günlük hareketlerinin gruplandırılması

    MEHMET ULUER

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN HÜSEYNOV

  2. Veri madenciliğinde kümeleme analizi yöntemi uygulaması

    A Cluster analysis application on data mining

    TURGAY TUGAY BİLGİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı

    DOÇ. DR. YILMAZ ÇAMURCU

  3. Veri madenciliği ve bir uygulaması

    Data mining and its application

    ZEYNEP DEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    İstatistikMuğla Üniversitesi

    DR. MEHMET KARAHASAN

  4. A knowledge discovery approach to urban analysis the Beyoğlu preservation area as a data mine

    Kent analizinde bir bilgi keşfi yaklaşımı bir veri madeni olarak Beyoğlu kentsel koruma alanı

    AHU SÖKMENOĞLU SOHTORİK

    Doktora

    İngilizce

    İngilizce

    2016

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. GÜLEN ÇAĞDAŞ

    PROF. DR. İKBAL SEVİL SARIYILDIZ

  5. Data mining and knowledge discovery in medical information systems

    Tıbbi bilişim sistemlerinde veri madenciliği ve bilgi keşfi

    YUNUS DOĞAN

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. RECEP ALP KUT