Geri Dön

Effect of dataset reduction techniques on computational complexity and predictive performance of classification problem

Veri kümesi azaltma tekniklerinin sınıflandırma probleminin hesaplama karmaşıklığı ve tahmin performansı üzerindeki etkisi

  1. Tez No: 929697
  2. Yazar: SUAT AKKAŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ EZGİ KARABULUT TÜRKSEVEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 54

Özet

Büyük verinin endüstride kullanımı her geçen gün artmaktadır. Bu durum finans endüstrisinde de mevcuttur. Büyük verinin finans sektöründe kullanımı, kredi puan- lama sorunları gibi finansal sorunlar alanında muazzam iyileştirmelere yol açmak- tadır. Ancak, büyük verinin kullanımı aynı zamanda hesaplama süresini ve mevcut kaynakların kullanımını da muazzam şekilde artırmaktadır. Bu nedenle, bu sorun bazı uygulamalarda ve bazı durumlarda büyük verinin kullanımını verimsiz hale getirmektedir. Büyük verinin kullanımındaki verimsizliği ele almak için bu çalışmada örnekleme yöntemlerine odaklandık. Satır bazlı örnekleme algoritmaları ve sütun bazlı boyut indirgeme kullanarak, kredi puanlama sorunlarını çözmek için hesaplama süresini azaltmayı amaçladık. Ancak, bu çalışmadaki amacımız sadece hesaplama süresini azaltmak değil, aynı zamanda büyük verinin kullanımı durumunda kredi puanla- masında model kullanımının performansını da azaltmaktır. Ayrıca, tahmin gücü açısından örneklenen verilerin farklı örnek boyutlarında seçim ve dönüştürme algo- ritmalarının etkisini gözlemlemek için özellik seçimi ve dönüştürme algoritmalarını da kullandık. Ayrıca, örnek veri setinin ana veri setini temsil edip etmediğini doğru- lamak için, veri setinde bulunan farklı veri tipleri için bir dizi benzerlik metriği kullandık. Bu metodolojiyi kullanarak, örneklenen verilerin farklı örnek boyutları için hesaplamasüresi, güçveveritemsiliyetiarasındakiilişkiyigözlemledik. Çalışmamız- dan elde ettiğimiz bulgulara göre, hesaplama miktarını önemli miktarda azaltarak, modellerin tahmin gücünü belirli bir örnek boyutuna kadar korumak mümkündür. Farklı örnek boyutları ve farklı özellik azaltma yöntemleriyle hesaplama süresi ile tahmin gücü ilişkileri arasındaki ilişkiyi göstererek, ana endişeler için örnek boyutu ve özellik azaltma seçimini önermeyi amaçlıyoruz.

Özet (Çeviri)

The usage of big data in the industry increases day by day. This situation exists also in the financial industry. The usage of big data in the financial sector leads to enormous improvement in the areas of financial problems such as credit scoring problems. However, the usage of big data also increases the computational time and usage of available resources enormously. Therefore, this issue makes the usage of big data in some applications and some situations inefficient. To handle inefficiency in the usage of big data, we have focused on the sampling methods in this study. By using row-wise sampling algorithms and dimensionality reduction in data, we aimed to reduce computational time for solving credit scoring problems. However, our aim in this study is not just a reduction in computational time but also the performance of the model usage in credit scoring in the case of usageofbigdata. Wehaveusedalsofeatureselectionandtransformationalgorithms in order to observe the effect of selection and transformation algorithms on different sample sizes of sampled data in terms of predictive power. Moreover, to validate whether the sample dataset represents the main dataset or not, we have used a bunch of similarity metrics for different data types that exist in the dataset. Byusingthismethodology, wehaveobservedtherelationbetweenthecomputational time, power and data representativeness for different sample sizes of sampled data. According to our findings from our study, it is possible to preserve the predictive power of models until some sample size, with decreasing the computational amount in significant amounts. By demonstrating the relation between the computational time versus predictive power relations with different sample sizes and different fea- ture reduction methods, we aim to propose the sample size and feature reduction selection for one's main concerns.

Benzer Tezler

  1. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  2. A robust framework covering measures developed using EVM metric against jamming attacks in next-generation communication systems

    Yeni nesil haberleşme sistemlerinde karıştırma saldırılarına karşı EVM metriği kullanılarak geliştirilen önlemleri kapsayan güçlü bir çerçeve

    CEM ÖRNEK

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MESUT KARTAL

  3. Comressıon of convolutıonal neural networks vıa hıgh dımensıonal model representatıon

    Yüksek boyutlu model gösterilimi aracılığıyla evrişimsel sinir ağlarının sıkıştırılması

    BERNA YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  4. Açık ocak işletmelerinde optimum orta ve uzun dönem üretim planlaması

    Optimum medium & long term production scheduling of open pit mines

    KÜRŞAT HASÖZDEMİR

    Doktora

    Türkçe

    Türkçe

    2024

    Maden Mühendisliği ve Madencilikİstanbul Teknik Üniversitesi

    Maden Mühendisliği Ana Bilim Dalı

    PROF. DR. SELAMET GÜRBÜZ ERÇELEBİ

  5. A study in the implementation of convolutional neural network for image classification in frequency domain

    Frekans alanında görüntü sınıflandırma için konvolüsyonel sinir ağlarının uygulanması

    GÖKTUĞ ERDEM DAĞI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERHAN GÖKÇAY

    DR. ÖĞR. ÜYESİ HAKAN TORA