Effect of dataset reduction techniques on computational complexity and predictive performance of classification problem

Veri kümesi azaltma tekniklerinin sınıflandırma probleminin hesaplama karmaşıklığı ve tahmin performansı üzerindeki etkisi

PDF İndir

Tez No: 929697
Yazar: SUAT AKKAŞ
Danışmanlar: DR. ÖĞR. ÜYESİ EZGİ KARABULUT TÜRKSEVEN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 54

Özet

Büyük verinin endüstride kullanımı her geçen gün artmaktadır. Bu durum finans endüstrisinde de mevcuttur. Büyük verinin finans sektöründe kullanımı, kredi puan- lama sorunları gibi finansal sorunlar alanında muazzam iyileştirmelere yol açmak- tadır. Ancak, büyük verinin kullanımı aynı zamanda hesaplama süresini ve mevcut kaynakların kullanımını da muazzam şekilde artırmaktadır. Bu nedenle, bu sorun bazı uygulamalarda ve bazı durumlarda büyük verinin kullanımını verimsiz hale getirmektedir. Büyük verinin kullanımındaki verimsizliği ele almak için bu çalışmada örnekleme yöntemlerine odaklandık. Satır bazlı örnekleme algoritmaları ve sütun bazlı boyut indirgeme kullanarak, kredi puanlama sorunlarını çözmek için hesaplama süresini azaltmayı amaçladık. Ancak, bu çalışmadaki amacımız sadece hesaplama süresini azaltmak değil, aynı zamanda büyük verinin kullanımı durumunda kredi puanla- masında model kullanımının performansını da azaltmaktır. Ayrıca, tahmin gücü açısından örneklenen verilerin farklı örnek boyutlarında seçim ve dönüştürme algo- ritmalarının etkisini gözlemlemek için özellik seçimi ve dönüştürme algoritmalarını da kullandık. Ayrıca, örnek veri setinin ana veri setini temsil edip etmediğini doğru- lamak için, veri setinde bulunan farklı veri tipleri için bir dizi benzerlik metriği kullandık. Bu metodolojiyi kullanarak, örneklenen verilerin farklı örnek boyutları için hesaplamasüresi, güçveveritemsiliyetiarasındakiilişkiyigözlemledik. Çalışmamız- dan elde ettiğimiz bulgulara göre, hesaplama miktarını önemli miktarda azaltarak, modellerin tahmin gücünü belirli bir örnek boyutuna kadar korumak mümkündür. Farklı örnek boyutları ve farklı özellik azaltma yöntemleriyle hesaplama süresi ile tahmin gücü ilişkileri arasındaki ilişkiyi göstererek, ana endişeler için örnek boyutu ve özellik azaltma seçimini önermeyi amaçlıyoruz.

Özet (Çeviri)

The usage of big data in the industry increases day by day. This situation exists also in the financial industry. The usage of big data in the financial sector leads to enormous improvement in the areas of financial problems such as credit scoring problems. However, the usage of big data also increases the computational time and usage of available resources enormously. Therefore, this issue makes the usage of big data in some applications and some situations inefficient. To handle inefficiency in the usage of big data, we have focused on the sampling methods in this study. By using row-wise sampling algorithms and dimensionality reduction in data, we aimed to reduce computational time for solving credit scoring problems. However, our aim in this study is not just a reduction in computational time but also the performance of the model usage in credit scoring in the case of usageofbigdata. Wehaveusedalsofeatureselectionandtransformationalgorithms in order to observe the effect of selection and transformation algorithms on different sample sizes of sampled data in terms of predictive power. Moreover, to validate whether the sample dataset represents the main dataset or not, we have used a bunch of similarity metrics for different data types that exist in the dataset. Byusingthismethodology, wehaveobservedtherelationbetweenthecomputational time, power and data representativeness for different sample sizes of sampled data. According to our findings from our study, it is possible to preserve the predictive power of models until some sample size, with decreasing the computational amount in significant amounts. By demonstrating the relation between the computational time versus predictive power relations with different sample sizes and different fea- ture reduction methods, we aim to propose the sample size and feature reduction selection for one's main concerns.

Benzer Tezler

Tez No
887780
İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
888771
A robust framework covering measures developed using EVM metric against jamming attacks in next-generation communication systems
Yeni nesil haberleşme sistemlerinde karıştırma saldırılarına karşı EVM metriği kullanılarak geliştirilen önlemleri kapsayan güçlü bir çerçeve
CEM ÖRNEK
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT KARTAL
Tez No
954464
Comressıon of convolutıonal neural networks vıa hıgh dımensıonal model representatıon
Yüksek boyutlu model gösterilimi aracılığıyla evrişimsel sinir ağlarının sıkıştırılması
BERNA YILMAZ
Yüksek Lisans
İngilizce
2025
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
879785
Açık ocak işletmelerinde optimum orta ve uzun dönem üretim planlaması
Optimum medium & long term production scheduling of open pit mines
KÜRŞAT HASÖZDEMİR
Doktora
Türkçe
2024
Maden Mühendisliği ve Madencilik İstanbul Teknik Üniversitesi
Maden Mühendisliği Ana Bilim Dalı
PROF. DR. SELAMET GÜRBÜZ ERÇELEBİ
Tez No
894406
A study in the implementation of convolutional neural network for image classification in frequency domain
Frekans alanında görüntü sınıflandırma için konvolüsyonel sinir ağlarının uygulanması
GÖKTUĞ ERDEM DAĞI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Atılım Üniversitesi
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERHAN GÖKÇAY
DR. ÖĞR. ÜYESİ HAKAN TORA

Geri Dön