Veri kümelerindeki eksik değerlerin yeni yaklaşımlar kullanılarak hesaplanması

Estimating missing values in datasets using novel hybrid approaches

PDF İndir

Tez No: 335290
Yazar: İBRAHİM BERKAN AYDİLEK
Danışmanlar: PROF. DR. AHMET ARSLAN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2013
Dil: Türkçe
Üniversite: Selçuk Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 100

Özet

Veri kümeleri; veri madenciliği, makine öğrenmesi veya yapay zeka gibi disiplinlerin uygulanabilmesi için gereklidir. Veri kümelerindeki verinin kalitesi, doğru araştırma sonuçları elde edebilmek adına önemli bir konudur. Veri kümelerinde çeşitli nedenlerle veri kalitesini azaltan değeri olmayan nitelikler bulunabilmektedir. Değeri olmayan bu eksik değerler yapılmak istenen çalışmaya ait sonuçların güvenirliğini riske atabilmektedir. Bu nedenle veri kalitesini artırmaya yönelik yöntemler ile veri kümelerindeki eksik değer probleminin giderilmesi gerekmektedir. Bu tez çalışmasında eksik değer hesaplamasında kullanılan klasik yöntemlerden bahsedilerek alternatif gelişmiş yöntemler önerilmiştir. Daha önce konuyla ilgili yapılmış olan çalışmaların faydalarından bahsedilerek eksik değer hesaplamasının önemi vurgulanmıştır. Bulanık c-ortalamaları, destek vektör regresyonu ve genetik algoritmaların hibrit kullanımı ile geliştirilen bir yaklaşım ve ayrıca en yakın k-komşu ve yapay sinir ağlarının hibrit kullanımı sonucu geliştirilen bir diğer yaklaşım önerilmiştir. Bu yaklaşımlarda kullanılan temel algoritmalar olan bulanık c-ortalamaları ve en yakın k-komşu algoritmaları için en uygun parametre değerlerini bulan otomatik bir model önerilmiştir. Önerilen yaklaşımlar literatürde yaygın kullanılan veri kümeleri ile test edilmiş ve benzer diğer yaklaşımlar ile kıyaslanmıştır. Benzer yöntemlerin eksikliklerine karşı önerilen hibrit yaklaşımların literatüre kattığı yenilikler anlatılmıştır. Elde edilen araştırma sonuçlarında, önerilen hibrit yaklaşımların performanslarının benzer yöntemlere göre daha üstün ve tutarlı olduğunu görülmüştür.

Özet (Çeviri)

Data mining, machine learning or artificial intelligence algorithms need a dataset to produce and evaluate research results. Data quality is a significant issue to obtain accurate research results. Many datasets may contain one or more missing values in a row due to various reasons. Missing values reduce data quality and even may jeopardize research results. Therefore, before using missing values in data mining or machine learning methods, they should be handled and estimated without reduce the data quality. In this paper basic conventional and computational intelligence imputation techniques are mentioned. Advantages of closer literature researches bring out the importance of dealing with missing values in datasets. A novel hybrid approach using fuzzy c-means, support vector regression and genetic algorithms is proposed. Also another novel hybrid approach k-nearest neighbors, artificial neural networks is also proposed. Fuzzy c-means and k-nearest neighbors algorithms? parameters are automatically optimized. Approaches tested with different kinds of datasets, which are frequently used in literature and additionally proposed approaches are compared with other closer methods in literature. Disadvantages of closer methods are mentioned in order to assess the originality of the proposed approaches. Findings showed that new novel proposed hybrid approaches performances are more stable and better than the other closer methods.

Benzer Tezler

Tez No
313572
Optimal portfolio investment under transaction costs
Hareket masrafı altında en iyi portföy yatırımı
SAİT TUNÇ
Yüksek Lisans
İngilizce
2012
Elektrik ve Elektronik Mühendisliği Koç Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERDAR SÜLEYMAN KOZAT
Tez No
805893
An imputation algorithm based on nature-inspired metaheuristic for missing values in the diabetes disease dataset
Başlık çevirisi yok
ANAS MUDHAFAR AHMED AHMED
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Bilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TİMUR İNAN
Tez No
864178
Early detection of distributed denial of service attacks
Dağıtık hizmet engelleme saldırılarının erken tespiti
KAĞAN ÖZGÜN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYŞE TOSUN KÜHN
DR. ÖĞR. ÜYESİ MEHMET TAHİR SANDIKKAYA
Tez No
947140
Fractional-order derivative based adaptive methods for control and optimization
Kontrol ve optimizasyon için kesir mertebeli türev tabanlı adaptif yöntemler
MERT CAN KURUCU
Doktora
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. MÜJDE GÜZELKAYA
PROF. DR. İBRAHİM EKSİN
Tez No
671607
Evolutionary mechanisms of imprinting in business clusters
İş kümelerinde örgütsel damgalamanın evrimsel mekanizmaları
EMRE EKŞİ
Doktora
İngilizce
2021
İşletme İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERÇEK

Geri Dön