Detecting disguised missing data
Gizli kayıp verilerin bulunması
- Tez No: 233565
- Danışmanlar: YRD. DOÇ. TUĞBA TAŞKAYA TEMİZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Bilişim Bilim Dalı
- Sayfa Sayısı: 71
Özet
Bazı uygulamalarda kayıp veriler NA gibi özel kodlarla belirgin bir biçimde ifade edilirken, bir çok uygulamada veri aslında kayıpken veri tabanına geçerli ya da geçersiz veriler olarak kaydedilir. Bu tür kayıp verilere gizli kayıp veri denilir. Gizli kayıp veriler veri analizinin kalitesini etkiler. Örnegin, KDD-Cup-98`de kullanılan verilerde bulunan birliktelik kurallarında analiz öncesi veri kalitesi yönetim uygulaması ihtiyacı açıkca gösterilmiştir. Bu tezde, gizli kayıp veri sorununu çözmek için gömülü yansız örneklem buluşsali (YÖB) incelenmiş, kusurları gösterilmiş ve Ki-kare iki örneklem testi üzerine kurulu yeni bir yöntem önerilmiştir. Bu yöntem hiç bir alan bilgisine ihtiyaç duymamaktadır ve YÖB'den daha iyi performans göstermektedir.
Özet (Çeviri)
In some applications, explicit codes are provided for missing data such as NA (not available) however many applications do not provide such explicit codes and valid or invalid data codes are recorded as legitimate data values. Such missing values are known as disguised missing data. Disguised missing data may affect the quality of data analysis negatively, for example the results of discovered association rules in KDD-Cup-98 data sets have clearly shown the need of applying data quality management prior to analysis. In this thesis, to tackle the problem of disguised missing data, we analyzed embedded unbiased sample heuristic (EUSH), demonstrated the methods drawbacks and proposed a new methodology based on Chi Square Two Sample Test. The proposed method does not require any domain background knowledge and compares favorably with EUSH.
Benzer Tezler
- Evaluating BFAST algorithm in landsat time series analysisof monitoring deforestation dynamics in coniferousand deciduous forests
Landsat zaman serisi ile iğne ve geniş yapraklı ormanlardaormansızlaşma dinamiklerinin izlenmesinde BFASTalgoritmasının değerlendirilmesi
NOOSHIN MASHHADI
Yüksek Lisans
İngilizce
2021
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiCoğrafi Bilgi Teknolojileri Ana Bilim Dalı
Assist. Prof. Dr. UĞUR ALGANCI
- Nokta bulutlarının otomatik birleştirilmesinde yeni bir yöntem önerisi
A new method for automatic point cloud registration
RAMAZAN ALPER KUÇAK
Doktora
Türkçe
2021
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERDAR EROL
- Akdeniz Ortaçağ felsefesinde mizojini: Aurelius Augustinus'un eserlerinde kadın cinsiyetine ilişkin söylemlerinin feminist yazın eleştirisi aracılığıyla analizi
Misogyny in the mediterranean medieval philosophy: An analysis of st. Augustine's Arguments and expressions regarding female sex through feminist literary criticism
RABİA AKÇORU
Doktora
Türkçe
2023
Batı Dilleri ve EdebiyatıAkdeniz ÜniversitesiAkdeniz Ortaçağ Araştırmaları Ana Bilim Dalı
DOÇ. DR. EKİN KAYNAK ILTAR
- Segmentasyon yardımıyla kenar iyileştirme yöntemi
Edge reinforcment method by using segmentation
ÖZLEM MUTLU
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. OSMAN HİLMİ KOÇAL