Veri ambarlarında verilerin temizlenmesi

Data cleaning in data warehouses

Tez No: 142952
Yazar: METİN ÇINAR
Danışmanlar: PROF. DR. EŞREF ADALI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2003
Dil: Türkçe
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 71

Özet

Günümüz teknolojik seviyesinde bilgisayarın hayatın her alanında kullanılmasından dolayı her an çok büyük boyutlarda veri saklanması, kaydedilmesi ya da toplanması zorunluluk halini almıştır. Herhangi bir alışveriş işleminde, bir telefon görüşmesinde ya da bir bankacılık işleminde kaydedilen veriler çok büyük veri dağlarının ortaya çıkmasına yol açmaktadır. Bu tip günlük ihtiyaçlar dışında ayrıca uydu, uzay araçları ya da uzaktan algılayıcı gibi sistemlerin muazzam boyutlarda verilerin saklanmasını gerektirdiği de aşikardır. Günlük işlemlerin yerine getirilmesi amacıyla kullanılan canlı veri tabam sistemlerinin belirli bir anlamsal bütünlük içerisinde bir araya getirildiği sistemler veri ambarı sistemleri olarak adlandırılırlar. Veri ambarına kaynaklık eden sistemlerin her biri genellikle birbirinden bağımsız olarak tasarlanmış ve geliştirilmiş sistemlerdir. Bunlar aynı organizasyon bünyesinde yer alabilecekleri gibi tamamen organizasyon harici sistemler de olabilirler. Bu verilerin bir veri ambarı sisteminde belirli bir şema yapısı ile anlamsal bütünlük içerisinde bir araya getirilmesi ile veri ambarı inşaa edilmiş olur. Veri tabam sistemlerinin artan kullanımı ve veri miktarlarmdaki büyük artışlar işletme ya da organizasyonları bu verilerden yararlanma amacıyla çeşitli çözümler üretmeye itmiştir. Veri ambarlarının asıl kullanım amaçlan içerdikleri verilerden yararlanılarak işletmelerin gelecekteki stratejilerinin belirlenmesi, kâr oranlarının artırılması gibi yönetimsel kararların alınmasıdır. Bir veri ambarı sisteminden gerçek anlamıyla yararlanabilmenin ilk koşulu veri ambarında yer alan verilerin tutarlılığı ve doğruluğudur. Sistemde yapılacak analizlerin ve araştırmaların güvenilirliği, üzerinde çalışılan verilerin kalitesi ile doğrudan ilişkilidir. Veri kalitesinin düşük olması pek çok sebepten kaynaklanabilmektedir. Kaynak veri tabanlarının tasarım aşamasında çok iyi tasarlanmaması, bütünlük kısıtlayıcılarının yeterince etkin olarak kullanılmaması, veri girişinden kaynaklanan hatalar gibi çeşitli hatalar ile karşılanabilmektedir. Kaynak veri tabanlarının çok iyi tasarlanmış olması ya da tamamen hatasız olması da çoğu zaman veri ambarı sistemindeki veri kalitesi problemlerini gidermemektedir. Birleşmeden kaynaklanan kanşık(heterojen) şema yapısı ve olası tekrarlı kayıt problemleri veri kalitesini düşürmektedir. Veri kalitesinin artırılması için gerekli olan çalışmaların üzerinde yeterince durulmaması daha sonraki aşamalarda çok daha yüksek maliyetli çalışmalar yapılmasını zorunluluk haline getirecektir.Bu çalışmada veri ambarı sistemlerinde karşılaşılan çeşitli veri kalitesi problemleri sınıflandırılmış ve veri kalitesinin artırılması için kullanılan çeşitli teknikler üzerinde durulmuştur. Veri ambarlarında giderilmesi en güç olan ve üzerinde en fazla çalışılan konuların başında tekrarlı kayıtların tespit edilip ayıklanması gelmektedir. Diğer problemler ise nispeten daha basit bazı yöntemler kullanılarak giderilebilmektedir. Özellikle tekrarlı ve mükerrer kayıtların ortaya çıkma sebeplerinin başında yazım hataları gelmektedir. Tamamen aynı olan iki kayıt sisteme girilirken sezilip engellenebilir, fakat girilen kayıtlar arasında yazım farklılıkları olduğunda bunların veri girişi sırasında sezilmesi pek mümkün değildir. Bunun için bu çalışmada öncelikle yazım hatalarının belirlenebilmesi için sözlük kullanılmadan, Türkçe'ye özgü kurallardan yararlanılarak yazım hatalarının tespit edilmesi amaçlanmıştır. Bunun yanında n-gram metodu ile istatistiksel olarak da yazım denetiminin yapılması amaçlanmıştır. Daha sonraki adımda ise sistemde yer alan tekrarlı kayıtların belirlenip ayıklanması amacıyla sıralı komşu metodu olarak bilinen yöntemin bazı ek kurallar ile zenginleştirilerek uygulaması yapılmıştır.

Özet (Çeviri)

Today, computers are used in everypart of our life, for this reason, very big amount of data must be stored, saved or collected. When you are shopping, speaking on phone or banking, you generate data. In addition to these daily requirements, satellites, space vehicles and remote perceivers generate great amount of data which must be stored too. A data warehouse is a repository of information gathered from multiple sources, stored under a unified schema. Data has been periodically collected from various discrete operational systems that has been used to perform daily operations and pushed into the warehouse by preserving the consistency of the data warehouse. A number of analysis and investigations has been done on the data warehouse that contains data which is not update. Some of these operations are statistical reporting, multi-dimensional analysis and data mining. Excessive use of database systems and increasing amount of data forced companies and organizations to find a practical solution for taking advantage of these useful data. Data warehouses enables companies to determine future straregies of companies, increasing profit rates and other manageral decisions. If a data warehouse doesn't contain consistent and reliable data, it is not possible to benefit from this warehouse, efficiently. The reliablity of analysis and researches generated from data warehouses is directly related with quality of data that stored by warehouse. The low quality of data appears by many reasons. Such as, the bad design of the source databases, insufficient use of integrity restrictions, poor design of data entry tools and human factor during data entry. Even if the accomplishment of terms above is performed, it is not enough for high quality of data in data warehouses. Because, heterogenous schema, structures, duplicate records, inconsistent records, erroneous records may be generated during merging source databases. If the criterias mentioned above are not considered and planning of data warehouse system is not done accordingly, it will be more expensive to solve these problems in the future. In this thesis data quality problems are classified and the different methodologies applicable to the variety of data cleaning problems are presented. As mentioned above, the main data quality problem in a data warehouse is duplicate records, so main consideration of this work is detection and elimination of the duplicate records. Other data quality problems can be solved rather easier methods. Incorrect or missing data values, inconsistent value naming conventions, and incomplete information cause“dirty”data files. Hence, it is not surprise to encounter multiple records referring to the same real world entity. Exactly same records can be detected easilyduring data entry but if there are slightly differencies, it is almost impossible to detect them at data entry step. Therefore, at first step it is aimed to detect spelling errors using Turkish grammer rules without using a Turkish dictionary. In addition to these grammer rules n-gram statistic techniques are used to increase succesfully detected misspelled words. For this goal, di-gram, tri-gram and four-gram statistic tables generated using some turkish corpus and Turkish spelling guide. At second step, it is aimed to detect and eliminate duplicate records in the system using enriched sorted neighbourhood method(SNM) with field weights.

Benzer Tezler

Tez No
181880
Veri madenciliği metotlarından olan kümeleme algoritmalarının uygulamalı etkinlik analizi
Efficiency of clustering algorithms using in data mining
TAMER ALTINTAŞ
Yüksek Lisans
Türkçe
2006
Endüstri ve Endüstri Mühendisliği Sakarya Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. İBRAHİM ÇİL
Tez No
563568
Üniversite kütüphanesi verileri üzerinde veri madenciliği yöntemlerinin uygulanması
Application of data mining methods on university library data
AHMET GÖKHAN GÜREL
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Afyon Kocatepe Üniversitesi
İnternet ve Bilişim Teknolojileri Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERTUĞRUL ERGÜN
Tez No
202707
Modeling and analyzing marine data using data mining techniques
Veri madenciliği tekniklerinin kullanılarak deniz verilerinin modellenmesi ve analizi
DERYA BİRANT
Doktora
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dokuz Eylül Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALP KUT
Tez No
126714
Veri ambarı oluşumunda kullanılan teknolojilerin incelenmesi ve veri ambarlarının kişiye özel üretimde kullanımı
Examination of technologies used for building data warehouses and use of data warehouses in mass customization
ŞEFİK EĞRİBOZ
Yüksek Lisans
Türkçe
2002
İşletme İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
DR. HALİL HALEFŞAN SÜMEN
Tez No
316394
Veri madenciliği sürecinde veri ayrıklaştırma yöntemlerinin karşılaştırılması ve bir uygulama
Comparison of data discretization methods in data mining process and an application
FATMA ÖNAY KOÇOĞLU
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
YRD. DOÇ. DR. YALÇIN ÖZKAN

Geri Dön