Geri Dön

Veri ambarlarında verilerin temizlenmesi

Data cleaning in data warehouses

  1. Tez No: 142952
  2. Yazar: METİN ÇINAR
  3. Danışmanlar: PROF. DR. EŞREF ADALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2003
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 71

Özet

Günümüz teknolojik seviyesinde bilgisayarın hayatın her alanında kullanılmasından dolayı her an çok büyük boyutlarda veri saklanması, kaydedilmesi ya da toplanması zorunluluk halini almıştır. Herhangi bir alışveriş işleminde, bir telefon görüşmesinde ya da bir bankacılık işleminde kaydedilen veriler çok büyük veri dağlarının ortaya çıkmasına yol açmaktadır. Bu tip günlük ihtiyaçlar dışında ayrıca uydu, uzay araçları ya da uzaktan algılayıcı gibi sistemlerin muazzam boyutlarda verilerin saklanmasını gerektirdiği de aşikardır. Günlük işlemlerin yerine getirilmesi amacıyla kullanılan canlı veri tabam sistemlerinin belirli bir anlamsal bütünlük içerisinde bir araya getirildiği sistemler veri ambarı sistemleri olarak adlandırılırlar. Veri ambarına kaynaklık eden sistemlerin her biri genellikle birbirinden bağımsız olarak tasarlanmış ve geliştirilmiş sistemlerdir. Bunlar aynı organizasyon bünyesinde yer alabilecekleri gibi tamamen organizasyon harici sistemler de olabilirler. Bu verilerin bir veri ambarı sisteminde belirli bir şema yapısı ile anlamsal bütünlük içerisinde bir araya getirilmesi ile veri ambarı inşaa edilmiş olur. Veri tabam sistemlerinin artan kullanımı ve veri miktarlarmdaki büyük artışlar işletme ya da organizasyonları bu verilerden yararlanma amacıyla çeşitli çözümler üretmeye itmiştir. Veri ambarlarının asıl kullanım amaçlan içerdikleri verilerden yararlanılarak işletmelerin gelecekteki stratejilerinin belirlenmesi, kâr oranlarının artırılması gibi yönetimsel kararların alınmasıdır. Bir veri ambarı sisteminden gerçek anlamıyla yararlanabilmenin ilk koşulu veri ambarında yer alan verilerin tutarlılığı ve doğruluğudur. Sistemde yapılacak analizlerin ve araştırmaların güvenilirliği, üzerinde çalışılan verilerin kalitesi ile doğrudan ilişkilidir. Veri kalitesinin düşük olması pek çok sebepten kaynaklanabilmektedir. Kaynak veri tabanlarının tasarım aşamasında çok iyi tasarlanmaması, bütünlük kısıtlayıcılarının yeterince etkin olarak kullanılmaması, veri girişinden kaynaklanan hatalar gibi çeşitli hatalar ile karşılanabilmektedir. Kaynak veri tabanlarının çok iyi tasarlanmış olması ya da tamamen hatasız olması da çoğu zaman veri ambarı sistemindeki veri kalitesi problemlerini gidermemektedir. Birleşmeden kaynaklanan kanşık(heterojen) şema yapısı ve olası tekrarlı kayıt problemleri veri kalitesini düşürmektedir. Veri kalitesinin artırılması için gerekli olan çalışmaların üzerinde yeterince durulmaması daha sonraki aşamalarda çok daha yüksek maliyetli çalışmalar yapılmasını zorunluluk haline getirecektir.Bu çalışmada veri ambarı sistemlerinde karşılaşılan çeşitli veri kalitesi problemleri sınıflandırılmış ve veri kalitesinin artırılması için kullanılan çeşitli teknikler üzerinde durulmuştur. Veri ambarlarında giderilmesi en güç olan ve üzerinde en fazla çalışılan konuların başında tekrarlı kayıtların tespit edilip ayıklanması gelmektedir. Diğer problemler ise nispeten daha basit bazı yöntemler kullanılarak giderilebilmektedir. Özellikle tekrarlı ve mükerrer kayıtların ortaya çıkma sebeplerinin başında yazım hataları gelmektedir. Tamamen aynı olan iki kayıt sisteme girilirken sezilip engellenebilir, fakat girilen kayıtlar arasında yazım farklılıkları olduğunda bunların veri girişi sırasında sezilmesi pek mümkün değildir. Bunun için bu çalışmada öncelikle yazım hatalarının belirlenebilmesi için sözlük kullanılmadan, Türkçe'ye özgü kurallardan yararlanılarak yazım hatalarının tespit edilmesi amaçlanmıştır. Bunun yanında n-gram metodu ile istatistiksel olarak da yazım denetiminin yapılması amaçlanmıştır. Daha sonraki adımda ise sistemde yer alan tekrarlı kayıtların belirlenip ayıklanması amacıyla sıralı komşu metodu olarak bilinen yöntemin bazı ek kurallar ile zenginleştirilerek uygulaması yapılmıştır.

Özet (Çeviri)

Today, computers are used in everypart of our life, for this reason, very big amount of data must be stored, saved or collected. When you are shopping, speaking on phone or banking, you generate data. In addition to these daily requirements, satellites, space vehicles and remote perceivers generate great amount of data which must be stored too. A data warehouse is a repository of information gathered from multiple sources, stored under a unified schema. Data has been periodically collected from various discrete operational systems that has been used to perform daily operations and pushed into the warehouse by preserving the consistency of the data warehouse. A number of analysis and investigations has been done on the data warehouse that contains data which is not update. Some of these operations are statistical reporting, multi-dimensional analysis and data mining. Excessive use of database systems and increasing amount of data forced companies and organizations to find a practical solution for taking advantage of these useful data. Data warehouses enables companies to determine future straregies of companies, increasing profit rates and other manageral decisions. If a data warehouse doesn't contain consistent and reliable data, it is not possible to benefit from this warehouse, efficiently. The reliablity of analysis and researches generated from data warehouses is directly related with quality of data that stored by warehouse. The low quality of data appears by many reasons. Such as, the bad design of the source databases, insufficient use of integrity restrictions, poor design of data entry tools and human factor during data entry. Even if the accomplishment of terms above is performed, it is not enough for high quality of data in data warehouses. Because, heterogenous schema, structures, duplicate records, inconsistent records, erroneous records may be generated during merging source databases. If the criterias mentioned above are not considered and planning of data warehouse system is not done accordingly, it will be more expensive to solve these problems in the future. In this thesis data quality problems are classified and the different methodologies applicable to the variety of data cleaning problems are presented. As mentioned above, the main data quality problem in a data warehouse is duplicate records, so main consideration of this work is detection and elimination of the duplicate records. Other data quality problems can be solved rather easier methods. Incorrect or missing data values, inconsistent value naming conventions, and incomplete information cause“dirty”data files. Hence, it is not surprise to encounter multiple records referring to the same real world entity. Exactly same records can be detected easilyduring data entry but if there are slightly differencies, it is almost impossible to detect them at data entry step. Therefore, at first step it is aimed to detect spelling errors using Turkish grammer rules without using a Turkish dictionary. In addition to these grammer rules n-gram statistic techniques are used to increase succesfully detected misspelled words. For this goal, di-gram, tri-gram and four-gram statistic tables generated using some turkish corpus and Turkish spelling guide. At second step, it is aimed to detect and eliminate duplicate records in the system using enriched sorted neighbourhood method(SNM) with field weights.

Benzer Tezler

  1. Veri madenciliği metotlarından olan kümeleme algoritmalarının uygulamalı etkinlik analizi

    Efficiency of clustering algorithms using in data mining

    TAMER ALTINTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. İBRAHİM ÇİL

  2. Üniversite kütüphanesi verileri üzerinde veri madenciliği yöntemlerinin uygulanması

    Application of data mining methods on university library data

    AHMET GÖKHAN GÜREL

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAfyon Kocatepe Üniversitesi

    İnternet ve Bilişim Teknolojileri Yönetimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERTUĞRUL ERGÜN

  3. Modeling and analyzing marine data using data mining techniques

    Veri madenciliği tekniklerinin kullanılarak deniz verilerinin modellenmesi ve analizi

    DERYA BİRANT

    Doktora

    İngilizce

    İngilizce

    2006

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP KUT

  4. Veri ambarı oluşumunda kullanılan teknolojilerin incelenmesi ve veri ambarlarının kişiye özel üretimde kullanımı

    Examination of technologies used for building data warehouses and use of data warehouses in mass customization

    ŞEFİK EĞRİBOZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    İşletmeİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DR. HALİL HALEFŞAN SÜMEN

  5. Veri madenciliği sürecinde veri ayrıklaştırma yöntemlerinin karşılaştırılması ve bir uygulama

    Comparison of data discretization methods in data mining process and an application

    FATMA ÖNAY KOÇOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    YRD. DOÇ. DR. YALÇIN ÖZKAN