Geri Dön

Veri tabanında veri tekilleştirme: Atatürk Üniversitesi öğrenci bilgi sistemi örneği

Data deduplication on database: Atatürk University student information system case

  1. Tez No: 532140
  2. Yazar: YAKUP BAYOĞLU
  3. Danışmanlar: DOÇ. DR. ABDULKADİR ÖZDEMİR
  4. Tez Türü: Yüksek Lisans
  5. Konular: İşletme, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Atatürk Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: İşletme Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 126

Özet

Veri kavramı hayatımızın her alanında kullanılmaktadır. Bilişim sistemleri söz konusu olduğunda; veri tabanı, veri güvenliği, veri tutarlılığı, veri kirliliği kavramlarında olduğu gibi yanına yeni sözcükler alarak karşımıza çıkmaktadır. Atatürk Üniversitesi'nde kullanılan birçok sistem, çok fazla kişi tarafından kullanılmakta ve değişik şekillerde veriler girilmektedir. Girilen veriler aynı şeyi ifade etmesine rağmen kullanıcıların değişik bakış açılarından dolayı; bazen farkında olmadan, bazen de kasıtlı olarak farklı şekillerde girilebilmektedir. Bu farklılıklar sebebi ile tekrar tekrar eklenmiş olan veriler sistemin sağlıklı çalışmasını etkileyecek derecede veri kirliliğine sebep olabilmektedir. Sistemlerdeki bu tarz veri kirliliğinin önüne geçmenin çeşitli yöntemleri bulunmaktadır. Bu yöntemler kullanıcıların sistemdeki verilere müdahalesini kısıtlamak/engellemek ve yeni kayıt girilirken çeşitli kontroller yapıldıktan sonra eklemek şeklindedir. Atatürk Üniversitesi oldukça büyük ve köklü bir geçmişe sahip olmasından dolayı Öğrenci Bilgi Sistemine (ÖBS) ait veri tabanındaki veriler çok eski tarihlere uzanmaktadır. Daha önceleri yukarıda bahsedilen tedbirler uygulanmadığından dolayı, sistemde eskiden kalma kirli veriler mevcuttur. Ders adlarındaki veri kirliliği, ÖBS de en çok karşılaşılan ve en çok soruna sebep olan kirliliktir. Bu çalışmamızda aynı isim ve krediye sahip derslerin tek kayıtta birleştirilmesi ve aslında aynı olup farklı şekilde yazılmış olan derslerin tespit edilerek bunların da tek bir kayıtta birleştirilmesi amaçlanmıştır. Bu çalışma kapsamında ders adlarında bazı düzeltmeler yapılmış ve akabinde aynı isimli dersler birleştirilmiştir. Dizge karşılaştırma algoritmalarından Damerau-Levenshtein algoritması kullanılarak benzer isimli dersler tespit edilmiş ve bunlardan da birleştirilmesi uygun görülen dersler birleştirilmiştir.

Özet (Çeviri)

The concept of data is used in all areas of our lives. When it comes to information systems, the word data is used with another words alongside. Such as database, data safety, data integrity, data pollution etc. The systems used in Atatürk University, are used by many people and data is entered in different ways. Although the input data indicate the same thing, due to the different approaches of the users; sometimes unwittingly, sometimes intentionally, it could be entered in different forms. Data which is repeatedly added due to these different approaches, could cause data corruption that will affect the healthy operation of the system. There are various methods of preventing such data pollution in systems. These methods are to restrict / prevent users from interfering with the data in the system and to make various checks while entering the new record. Since Atatürk University has a very large and deep-rooted history, the data in the database of the Student Information System (SIS) goes back to very old dates. Since measures mentioned above had not been applied in earlier time, there are some old dirty data in the system. The data pollution in the course names is the most encountered pollution and causes the most problems in SIS. In this study, it is aimed to combine the courses with the same name and credits in a single record. It is also aimed to determine the courses that are actually the same but typed differently, and combine them in a single record. Within the scope of this study, some corrections have been made in the course names and then the courses with the same name were combined. Similarly named courses were determined by using Damerau-Levenshtein Algorithm which is one of string comparison algorithms. Similarly named courses which are agreed to be same ones, were combined in a single record.

Benzer Tezler

  1. Deduplication of hotels by using active learning

    Aktif öğrenme kullanarak otellerin tekilleştirilmesi

    MEHMET RIDVAN CİĞA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TARKAN AYDIN

  2. Bölümleme Algoritmaları ile Veri Tekilleştirme

    Data deduplication with chunking algorithms

    DUYGU COŞGUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Matematikİstanbul Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BAHRİ GÜLDOĞAN

    PROF. DR. FATMA ÖZDEMİR

  3. Market veri tabanında veri madenciliği uygulaması

    Data mining application in market database

    NURİ ENDER KARAGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    İşletmeİstanbul Ticaret Üniversitesi

    İşletme Ana Bilim Dalı

    YRD. DOÇ. DR. DİCLE TAŞPINAR CENGİZ

  4. Seyahat acentalarında veri madenciliği: Antalya bölgesinde bir uygulama

    Data mining in travel agencies:A reseach in Antalya region

    ABDULLAH AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    TurizmAkdeniz Üniversitesi

    Turizm İşletmeciliği ve Otelcilik Ana Bilim Dalı

    DOÇ. DR. BEYKAN ÇİZEL

  5. Toplu taşıma kullanan öğrencilerin hareketliliğinin analizi: Bursa örneği

    Mobility analysis of students which use public transport: The sample of Bursa

    ERSEL YILMAZDAMAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Kamu YönetimiBursa Uludağ Üniversitesi

    İşletme Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATMA GÜLAY KASAP