Geri Dön

Hadoop ile büyük veride kimliksizleştirme

Anonymization model with hadoop

  1. Tez No: 705730
  2. Yazar: İREM CİVELEK
  3. Danışmanlar: DOÇ. DR. MUHAMMED ALİ AYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Milli Savunma Üniversitesi
  10. Enstitü: Hezarfen Havacılık ve Uzay Teknolojileri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Siber Güvenlik Bilim Dalı
  13. Sayfa Sayısı: 63

Özet

Verinin çok değerli olduğu günümüzde kuruluşlar sürekli bilgi toplayarak bu bilgilerden fayda sağlamaya yönelmektedir. Veri toplama ve paylaşma aşamalarında veride hassas kişisel verilerin (hastalık, meslek, maaş vb.) bulunması veri sahibinin özel bilgilerinin ifşasına neden olmaktadır. Bu tarz veriler, veri sahibinin rızası olmadan üçüncü şahıslarla paylaşılamaz ve üçüncü şahısların eline geçmemesi için korunmalıdır. KVKK (Kişisel Verilerin Korunması Kanunu) ile ülkemizde kişisel veriler koruma altına alınmıştır. Verilerin elde edilmesi, saklanması ve kullanılması aşamalarında kişi mahremiyetinin korunması yasal bir zorunluluk haline getirilmiştir. Bu zorunluluğu yerine getirmek için veriler sistemlerde kimliksizleştirme yöntemleri kullanılarak daha genel ifadelere çevrilerek anonimleştirilip, bu şekilde saklanmakta ve paylaşılmaktadır. Kimliksizleştirme sonrası veride bir bilgi kaybı olmaktadır ve kimliksiz veri geri döndürülemediği için veri yapısı bozulmaktadır. Bu nedenle, veri yapısının bozulmadan anlık olarak farklı seviyelerde kimliksizleştirme yapacak ve sistemdeki asıl verinin formatını bozmayacak teknolojilere ihtiyaç duyulduğu görülmüştür. Yapılan çalışmada büyük veri yığınları için anlık olarak kimliksizleştirme yapacak farklı kullanıcılara hızlı veri sağlayabilecek bir model önerilmektedir. Önerilen modelde kullanıcıdan SQL sorgularının alınması ve sorgu sonucunda kimliksiz veri elde edilmesi sağlanmaktadır. Modelde kullanılan kimliksizleştirme algoritması optimize edilerek anlık kimliksizleştirme için performansı yüksek bir algoritma oluşturulmaktadır. Hadoop teknolojilerinden Spark kullanılarak algoritmanın testi yapılmakta ve literatürde kullanılan yöntemlere göre avantajları sunulmaktadır. Önerilen modelle kullanıcının, sisteme adaptasyon süreci olmadan ilişkisel veri tabanı kullanıcısı gibi sorgu çekmesi ve kimliksiz veri seti elde etmesi bakımından kullanıcı dostu olduğu görülmüştür. Analiz sonuçlarına göre, modelde kullanılan kimliksizleştirme algoritması işleme hızının diğer algoritmalara göre daha hızlı olduğu görülmektedir.

Özet (Çeviri)

Nowadays, when data is very valuable, organizations tend to benefit from this information by constantly collecting information. The presence of sensitive personal data (illness, occupation, salary, etc.) in the data during the data collection and sharing stages causes the disclosure of the private information of the data subject. Such data cannot be shared with third parties without the consent of the data owner and must be protected to prevent third parties from reaching them. Personal data are protected in our country with the PDPL (Personal Data Protection Law). Protection of personal privacy has become a legal obligation during the acquisition, storage, and use of data. To fulfill this obligation, the data is anonymized by using anonymization methods in the systems and converted into more general expressions, stored, and shared in this way. After anonymization, there is a loss of information in the data, and the data structure is damaged because anonymous data cannot be returned. Therefore, it has been observed that there is a need for technologies that will instantaneously de-identify at different levels without distorting the data structure and that will not disrupt the format of the actual data in the system. In the study, a model that can provide fast data to different users that will instantly de-identify for large data heaps is proposed. In the proposed model, it is provided to receive SQL queries from the user and obtain anonymous data as a result of the query. The anonymization algorithm used in the model is optimized and a high-performance algorithm is created for real-time anonymization. Using Spark, one of the Hadoop technologies, the algorithm is tested, and its advantages are presented compared to the methods used in the literature. With the proposed model, it has been observed that the user is user-friendly in terms of querying like a relational database user without the adaptation process to the system and obtaining an anonymous data set. According to the analysis results, it is seen that the processing speed of the de-identification algorithm used in the model is faster than the other algorithms.

Benzer Tezler

  1. Sentiment analysis and opinion mining from big social data using mapreduce and machine learning methods

    Mapreduce ve makine öğrenmesi yöntemleri ile büyük sosyal veride duygu analizi ve fikir madenciliği

    BANAN JAMIL AWRAHMAN AWRAHMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BİLAL ALATAŞ

  2. Büyük veride HADOOP ve mapreduce uygulanması ve HDFS'ye alternatif dosya sistemi geliştirilmesi

    Implementation of HADOOP and mapreduce in big data and alternative file system development for HDFS

    SALİHA GÜLSEN KESKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKırıkkale Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ATİLLA ERGÜZEN

  3. Büyük veride makine öğrenmesi uygulaması

    Machine learning application on big data

    MUSTAFA VAHİT KESKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    İstatistikYıldız Teknik Üniversitesi

    Uygulamalı İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DOĞAN YILDIZ

  4. Büyük veri analizinde dağıtık makine öğrenmesi algoritmalarının kullanılması

    Using distributed machine learning algorithms on big data analysis

    İBRAHİM RIZA HALLAÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GALİP AYDIN

  5. Analyzing twitter contents using text mining methods

    Metin madencilik yöntemlerini kullanarak twıtter içeriğinin analizi

    MUSTAFA LATEEF FADHIL JUMAILI

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ