Hadoop ile büyük veride kimliksizleştirme

Anonymization model with hadoop

PDF İndir

Tez No: 705730
Yazar: İREM CİVELEK
Danışmanlar: DOÇ. DR. MUHAMMED ALİ AYDIN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Milli Savunma Üniversitesi
Enstitü: Hezarfen Havacılık ve Uzay Teknolojileri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Siber Güvenlik Bilim Dalı
Sayfa Sayısı: 63

Özet

Verinin çok değerli olduğu günümüzde kuruluşlar sürekli bilgi toplayarak bu bilgilerden fayda sağlamaya yönelmektedir. Veri toplama ve paylaşma aşamalarında veride hassas kişisel verilerin (hastalık, meslek, maaş vb.) bulunması veri sahibinin özel bilgilerinin ifşasına neden olmaktadır. Bu tarz veriler, veri sahibinin rızası olmadan üçüncü şahıslarla paylaşılamaz ve üçüncü şahısların eline geçmemesi için korunmalıdır. KVKK (Kişisel Verilerin Korunması Kanunu) ile ülkemizde kişisel veriler koruma altına alınmıştır. Verilerin elde edilmesi, saklanması ve kullanılması aşamalarında kişi mahremiyetinin korunması yasal bir zorunluluk haline getirilmiştir. Bu zorunluluğu yerine getirmek için veriler sistemlerde kimliksizleştirme yöntemleri kullanılarak daha genel ifadelere çevrilerek anonimleştirilip, bu şekilde saklanmakta ve paylaşılmaktadır. Kimliksizleştirme sonrası veride bir bilgi kaybı olmaktadır ve kimliksiz veri geri döndürülemediği için veri yapısı bozulmaktadır. Bu nedenle, veri yapısının bozulmadan anlık olarak farklı seviyelerde kimliksizleştirme yapacak ve sistemdeki asıl verinin formatını bozmayacak teknolojilere ihtiyaç duyulduğu görülmüştür. Yapılan çalışmada büyük veri yığınları için anlık olarak kimliksizleştirme yapacak farklı kullanıcılara hızlı veri sağlayabilecek bir model önerilmektedir. Önerilen modelde kullanıcıdan SQL sorgularının alınması ve sorgu sonucunda kimliksiz veri elde edilmesi sağlanmaktadır. Modelde kullanılan kimliksizleştirme algoritması optimize edilerek anlık kimliksizleştirme için performansı yüksek bir algoritma oluşturulmaktadır. Hadoop teknolojilerinden Spark kullanılarak algoritmanın testi yapılmakta ve literatürde kullanılan yöntemlere göre avantajları sunulmaktadır. Önerilen modelle kullanıcının, sisteme adaptasyon süreci olmadan ilişkisel veri tabanı kullanıcısı gibi sorgu çekmesi ve kimliksiz veri seti elde etmesi bakımından kullanıcı dostu olduğu görülmüştür. Analiz sonuçlarına göre, modelde kullanılan kimliksizleştirme algoritması işleme hızının diğer algoritmalara göre daha hızlı olduğu görülmektedir.

Özet (Çeviri)

Nowadays, when data is very valuable, organizations tend to benefit from this information by constantly collecting information. The presence of sensitive personal data (illness, occupation, salary, etc.) in the data during the data collection and sharing stages causes the disclosure of the private information of the data subject. Such data cannot be shared with third parties without the consent of the data owner and must be protected to prevent third parties from reaching them. Personal data are protected in our country with the PDPL (Personal Data Protection Law). Protection of personal privacy has become a legal obligation during the acquisition, storage, and use of data. To fulfill this obligation, the data is anonymized by using anonymization methods in the systems and converted into more general expressions, stored, and shared in this way. After anonymization, there is a loss of information in the data, and the data structure is damaged because anonymous data cannot be returned. Therefore, it has been observed that there is a need for technologies that will instantaneously de-identify at different levels without distorting the data structure and that will not disrupt the format of the actual data in the system. In the study, a model that can provide fast data to different users that will instantly de-identify for large data heaps is proposed. In the proposed model, it is provided to receive SQL queries from the user and obtain anonymous data as a result of the query. The anonymization algorithm used in the model is optimized and a high-performance algorithm is created for real-time anonymization. Using Spark, one of the Hadoop technologies, the algorithm is tested, and its advantages are presented compared to the methods used in the literature. With the proposed model, it has been observed that the user is user-friendly in terms of querying like a relational database user without the adaptation process to the system and obtaining an anonymous data set. According to the analysis results, it is seen that the processing speed of the de-identification algorithm used in the model is faster than the other algorithms.

Benzer Tezler

Tez No
463038
Sentiment analysis and opinion mining from big social data using mapreduce and machine learning methods
Mapreduce ve makine öğrenmesi yöntemleri ile büyük sosyal veride duygu analizi ve fikir madenciliği
BANAN JAMIL AWRAHMAN AWRAHMAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLAL ALATAŞ
Tez No
518467
Büyük veride HADOOP ve mapreduce uygulanması ve HDFS'ye alternatif dosya sistemi geliştirilmesi
Implementation of HADOOP and mapreduce in big data and alternative file system development for HDFS
SALİHA GÜLSEN KESKİN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Kırıkkale Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ATİLLA ERGÜZEN
Tez No
505664
Büyük veride makine öğrenmesi uygulaması
Machine learning application on big data
MUSTAFA VAHİT KESKİN
Yüksek Lisans
Türkçe
2018
İstatistik Yıldız Teknik Üniversitesi
Uygulamalı İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DOĞAN YILDIZ
Tez No
372974
Büyük veri analizinde dağıtık makine öğrenmesi algoritmalarının kullanılması
Using distributed machine learning algorithms on big data analysis
İBRAHİM RIZA HALLAÇ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GALİP AYDIN
Tez No
517112
Analyzing twitter contents using text mining methods
Metin madencilik yöntemlerini kullanarak twıtter içeriğinin analizi
MUSTAFA LATEEF FADHIL JUMAILI
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Erciyes Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ

Geri Dön