Geri Dön

Machine learning over encrypted data with fully homomorphic encyption

Homomorfik şifreleme ile şifrelenmiş veri üzerinde makine öğrenmesi

  1. Tez No: 750200
  2. Yazar: AYŞEGÜL KAHYA
  3. Danışmanlar: PROF. DR. MURAT CENK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Matematik, Mathematics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Uygulamalı Matematik Enstitüsü
  11. Ana Bilim Dalı: Kriptografi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 62

Özet

Makine öğrenmesi algoritmaları ne kadar büyük bir veri seti üzerinden öğrenme sağlarsa alınan sonuçlar o kadar gerçekçi olur. Büyük veri, büyük verinin dağıtılması ve dağıtılan verinin üzerinde öğrenme algoritmalarının çalışması günümüzün popüler araştırma konularındandır. Özellikle sağlık verileri gibi gizlilik derecesi yüksek verileri saklarken şifreleme temel bir ihtiyaçtır. Klasik şifreleme yöntemleri bu ihtiyacı giderememektedir çünkü klasik şifreleme yöntemleri ile şifrelenmiş metinler dağıtıldığında ve dağıtılan veri seti aynı anahtar kullanılarak deşifre edildiğinde anlamlı bir sonuç elde edilemez. Homomorfik şifreleme yöntemleri bu iş uygundur çünkü şifreli metin üzerinde polinomsal işlemlerin yapılmasına izin verir. Bir sonraki adımda karşılaşılan sorunsa dağıtık veriyi işleyecek olan her bir cihazın şifreleme anahtarına erişiminin olması gerekmesidir. Hem şifreleme anahtarının tüm bu cihazlara dağıtımının nasıl olacağı bir sorundur hem de bu cihazların gizlikik derecesi yüksek açık veriye erişiminin güvenilirliğinin değerlendirilmesi gerekir. Homomorfik şifreleme polinom işlemlerine izin verdiği için ve bazı makine öğrenme algoritmaları polinom tabanlı olduğu için şifreli metin üzerinde doğrudan makine öğrenme algoritmalarının çalıştırılması buna bir çözüm olabilir. Lojistik regresyon polinom tabanlı makine öğrenme algoritmalarından biridir. Bu tezde öncelikle hasta bilgileri içeren bir veri setinde lojistik regresyon algoritması kullanılarak öğrenme sağlayan yazılımın yüzde 77.2 başarı oranıyla kişilerin beş sene içerisinde diyabet tanısı alıp almayacağını doğru tahmin ettiği görüldü. Sonrasında veri seti CKKS homomorfik şifreleme yöntemiyle şifrelendi. Şifrelenmiş veri seti üzerinde lojistik regresyon yapılırken algoritma üzerinde bazı yaklaşımların kullanılması gerekmektedir. Önce herhangi bir şifreleme olmadan uygulanan yaklaşımın sonuçlarını görmek istedik. Öğrenme algoritması, şifrelenmiş veri seti üzerinde tekrar çalıştırıldı. Başarılı tahmin oranının 76.8 olduğu görüldü. Şifrelemeden sonra algoritmanın doğru tahmin oranı yine yüzde 76.8 oldu. Bu bize, yaklaşık lojistik regresyon yöntemiyle makine öğrenmesinin, homomorfik şifreleme yöntemi kullanılarak şifrelenmiş bir veri seti üzerinde doğrudan çalıştırılabileceğini gösterdi.

Özet (Çeviri)

When machine learning algorithms train on a large data set, the result will be more realistic. Big data, distribution of big data, and the study of learning algorithms on distributed data are popular research topics of today. Encryption is a basic need, especially when storing data with a high degree of confidentiality, such as medical data. Classical encryption methods cannot meet this need because when texts encrypted with classical encryption methods are distributed, and the distributed data set is decrypted using the same key, the result is corrupted. Homomorphic encryption methods are suitable for this job because they allow polynomial operations on the ciphertext. The encryption key distribution to all these devices is a problem here, and the reliability of these devices' access to highly confidential plain text needs to be evaluated. Since homomorphic encryption allows polynomial operations and some machine learning algorithms are polynomial-based, training machine learning algorithms directly on the ciphertext could be a solution. Logistic regression is one of the polynomial-based machine learning algorithms. In this thesis, a logistic regression algorithm is trained on a data set containing various patient information. It was seen that the algorithm predicted with a 77.2 percent success rate whether people would be diagnosed with diabetes within five years or not. Afterward, the data set was encrypted using the CKKS fully homomorphic encryption method. While working logistic regression over the encrypted dataset, it is needed to use some approximations on the algorithm. We wanted to see the results of the applied approximation without any encryption first. And the learning algorithm was run again on the encrypted data set. And the successful prediction rate was 76.8. After the encryption, the algorithm predicted whether people would be diagnosed with diabetes in five years, and the correct prediction rate was 76.8 percent again. This showed us that machine learning with approximated logistic regression method could be run directly on a data set encrypted using the homomorphic encryption method.

Benzer Tezler

  1. Preserving privacy with homomorphic encryption in 5G Network Data Analytics Function

    5G Şebeke Veri Analitiği Fonksiyonu'nda homomorfik şifreleme ile mahremiyetin korunması

    BERKER ACIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ERTAN ONUR

  2. Şifrelenmiş internet trafiğinin makine öğrenmesi yaklaşımı ile sınıflandırılması

    Classification of encrypted internet traffic using machine learning approach

    MESUT UĞURLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgi Güvenliği Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İBRAHİM ALPER DOĞRU

    DR. ÖĞR. ÜYESİ RECEP SİNAN ARSLAN

  3. Makine öğrenmesi yöntemleri ile siber güvenlik değerlendirmesi: Ağ trafik analizi ve zararlı yazılım algılama

    Cyber security assessment with machine learning methods: Network traffic analysis and malware detection

    ALİ HAYDAR ESER

    Doktora

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAFER ASLAN

  4. Fidye yazılımlarının makine öğrenmesi yöntemleri ile tespit edilmesi

    Detection of ransomware using machine learning algorithms

    VOLKAN OKUR

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Adli Bilişim Ana Bilim Dalı

    PROF. DR. MURAT GÖK

  5. Web servislerinde mesajin iki katmanlı QR kod ile iletimi ve makine öğrenmesi yöntemleri ile tespiti

    Two layer QR code transmission of message inweb services and detection with machinelearning methods

    MİRSAT YEŞİLTEPE

    Doktora

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUHAMMET KURULAY