Machine learning over encrypted data with fully homomorphic encyption
Homomorfik şifreleme ile şifrelenmiş veri üzerinde makine öğrenmesi
- Tez No: 750200
- Danışmanlar: PROF. DR. MURAT CENK
- Tez Türü: Yüksek Lisans
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Uygulamalı Matematik Enstitüsü
- Ana Bilim Dalı: Kriptografi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 62
Özet
Makine öğrenmesi algoritmaları ne kadar büyük bir veri seti üzerinden öğrenme sağlarsa alınan sonuçlar o kadar gerçekçi olur. Büyük veri, büyük verinin dağıtılması ve dağıtılan verinin üzerinde öğrenme algoritmalarının çalışması günümüzün popüler araştırma konularındandır. Özellikle sağlık verileri gibi gizlilik derecesi yüksek verileri saklarken şifreleme temel bir ihtiyaçtır. Klasik şifreleme yöntemleri bu ihtiyacı giderememektedir çünkü klasik şifreleme yöntemleri ile şifrelenmiş metinler dağıtıldığında ve dağıtılan veri seti aynı anahtar kullanılarak deşifre edildiğinde anlamlı bir sonuç elde edilemez. Homomorfik şifreleme yöntemleri bu iş uygundur çünkü şifreli metin üzerinde polinomsal işlemlerin yapılmasına izin verir. Bir sonraki adımda karşılaşılan sorunsa dağıtık veriyi işleyecek olan her bir cihazın şifreleme anahtarına erişiminin olması gerekmesidir. Hem şifreleme anahtarının tüm bu cihazlara dağıtımının nasıl olacağı bir sorundur hem de bu cihazların gizlikik derecesi yüksek açık veriye erişiminin güvenilirliğinin değerlendirilmesi gerekir. Homomorfik şifreleme polinom işlemlerine izin verdiği için ve bazı makine öğrenme algoritmaları polinom tabanlı olduğu için şifreli metin üzerinde doğrudan makine öğrenme algoritmalarının çalıştırılması buna bir çözüm olabilir. Lojistik regresyon polinom tabanlı makine öğrenme algoritmalarından biridir. Bu tezde öncelikle hasta bilgileri içeren bir veri setinde lojistik regresyon algoritması kullanılarak öğrenme sağlayan yazılımın yüzde 77.2 başarı oranıyla kişilerin beş sene içerisinde diyabet tanısı alıp almayacağını doğru tahmin ettiği görüldü. Sonrasında veri seti CKKS homomorfik şifreleme yöntemiyle şifrelendi. Şifrelenmiş veri seti üzerinde lojistik regresyon yapılırken algoritma üzerinde bazı yaklaşımların kullanılması gerekmektedir. Önce herhangi bir şifreleme olmadan uygulanan yaklaşımın sonuçlarını görmek istedik. Öğrenme algoritması, şifrelenmiş veri seti üzerinde tekrar çalıştırıldı. Başarılı tahmin oranının 76.8 olduğu görüldü. Şifrelemeden sonra algoritmanın doğru tahmin oranı yine yüzde 76.8 oldu. Bu bize, yaklaşık lojistik regresyon yöntemiyle makine öğrenmesinin, homomorfik şifreleme yöntemi kullanılarak şifrelenmiş bir veri seti üzerinde doğrudan çalıştırılabileceğini gösterdi.
Özet (Çeviri)
When machine learning algorithms train on a large data set, the result will be more realistic. Big data, distribution of big data, and the study of learning algorithms on distributed data are popular research topics of today. Encryption is a basic need, especially when storing data with a high degree of confidentiality, such as medical data. Classical encryption methods cannot meet this need because when texts encrypted with classical encryption methods are distributed, and the distributed data set is decrypted using the same key, the result is corrupted. Homomorphic encryption methods are suitable for this job because they allow polynomial operations on the ciphertext. The encryption key distribution to all these devices is a problem here, and the reliability of these devices' access to highly confidential plain text needs to be evaluated. Since homomorphic encryption allows polynomial operations and some machine learning algorithms are polynomial-based, training machine learning algorithms directly on the ciphertext could be a solution. Logistic regression is one of the polynomial-based machine learning algorithms. In this thesis, a logistic regression algorithm is trained on a data set containing various patient information. It was seen that the algorithm predicted with a 77.2 percent success rate whether people would be diagnosed with diabetes within five years or not. Afterward, the data set was encrypted using the CKKS fully homomorphic encryption method. While working logistic regression over the encrypted dataset, it is needed to use some approximations on the algorithm. We wanted to see the results of the applied approximation without any encryption first. And the learning algorithm was run again on the encrypted data set. And the successful prediction rate was 76.8. After the encryption, the algorithm predicted whether people would be diagnosed with diabetes in five years, and the correct prediction rate was 76.8 percent again. This showed us that machine learning with approximated logistic regression method could be run directly on a data set encrypted using the homomorphic encryption method.
Benzer Tezler
- Preserving privacy with homomorphic encryption in 5G Network Data Analytics Function
5G Şebeke Veri Analitiği Fonksiyonu'nda homomorfik şifreleme ile mahremiyetin korunması
BERKER ACIR
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ERTAN ONUR
- Şifrelenmiş internet trafiğinin makine öğrenmesi yaklaşımı ile sınıflandırılması
Classification of encrypted internet traffic using machine learning approach
MESUT UĞURLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgi Güvenliği Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM ALPER DOĞRU
DR. ÖĞR. ÜYESİ RECEP SİNAN ARSLAN
- Makine öğrenmesi yöntemleri ile siber güvenlik değerlendirmesi: Ağ trafik analizi ve zararlı yazılım algılama
Cyber security assessment with machine learning methods: Network traffic analysis and malware detection
ALİ HAYDAR ESER
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZAFER ASLAN
- Fidye yazılımlarının makine öğrenmesi yöntemleri ile tespit edilmesi
Detection of ransomware using machine learning algorithms
VOLKAN OKUR
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiAdli Bilişim Ana Bilim Dalı
PROF. DR. MURAT GÖK
- Web servislerinde mesajin iki katmanlı QR kod ile iletimi ve makine öğrenmesi yöntemleri ile tespiti
Two layer QR code transmission of message inweb services and detection with machinelearning methods
MİRSAT YEŞİLTEPE
Doktora
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. MUHAMMET KURULAY