Privacy preserving representation of high-entropy data using non-uniquely decodable code

Yüksek entropili veriıleriın tekiıl çözümlenemeyen kodlarla mahremiıyet korunumlu gösteriımiı

PDF İndir

Tez No: 647490
Yazar: YASİN ÖZTÜRK
Danışmanlar: PROF. DR. MUHAMMED OĞUZHAN KÜLEKCİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Bilişim Enstitüsü
Ana Bilim Dalı: Bilişim Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 95

Özet

Son zamanlarda teknolojide yapılan gelişmeler gittikçe hızlanmakta, bu ilerlemeler elektronik cihazların hem günlük hem de iş hayatında daha fazla yer kaplamasını sağlamaktadır. Kullanılan cihazların ve işlemci güçlerinin artmasıyla gittikçe daha fazla veri üretilmektedir. Üretilen verinin kaynağı ne olursa olsun, ister çekilen bir fotoğraf isterse bir sensörden alınan değerler kümesi, depolanması gerekmektedir. Veri boyutu çok büyük olmaya başlarsa, tek bir depolama aygıtında tüm verilerin depolanması mümkün olmamaya başlar. Eğer ki üretilen veri önemli ve hassas içerik barındırıyorsa, gizliliği korunacak bir şekilde saklanması gerekmektedir. Gizliliği korumak için bir çok farklı şifreleme algoritması ve metodolojisi olmasına rağmen, bu yöntemlerin çoğu önek içermeyen (prefix-free) veya sabit uzunluklu (fixed-length) kodlama teknikleri ile gerçekleştirilmektedir. Bunun yanında ortaya çıkardıkları şifrelenmiş son ürün tek bir dosyadan oluşmaktadır ve tek bir lokasyonda depolanması gerekmektedir. Bu çalışmada, çok geniş araştırmaların yapılmadığı bir yöntem araştırılmış olup, önek içeren (non-prefix-free) kodlama yöntemi kullanılmış ve önek içeren kodların doğasından gelen mahremiyeti koruma özelliğine sahip bir yöntem önerilmiştir. Önerilen yöntem sonucunda ortaya çıkartılan veri iki farklı bölümden oluşmaktadır ve bu özellik, gizliliği muhafaza edilen verinin paylaştırılmış depolama alanlarında saklanabilmesini olanak tanımaktadır. Bu çalışma daha çok sıkıştırılmış dosyalar, kodlanmış video dosyaları ve benzer multimedya dosyaları gibi büyük boyutlu ve yüksek entropi içeren dosyalar üzerine odaklanmıştır. Önek içermeyen kodlar, kod kelimerinin uzunluklarını bilmeye ihtiyaç duymadan benzersiz bir şekilde çözümlenebilir. Bu kodların bu özelliği sahip olmasının nedeni, bir kod kelimesinin başka bir kod kelimesinin öneki olamamasından kaynaklanmaktadır. Önek içeren kodlarda bu benzersiz çözümlenebilme özelliği bulunmaz, bu nedenle kod kelimelerinin uzunluklarının daha önceden bilinmesi gerekmektedir. Bu nedenle bu kodlar belirsiz kodlar olarakta adlandırılmaktadır. Önek içeren kodlar ile oluşturulmuş bir veri akışının kelime sınırlarını bilmeden eşsiz bir şekilde çözülmesi mümkün değildir. Bu eşsiz çözümlenememe özelliği nedeniyle bu alanda fazla araştırma gerçekleştirilmemiştir. Önek içeren kod düzenlerinde eşsiz çözümlenebilme sorununu gidermek için kod sınırlarını efektif bir şekilde betimleyecek bir yöntem bulunmalıdır. Bu alanda daha önceden sıra ve seçim (rank and select) işlemleri için ek bir sıkıştırılmış bit dizisinin tutulması, wavelet ağaçlarının oluşturulması gibi çalışmalar gerçekleştirilmiştir. Bu alanlarda yapılan deneysel çalışmalar önek içeren kodların Huffman kodlarına yakın hatta bazen daha da iyi sonuç veren sıkıştırmalar sağlayabileceğini göstermiştir. Belirsiz kodların benzersiz çözümlenebilme problemlerini gidermeye yönelik harcanan eforlara rağmen, bu çalışmada önek içeren kodların sağlamış olduğu güvenlik ve gizlilik konuları üzerine odaklanılmıştır. Yüksek hacimli verilerin güvenliği sağlanırken daha az şifreleme işlemi gerçekleştirerek güvenliği sağlamak, şifreleme işlem maliyetinin belli bir ölçüme göre yüksek olduğu platformlarda mantıklı olmaktadır. Örneğin taşınabilir cihazlar, sensör ağları veya insansız hava araçları gibi pil ömrü limiti platformlarda az şifreleme işleminde bulunmak batarya ömrünün uzamasını sağlayabilmektedir. Bu çalışma bir kaynak verisinin daha az şifrelemeye ihtiyaç duymasına olanak tanıyan alternatif bir yaklaşımı tanımlamaktadır. Sunulan tekniğin ana fikri $n$ bit uzunluğundaki bağımsız ve özdeşçe dağıtılmış girdi bit dizisini, önceden belirlenmiş genellikle 6 ve 20 arasında değer alan $d$ bit uzunluğundaki bloklara bölüp işlemektir. Önek olmayan $2^d$ kod kelimeleri $[1\ldots 2^d]$ sayılarının permütasyonu ile oluşturulur, ve daha sonra girdideki her bir $d$ bit uzunluğundaki sembol kendisine karşılık gelen 1 ve d bit uzunluğu arasındaki NPF kod kelimesi ile değiştirilir. Permütasyon oluşturup, $2^d$ olası girdi kümesinin çıktı kümesine haritalanması, beraberinde ayrı bir güvenliği daha getirmektedir. Girdi ile çıktı arasında yapılan haritalanmanın bilinememesi durumunda, kod kelimeleri sınırlarının bilinmesi durumunda dahi, orjinal veriye geri dönüş işlemi kolay olmayacaktır. Yapılan permütasyon ile aynı girdi, $2^d!$ farklı çıktı ile sonuçlanabilmektedir. Üretilen bit akışı asıl içeriği barındırdığından \textit{faydalı yük} olarak adlandırılmıştır. Bu sekans, NPF kodların kendine has belirsizliği nedeniyle kod kelimelerinin sınırları bilinmeden eşsiz bir şekilde deşfirlenemez. Bu nedenle, kod kelimelerinin sınırlarını tutmak üzere efektif bir gösterime ihtiyaç duyulmaktadır. Bu çalışma boyunca ortaya çıkan ikinci bit akışı \textit{belirginleştirme bilgisi} olarak anılmıştır. Önerilen kod dizgisinde, faydalı yük ve belirginleştirme bilgisi tarafından kullanılan toplam alan her orijinal bit başına $2(d-1)/d\cdot 2^d \approx \frac{1}{2^{d-1}}$ miktarınca fazla yük oluşturmaktadır. Bu fazla yük $d$ sayısı yükseldikçe ihmal edilebilecek düzeye düşmektedir, örneğin $d=8$ olduğunda her bin bit başına 7 bitten az fazla yük oluşmaktadır. Ortaya çıkan son gösterim üzerinden faydalı yükün $\approx \frac{(d-2)}{d}$ ve belirginleştirme bilgisinin $\approx \frac{2}{d}$ oranınca yer kapladığı ispatlanmıştır. Toplamda iki bölümün toplamının neredeyse girdi verisiyle aynı miktarda yer kapladığı gösterilmiştir. Yer kaplama analizini takriben, belirginleştirme bilgisinden payload hakkında ne kadar bilgi edilebileceği ve tam tersi durum incelenmiştir. İnceleme sonucunda bir elementin şifrelenmesinin ve diğer parçanın olduğu gibi bırakılmasının, verinin gizliliği konusunda bir açıklık oluşturmayacağı gözlemlenmiştir. Belirginleştirme bilgisi daha az yer kapladığından dolayı, bu bölümün şifrelenip faydalı yükün olduğu gibi bırakılması daha ideal olmaktadır. Fakat aynı zamanda faydalı yükün şifrelenip, belirginleştirme bilgisinin olduğu gibi bırakılması da, toplamda şifrelenmesi gereken veri miktarını azaltmaktadır. Unutulmamalıdırki yapılan çalışma, girdi bit akışının bağımsız ve özdeşçe dağıtılmış olduğunu var saymaktadır ve ilk bakışta bu durumun kısıtlayıcı olduğu düşünülebilir. Ancak bahsedilen methodun hedeflediği veri tipleri; mpeg4 formatında video dosyaları, mp3 formatındaki ses dosyaları ve benzer formatlar gibi önceden entropi kodlanmış dosyalar olabilmektedir. Herhangi bir kayıpsız veri sıkıştırma yöntemi, her bir sembol Shannon'un teoremine göre sembolün entropisine olabildiğince yakın sayıda bit ile ifade edilmesi durumunda, entropi kodlanmış olarak ifade edilmektedir. Bu tarz sıkıştırma işleminden geçirilip entropisine kadar küçültülebilen dosyalar önerilen yöntem için ideal girdiyi sağlamaktadır. Bu gözlem, farklı tipteki sıkıştırılmış veri tipleri üzerinde yapılan deney sonuçlarının tekdüze, bağımsız ve özdeşçe dağıtılmış olarak kabul edilen verinin teorik limitine çok yakın sonuç vermesiyle desteklenmiştir. Bu sebepten ötürü, teklif edilen kodlama yöntemi sıkıştırılmış verilerin gizliliğini korumak için de kullanılabilecek bir yöntem olarak göze çarpmaktadır.

Özet (Çeviri)

Technological advancements made in the last decades are getting increasingly faster. These progressions allow electronic devices to involve in people's daily lives more and more, whether it is personal or business. More data is generated progressively with the increase of used equipment and processing power. Whatever the source of the generated data, which can be a photograph taken or a signal generated from a sensor, needs to be stored. When the data gets too large, it starts to become infeasible to store in a single device. If the generated data is sensitive, it needs to be stored in a way that preserves privacy as well. Although there are several algorithms and methods to encrypt data, most of these take advantage of prefix-free or fixed-length coding techniques. In this study, a path that has not been explored widely is researched, and a coding scheme that uses non-prefix-free (NPF) coding is proposed to preserve privacy. This study mainly focuses on massive high entropy data, such as compressed files, encoded video or similar multimedia files. Prefix-free codes can be determined uniquely without prior knowledge of the keyword length. The reason these codes have this property is, a codeword cannot be a prefix of another codeword. Non-prefix-free codes lack this unique decodability, and therefore their codeword lengths must be known beforehand. A stream of non-prefix-free codes cannot be decoded without knowing the keyword boundaries of each codeword. Due to the non-unique decodability feature, not much research has been performed on this field. The proposed coding scheme in this study suggests splitting giving data into two elements, one of them being the payload and the other one being the disambiguation information. The payload is a file that stores NPF code-words of given data according to the proposed NPF coding scheme. Disambiguation information stores the keyword boundaries of each code-words stored in the payload. Disambiguation information must be uniquely decodable for NPF decoder to read the codeword boundaries. Finding an efficient way of representing this information is essential in NPF coding schemes. After codeword boundaries are read from the disambiguation information, the payload can be uniquely decodable. Investigated research avenue led to storing massive high-entropy data in a distributed fashion while preserving privacy. Instead of traditional ways of approaching security by encrypting the whole data, with the proposed approach of encrypting only a small portion of the data, mainly the disambiguation information, decreases the time and operational power taken to secure massive loads. Even though if disambiguation information is not encrypted and stored in different storage than the payload, the security of the data is still achieved.

Benzer Tezler

Tez No
220664
Privacy protecting biometric authentication systems
Kişisel gizliliği sağlayan biyometrik doğrulama sistemleri
ALİSHER KHOLMATOV
Doktora
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Mühendisliği Bölümü
DOÇ. DR. BERRİN YANIKOĞLU
Tez No
953595
Finans alanında veri mahremiyeti yöntemleri: Federe öğrenme ve sentetik veri üretimi
Data privacy methods in finance: Federated learning and synthetic data generation
ELİF ÖZCAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
Tez No
931418
Yapay zeka ile meme kanseri teşhisi
Breast cancer diagnosis with artificial intelligence
İLKER ÇAKAR
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Sakarya Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED KÜRŞAD UÇAR
Tez No
967856
Area-time product efficient RNS polynomial base extension on FPGA
Alan-zaman faktörü açısından verimli RNS polinom taban genişletme FPGA donanımı
SELİM KIRBIYIK
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. ERKAY SAVAŞ
Tez No
774189
Answering spatial density queries under local differential privacy
Konumsal yoğunluk sorgularının lokal diferansiyel mahremiyet korumalı cevaplanması
EKİN TİRE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET EMRE GÜRSOY

Geri Dön