Private search over big data leveraging distributed file system and parallel processing

Büyük veri üzerinde dağıtık dosya sistemi ve paralel işleme kullanarak mahremiyet korumalı arama

PDF İndir

Tez No: 392239
Yazar: AYŞE SELÇUK
Danışmanlar: PROF. DR. ERKAY SAVAŞ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: İngilizce
Üniversite: Sabancı Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 63

Özet

Son zamanlarda, yeni teknolojilerin daha yaygın hale gelmesiyle, çok büyük miktarda veri çok hızlı bir şekilde üretilmeye ve güvenilir olmayan sunucularda depolanmaya başlandı. Büyük veri kavramı sadece veri kümesinin olağanüstü boyutunu değil, aynı zamanda yüksek veri oluşum hızını ve verilerin çok çeşitli türlerde olduğunu vurgulama için kullanılır. Büyük veri, çok cazip avantajlar sağlasa da, güvenlik sorunları hala açık olan bir problemdir. Bu tezde, belli bir büyük veri uygulaması ile ilişkili güvenlik ve mahremiyet sorunlarını adresliyoruz. Bir diğer deyişle, şifreli bulut verisi üzerinde güvenli kelime-tabanlı arama işleminin büyük veri ortamından zor olduğunu vurgulayıp, bunun önündeki teknik zorlukları belirtiyoruz. Daha özel olarak ise, mahremiyet gereksinimlerinin tam olarak ortaya konabilmesi için gerekli formal tanımları veriyoruz. Ayrıca, sadece devasa değil aynı zamanda değişen ve çok hızlı biriken büyük veri ortamı için, şifreli veriler üzerinde uygulanabilir temel işlemlerden biri olan mahremiyet korumalı kelime arama işlemi üzerinde varolan bir çalışmayı uyarlıyoruz. Geliştirilen çözümler, büyük veri ortamında şifreli veriler üzerinde aramaya olanak veren güvenli endeks yapısını makul bir hız ile inşa edebilmeli, ayrıca verimli ve etkili bir kelime arama işlemi yöntemi için çok hızlı güncelleyebilmelidir. Önerdiğimiz çözümlerin, çok büyük veri kümeleri ile çalışacak şekilde ölçeklendirilebilmesi için, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve MapReduce programlama modeli gibi paralel programlama teknikleri ve dağıtık dosya sistemleri kullanılmaktadır. Dinamik olarak değişen, büyük veri kümesindeki belgelerin ilgili puanlarını verimli işleyebilen bir tembel idf güncelleme yöntemini de öneriyoruz. Gerçek veriler üzerinde gerçekleştirdiğimiz kapsamlı deneyler vasıtasıyla önerdiğimiz yöntemin etkinliğini ve doğruluğunu deneysel olarak gösteriyoruz.

Özet (Çeviri)

As the new technologies recently became widespread, enormous amount of data started to be generated in very high speeds and stored in untrusted servers. The big data concept covers not only the exceptional size of the datasets, but also high data generation rate and large variety of data types. Although the Big Data provides very tempting benefits, the security issues are still an open problem. In this thesis, we identify security and privacy problems associated with a certain big data application, namely secure keyword-based search over encrypted cloud data and emphasize the actual challenges and technical difficulties in the big data setting. More specifically, we provide definitions from which privacy requirements can be derived. In addition, we adapt an existing work on privacy-preserving keyword-based search method, which is one of the fundamental operations that can be performed over encrypted data, to the big data setting, in which, not only data is huge but also changing and accumulating very fast. Therefore, in the big data setting, a secure index that allows search over encrypted data should be constructed and updated very fast in addition to an efficient and effective keyword-based search operation method. Our proposal is scalable in the sense that it can leverage distributed file systems and parallel programming techniques such as the Hadoop Distributed File System (HDFS) and the MapReduce programming model to work with very large datasets. We also propose a lazy idf-updating method that can efficiently handle the relevancy scores of the documents in dynamically changing and large datasets. We empirically show the efficiency and accuracy of the method through extensive set of experiments on real data.

Benzer Tezler

Tez No
496503
Erken Cumhuriyet Dönemi'nden günümüze İstanbul'da değişen konut söyleminin reklamlar üzerinden analizi
Analysis of the changing housing discourse in Istanbul over advertisements from Early Republican Period to present
PINAR ŞAHİN
Doktora
Türkçe
2018
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. SİNAN MERT ŞENER
Tez No
600843
İş ortamında oyunlaştırmanın kullanımı: Teknoloji kabul modeli
Using the gamification in the business environment: Technology acceptance model
NİLAY AY
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM ALTIN GÜMÜŞSOY
Tez No
75375
Türkiye'de küçük ve orta boy sanayi işletmeleri
Başlık çevirisi yok
ERDİNÇ ERKAN
Yüksek Lisans
Türkçe
1998
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET BOLAK
Tez No
800594
İstanbul Uzunçarşı caddesi aksında sızıntı mekanların incelenmesi
A research of leak spaces on the Istanbul Uzuncarsı road axis
DİLARA SENA KILIÇ YILMAZ
Yüksek Lisans
Türkçe
2023
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
DOÇ. DR. FATMA ERKÖK
Tez No
30842
Otomatik vezne makinaları (ATMs) ve uygulamaları
Autamated teller machines (ATMs) and applications
A. C. BANU ÇAĞLAR
Yüksek Lisans
Türkçe
1994
Bankacılık Marmara Üniversitesi
Bankacılık Ekonomisi ve İşletmeciliği Ana Bilim Dalı
PROF. DR. METE DOĞRUER

Geri Dön