Geri Dön

Private search over big data leveraging distributed file system and parallel processing

Büyük veri üzerinde dağıtık dosya sistemi ve paralel işleme kullanarak mahremiyet korumalı arama

  1. Tez No: 392239
  2. Yazar: AYŞE SELÇUK
  3. Danışmanlar: PROF. DR. ERKAY SAVAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 63

Özet

Son zamanlarda, yeni teknolojilerin daha yaygın hale gelmesiyle, çok büyük miktarda veri çok hızlı bir şekilde üretilmeye ve güvenilir olmayan sunucularda depolanmaya başlandı. Büyük veri kavramı sadece veri kümesinin olağanüstü boyutunu değil, aynı zamanda yüksek veri oluşum hızını ve verilerin çok çeşitli türlerde olduğunu vurgulama için kullanılır. Büyük veri, çok cazip avantajlar sağlasa da, güvenlik sorunları hala açık olan bir problemdir. Bu tezde, belli bir büyük veri uygulaması ile ilişkili güvenlik ve mahremiyet sorunlarını adresliyoruz. Bir diğer deyişle, şifreli bulut verisi üzerinde güvenli kelime-tabanlı arama işleminin büyük veri ortamından zor olduğunu vurgulayıp, bunun önündeki teknik zorlukları belirtiyoruz. Daha özel olarak ise, mahremiyet gereksinimlerinin tam olarak ortaya konabilmesi için gerekli formal tanımları veriyoruz. Ayrıca, sadece devasa değil aynı zamanda değişen ve çok hızlı biriken büyük veri ortamı için, şifreli veriler üzerinde uygulanabilir temel işlemlerden biri olan mahremiyet korumalı kelime arama işlemi üzerinde varolan bir çalışmayı uyarlıyoruz. Geliştirilen çözümler, büyük veri ortamında şifreli veriler üzerinde aramaya olanak veren güvenli endeks yapısını makul bir hız ile inşa edebilmeli, ayrıca verimli ve etkili bir kelime arama işlemi yöntemi için çok hızlı güncelleyebilmelidir. Önerdiğimiz çözümlerin, çok büyük veri kümeleri ile çalışacak şekilde ölçeklendirilebilmesi için, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve MapReduce programlama modeli gibi paralel programlama teknikleri ve dağıtık dosya sistemleri kullanılmaktadır. Dinamik olarak değişen, büyük veri kümesindeki belgelerin ilgili puanlarını verimli işleyebilen bir tembel idf güncelleme yöntemini de öneriyoruz. Gerçek veriler üzerinde gerçekleştirdiğimiz kapsamlı deneyler vasıtasıyla önerdiğimiz yöntemin etkinliğini ve doğruluğunu deneysel olarak gösteriyoruz.

Özet (Çeviri)

As the new technologies recently became widespread, enormous amount of data started to be generated in very high speeds and stored in untrusted servers. The big data concept covers not only the exceptional size of the datasets, but also high data generation rate and large variety of data types. Although the Big Data provides very tempting benefits, the security issues are still an open problem. In this thesis, we identify security and privacy problems associated with a certain big data application, namely secure keyword-based search over encrypted cloud data and emphasize the actual challenges and technical difficulties in the big data setting. More specifically, we provide definitions from which privacy requirements can be derived. In addition, we adapt an existing work on privacy-preserving keyword-based search method, which is one of the fundamental operations that can be performed over encrypted data, to the big data setting, in which, not only data is huge but also changing and accumulating very fast. Therefore, in the big data setting, a secure index that allows search over encrypted data should be constructed and updated very fast in addition to an efficient and effective keyword-based search operation method. Our proposal is scalable in the sense that it can leverage distributed file systems and parallel programming techniques such as the Hadoop Distributed File System (HDFS) and the MapReduce programming model to work with very large datasets. We also propose a lazy idf-updating method that can efficiently handle the relevancy scores of the documents in dynamically changing and large datasets. We empirically show the efficiency and accuracy of the method through extensive set of experiments on real data.

Benzer Tezler

  1. Erken Cumhuriyet Dönemi'nden günümüze İstanbul'da değişen konut söyleminin reklamlar üzerinden analizi

    Analysis of the changing housing discourse in Istanbul over advertisements from Early Republican Period to present

    PINAR ŞAHİN

    Doktora

    Türkçe

    Türkçe

    2018

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SİNAN MERT ŞENER

  2. İş ortamında oyunlaştırmanın kullanımı: Teknoloji kabul modeli

    Using the gamification in the business environment: Technology acceptance model

    NİLAY AY

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM ALTIN GÜMÜŞSOY

  3. Türkiye'de küçük ve orta boy sanayi işletmeleri

    Başlık çevirisi yok

    ERDİNÇ ERKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET BOLAK

  4. İstanbul Uzunçarşı caddesi aksında sızıntı mekanların incelenmesi

    A research of leak spaces on the Istanbul Uzuncarsı road axis

    DİLARA SENA KILIÇ YILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FATMA ERKÖK

  5. Otomatik vezne makinaları (ATMs) ve uygulamaları

    Autamated teller machines (ATMs) and applications

    A. C. BANU ÇAĞLAR

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    BankacılıkMarmara Üniversitesi

    Bankacılık Ekonomisi ve İşletmeciliği Ana Bilim Dalı

    PROF. DR. METE DOĞRUER