Improving low-budget semi-supervised approaches for model extraction attacks
Model çıkarma saldırıları için düşük bütçeli yarı-denetimli yaklaşımların iyileştirilmesi
- Tez No: 930964
- Danışmanlar: PROF. DR. YALIN BAŞTANLAR, DR. EMRAH TOMUR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İzmir Yüksek Teknoloji Enstitüsü
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 65
Özet
Makine öğrenimi (ML) modelleri, etkinlikleri nedeniyle birçok alanda yaygın olarak kullanılmaktadır; ancak yüksek doğruluğa sahip modelleri eğitmenin maliyeti de yüksektik. Bu bağlamda, MLaaS (Machine Learning as a Service) platformları, API'ler aracılığıyla erişilebilen bulut tabanlı kara kutu modeller sunarak, model çalma saldırıları gibi güvenlik sorunlarını gündeme getirmektedir. Model çalma saldırıları, bulutta konuşlandırılmış bir makine öğrenimi modelini yalnızca kara kutu sorgulamalarıyla kopyalamayı amaçlamaktadır. Bu tez çalışmasında, etiketlenmemiş veriye erişimin kolay olduğu ancak etiketli verinin maliyetli olduğu senaryolarda, maliyet etkin ve yüksek doğruluklu bir model çalma saldırısı geliştirilmiştir. Literatürde sentetik veri setleri oluşturma, doğal veri setlerinden aktif öğrenme ile veri seçme ve yarı denetimli öğrenme gibi stratejiler önerilmektedir. Bu çalışmada ise, API üzerindeki kara kutu bir modele saldırmak için öz-denetimli öğrenen modellerden faydanılması önerilmiştir. Bu yöntemde, saldırganın geniş bir etiketlenmemiş veri havuzuna erişimi olduğu varsayılmakta ve bu veri, öz-denetimli SimCLR modelini eğitmek için kullanılmaktadır. Etiketsiz veri kümesinden belirli bir alt küme seçilir ve hedef modele sorgular gönderilerek bu veriler etiketlenir. Bu işlem sonucunda transfer veri seti oluşturulur. İlk ikame model, transfer veri setiyle SimCLR encoder'ına eklenen bir çok katmanlı algılayıcı (MLP)'nın ince ayar yapılarak eğitilmesi ile elde edilir. İkame modelin doğruluğunu artırmak için kalan etiketlenmemiş verilere otomatik etiketleme uygulanır; yüksek güvenli çıktılar doğrudan etiket olarak kullanılırken, düşük güvenli çıktılar hedef modelin etiketlediği örneklerle olan benzerliğe göre etiketlenir. Bu süreç, modelin karmaşık örüntüleri öğrenmesini ve veri çeşitliliğini artırmasını sağlayarak ikame modelin doğruluğunu hedef modele yaklaştıracak şekilde artırır. Önerilen methodun verimliliği CIFAR10 ve SVHN datasetleri üzerinde deneyler yapılarak verilmiştir.
Özet (Çeviri)
Machine learning (ML) models are widely adopted across numerous fields due to their effectiveness; however, training high-accuracy models often involves substantial costs. To address this, Machine Learning as a Service (MLaaS) platforms provide cloud-based, black-box models accessible through APIs (Application Programming Interface), which raises security concerns like model extraction attacks (MEA). An MEA seeks to replicate a cloud-deployed ML model solely using black-box queries. This thesis proposes a cost-effective and accurate model extraction attack where unlabeled data is readily available, but labeled data is costly. Existing literature suggests strategies such as creating synthetic datasets, selecting data via active learning, and using semi-supervised learning. This thesis instead adopts a self-supervised learning approach for attacking a black-box model via an API. The method assumes the adversary access to a large pool of unlabeled data, which is used to train a self-supervised SimCLR model. A subset of the unlabeled data is queried through the target model to create a transfer dataset, which fine-tunes a multi-layer perceptron (MLP) added to the SimCLR encoder, forming the baseline substitute model. To enhance the substitute model accuracy, automatic labeling assigns high-confidence predictions directly as labels to the unlabeled data, while low-confidence samples are labeled based on similarity to target-labeled data. Incorporating high-entropy data during training enables the model to capture complex patterns and increase data diversity, ultimately enhancing the substitute model's accuracy. The method's effectiveness is demonstrated through experiments on CIFAR-10 and SVHN datasets.
Benzer Tezler
- Özelleştirme ve özelleştirmede yatırım bankalarının rolü ve Petlas uygulamalı örneği
Privatization and the role of investment banks in the privatization process and Petlas case study
GONCA KARAÜÇ
- İnşaat sektöründe planlama ve kontrol iş akış süreçlerinin yapı enformasyonu modellemesi (BIM) kullanılarak etkinleştirilmesi: Kavramsal bir model önerisi
Improving planning and control workflow process with BIM: A conceptual model proposal
AYŞEN SARAÇ ÇIRACIOĞLU
- Gecekondu ve yarı gecekondularda morfolojik analiz
A Morphological analysis on squatters and semi-squatters
PELİN DURSUN
- Yönetici hemşirelerin hemşireleri işe alma ve işte tutmaya ilişkin görüşleri: Niteliksel bir çalışma
Opinions of the nurse managers on recruitment and retention of nurses: A qualitative study
TUĞBA YEŞİLYURT
Doktora
Türkçe
2018
Hemşirelikİstanbul Üniversitesi-CerrahpaşaHemşirelikte Yönetim Ana Bilim Dalı
PROF. DR. ÜLKÜ BAYKAL
- Exploring opinions of corporate instructional designers on their professional development and training needs
Kurumsal öğretim tasarımcılarının mesleki gelişim ve eğitim ihtiyaçları konusundaki görüşlerinin araştırılması
NAZLI GÖKALP
Yüksek Lisans
İngilizce
2025
Eğitim ve ÖğretimOrta Doğu Teknik ÜniversitesiEğitim Programları ve Öğretimi Ana Bilim Dalı
DR. ELİF ÖZTÜRK