Robust optimization of multi-objective multi-armed bandits with contaminated bandit feedback

Çoklu kollu çoklu hedefli haydutlarda dayanıklı öğrenme

PDF İndir

Tez No: 733338
Yazar: KEREM BOZGAN
Danışmanlar: DOÇ. DR. CEM TEKİN
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 92

Özet

Çoklu hedefli, çoklu kollu haydut optimizasyonu problemi (MO-MAB), standard çoklu kollu haydut optimizasyonu probleminin (MAB) önemli bir varyasyonu olup, klinik deneylerden, çevrimici öneri sistemlerine kadar uzanan pek çok çeşitte aplikasyonda kullanılmaktadır. Bu çalışmada, karşı saldırı varlığında, çok kollu optimizasyon problemi ele alınmıştır. Her kol çekilmesinde, kol çekilmesinden elde edilen gerçek örneklem, 0 ile 0.5 arasında bir olasılıkla saldırıya maruz kalmakta ve örneklem kirlenmektedir. Ayrıca, saldırının, rastgele bir olasılık dağılımından seçilebildiği kabul edilmekte ve olasılık dağılımı üzerinde hiçbir sınırlama getirilmemektedir. Varolan MO-MAB calışmalarında önerilen metodlar, saldırı üzerinde çok katı sınırlamalar olmadığı sürece, dayanıksız kalmaktadır. Bu durum, bu algoritmaların, saldırının katı bir sınırlamaya tabi tutulmasının genellikle mümkün olmadığı, gerçek dünya problemlerinde, kötü bir performans göstermesine sebep olmaktadır. Literatürdeki bu boşluğu doldurmak için, dayanıklı, medyan temelli; Pareto setini, kirlenmiş örneklemlerden yola çıkarak, kullanıcı tarafından belirlenen isabet ve güven parametrelerine uygun olarak tahmin edebilen, iki ayrı metod önerilmiştir. Önerilen algoritmaların, tüm kollardan aldıkları toplam örneklem sayısının, isabet parametresine, ters kare orantıyla bağlı olduğu ispat edilmiştir. Bu ifade aynı zamanda, saldırı olmadığı durumu ele alan daha önceki çalışmalarda bulunan üst sınırla eşleşmektedir [1, Theorem 4], [2, Theorem 3]. Önerilen algoritma, sentetik ve gerçek veri kullanılarak yapılan deneylerle, literatürden, ortalama bazlı bir metod ile karşılaştırılmıştır. Sonuçlarımız, teorik beklentilerimizi karşılamakta ve karşı saldırı varlığında, dayanıklı öğrenmenin gerekliliğini ispat etmektedir.

Özet (Çeviri)

Multi-objective multi-armed bandits (MO-MAB) is an important extension of the standard MAB problem that has found a wide variety of applications rang- ing from clinical trials to online recommender systems. We consider Pareto set identi cation problem in the adversarial MO-MAB setting, where at each arm pull, with probability less than 0.5, an adversary corrupts the reward samples by replacing the true samples with the samples from an arbitrary distribution of its choosing. Existing MO-MAB methods in the literature are incapable of handling such attacks unless there are strict restrictions on the contamination distributions. As a result, these methods perform poorly in practice where such restrictions on the adversary are not valid in general. To ll this gap in the literature, we propose two di erent robust, median-based optimization methods that can approximate the Pareto optimal set from contaminated samples. For the proposed methods, we prove a sample complexity bound that depends on the accuracy parameter, inverse squarely. This bound matches, in the worst case, the bounds from [1, Theorem 4] and [2, Theorem 3] that consider the adversary free setting. We compare the proposed methods with a mean-based method from the MO-MAB literature on real-world and synthetic experiments. Numerical results verify our theoretical expectations and show the importance of robust algorithm design in the adversarial setting.

Benzer Tezler

Tez No
837243
Robot kolu tasarımında dinamik esnek yapı modeli kullanarak tahrik grubu ve mekanik yapının tümleşik optimizasyonu
Integrated drive-train and mechanical structure optimization using dynamic flexible structure model in robot manipulator design
MUSA ÖZGÜN GÜLEÇ
Doktora
Türkçe
2023
Makine Mühendisliği İstanbul Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. ŞENİZ ERTUĞRUL
Tez No
706493
Optimization of buckling behavior of hybrid composite beam under axial compression
Eksenel basma altındaki hibrit kompozit kirişin burkulma davranışının optimizasyonu
HAYRİ ALTINTAŞ
Yüksek Lisans
İngilizce
2021
Makine Mühendisliği İzmir Yüksek Teknoloji Enstitüsü
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE SEÇİL ARTEM
Tez No
790807
Makine öğrenmesi uygulamalarında öznitelik seçimi üzerine yeni bir yaklaşım
A new approach on feature selection in machine learning applications
EMRAH SEZER
Doktora
Türkçe
2023
Bilim ve Teknoloji İstanbul Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROL
Tez No
302450
Taşıt elemanlarının optimum tasarımı için bilgisayar destekli analiz ve simülasyon tabanlı bütünleşik bir algoritma geliştirilmesi
Developing an integrated computer aided analyses and simulation based algorithm for optimum design of vehicle components
İDRİS KAREN
Doktora
Türkçe
2011
Makine Mühendisliği Uludağ Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. FERRUH ÖZTÜRK
Tez No
959014
Afet yönetiminde geçici barınma alanlarının yer seçimi problemi için Afrika akbabası optimizasyon algoritması tabanlı bir yaklaşım
An African vulture optimization algorithm-based approach for the problem of location temporary shelters in disaster management
NAGİHAN YİĞİT
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Necmettin Erbakan Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN HAKLI

Geri Dön