A novel approach for generating instance-based plausible and proximate counterfactual explanations
Örnek tabanlı makul ve yakın karşı olgusal açıklama üretmeye dayalı yeni bir yaklaşım
- Tez No: 943356
- Danışmanlar: DR. ÖĞR. ÜYESİ ERKAN IŞIKLI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Veri Mühendisliği ve İş Analitiği Ana Bilim Dalı
- Bilim Dalı: Büyük Veri ve İş Analitiği Bilim Dalı
- Sayfa Sayısı: 115
Özet
Günümüzde makine öğrenimi ve yapay zekâ modelleri giderek daha karmaşık hale gelmektedir. Model karmaşıklığının artması, bu modellerin nasıl ve neden belirli kararlar verdiğini anlamayı zorlaştırmaktadır. Bu durum, özellikle yüksek riskli karar alma süreçlerinde açıklanabilirlik ve yorumlanabilirlik konularını giderek daha önemli hale getirmiştir. Açıklanabilir yapay zekâ (XAI) alanındaki gelişmeler, sadece modellerin iç işleyişini anlamaya yönelik bir çaba olmanın ötesinde, aynı zamanda adalet (fairness), hesap verilebilirlik ve etik kaygılar gibi konularla da doğrudan ilişkilidir. Özellikle tıbbi teşhis, kredi değerlendirme ve işe alım gibi kritik alanlarda, yapay zekâ sistemlerinin kararlarını şeffaf hale getirme gerekliliği, bu alandaki araştırmaları hızlandırmıştır. Açıklanabilirlik üzerine yapılan çalışmalar zaman içinde çeşitlenmiş ve farklı yöntemler geliştirilmiştir. Genel olarak, literatür iki ana kategoriye ayrılabilir: global ve lokal açıklanabilirlik yöntemleri. Global açıklanabilirlik, bir modelin genel yapısını ve karar alma süreçlerini anlamaya odaklanırken, lokal açıklanabilirlik ise belirli bir girdiye yönelik modelin verdiği çıktıyı anlamaya çalışır. Önemli bir araştırma grubu, modellerin ve bağımsız değişkenlerin genel yapılarını analiz ederek global ölçekte bağımsız değişken önem sıralaması belirlemeye yönelik yöntemler geliştirmiştir. Ancak, bazı çalışmalar modelin genel yapısını anlamaktan ziyade, tekil gözlemler üzerinden açıklamalar üretmeyi amaçlayan lokal açıklanabilirlik yöntemlerine odaklanmıştır. Karşı olgusal açıklamalar (counterfactual explanations), lokal açıklanabilirlik yöntemleri içerisinde önemli bir yere sahiptir. Karşı olgusal açıklamalar, bir modelin belirli bir girdiye verdiği çıktının nasıl değiştirilebileceğini anlamaya yönelik bir yöntemdir. Temel olarak,“Model tahminini değiştirmek için yapılması gereken minimum değişiklikler nelerdir?”sorusuna yanıt arar. Diğer açıklanabilirlik yöntemlerinden farklı olarak, kullanıcıya sadece mevcut kararın nedenini anlatmakla kalmaz, aynı zamanda istenen bir sonuca ulaşmak için hangi değişikliklerin yapılması gerektiğini de gösterir. Bu yönüyle, bireylerin yapay zekâ sistemlerinin kararlarını anlamalarına ve bu kararları sorgulamalarına olanak tanır. Özellikle bireylerin haklarını doğrudan etkileyen finans, sağlık, hukuk, sigortacılık ve perakende gibi alanlarda karşı olgusal açıklamalarının kullanımı giderek artmaktadır. Örneğin, sağlık sektöründe bir hastaya belirli bir teşhisin konulma sebebi açıklanabilirken, hastanın durumu değiştirmek için neleri farklı yapması gerektiği de gösterilebilir. Örneğin, bir diyabet hastasına yönelik teşhis modelinin,“Eğer hastanın vücut kitle indeksi şu seviyeye inseydi ve günlük fiziksel aktivitesi belirli bir oranda artsaydı, teşhis değişebilirdi”gibi açıklamalar sunması mümkündür. Bu tür açıklamalar, hastalara daha bilinçli sağlık kararları alma konusunda rehberlik edebilir. Benzer şekilde, kredi riski değerlendirmesinde, bir banka müşterisinin kredi başvurusu reddedildiğinde, bankanın sunduğu karşı olgusal açıklamaları müşteriye hangi kriterleri sağlaması gerektiğini gösterebilir. Örneğin,“Eğer gelir seviyeniz %10 daha yüksek olsaydı veya kredi geçmişinizdeki gecikmeler üç aydan kısa sürede tamamlanmış olsaydı, kredi başvurunuz onaylanabilirdi”gibi açıklamalar sunulabilir. Bu, müşterinin finansal durumunu iyileştirmesi için somut adımlar atmasına yardımcı olabilir. Örneklerden de anlaşılabileceği üzere karşı olgusal açıklamaların başarılı olabilmesi için belirli özelliklere sahip olması gerekmektedir. Öncelikle, açıklamaların olabildiğince minimal değişikliklere sebep olması beklenir. Yani, mevcut girdiler üzerinde en az sayıda ve en küçük değişiklikleri yaparak istenen sonuca ulaşılması amaçlanır. Bu hem açıklamaların yorumlanabilirliğini artırır hem de kullanıcıların karar süreçlerini anlayarak önerilen aksiyonları daha kolay bir şekilde almasını sağlar. Bunun yanı sıra, önerilen değişikliklerin pratikte uygulanabilir olması da bir o kadar önemlidir. Gerçek hayatta gerçekleştirilemeyecek değişiklikler öneren bir açıklama, kullanıcılara rehberlik etmekten uzaklaşır. Bu özellikler, karşı olgusal açıklama yaratma sürecini, hedefin minimal değişiklik olduğu bir optimizasyon problemine dönüştürmektedir. Literatürde bu probleme yönelik çeşitli yaklaşımlar geliştirilmiştir. Bir grup araştırma probleme tamamen optimizasyon bakış açısıyla yaklaşarak ana amaç olarak minimal değişikliği belirlemiş ve bunu en iyi şekilde sağlayabilecek yöntemi aramıştır. Bunun yanı sıra bazı çalışmalar, ikincil hedef olarak veya optimizasyon sürecinde kısıt olarak makullüğü ve pratikte uygulanabilirliği sağlamayı hedeflemiştir. Bu tezde izlenen yaklaşım, modelin eğitildiği veriye dayalı olarak açıklamalar üretmeyi amaçlamaktadır. Bu alanda yapılan çalışmalar, minimal değişiklik hedefinden belli oranda fedakârlık ile birlikte daha uygulanabilir ve daha makul karşı olgusal açıklamalar bulmaya odaklanmaktadır. Uygulanabilirliği ikincil hedef olarak sürece dahil eden yöntemlerin aksine, modelin eğitildiği veri setinin optimizasyon sürecinde kullanılması ile birlikte, önerilen değişiklikler doğal olarak veri dağılımıyla uyumlu olacak ve gerçek dünyada karşılaşılması mümkün olmayan açıklamalardan kaçınılacaktır. Bu yöntemde, öncelikle açıklanmak istenen gözleme en yakın ancak model tarafından farklı bir sınıfa atanmış gözlem veya gözlemler kümesi seçilir. Daha sonra, seçilen en yakın gözlem ile açıklanmak istenen gözlem arasındaki farklılaşan bağımsız değişkenler belirlenerek bir arama uzayı oluşturulur. Bayesci optimizasyon yöntemi kullanılarak, bu arama uzayı taranır ve en uygun karşıt-gerçeklik örneği bulunur. Bu yaklaşım, modelin eğitildiği veri setine dayandığı için pratikte uygulanabilir açıklamalar üretirken, Bayesci optimizasyon ile en uygun örneği aradığı için de minimal değişikliği hedeflemektedir. Böylece, açıklamalar hem gerçekçi hem de kullanıcıya anlamlı bir yol gösterici nitelikte olmaktadır. Önerilen yöntem, farklı durumlarda uygulanabilirlik ve esneklik sağlamaktadır. Modelden bağımsız bir yapıya sahip olup, çizelge veri ile eğitilmiş ikili sınıflandırma problemleri için kullanılabilir. Ayrıca hem sayısal hem de kategorik bağımsız değişkenleri desteklemektedir. Bunun yanı sıra, yöntemin kendi hiper parametreleri de esneklik sağlamaktadır. Seçilecek modelin eğitildiği veri setinden seçilecek gözlem kümesinin boyutu, Bayesci optimizasyonun iterasyon sayısı ve kullanılacak uzaklık metriği gibi çeşitli parametreler değiştirilebilir olup, bu çalışmada bu parametrelerin farklı performans metrikleri üzerindeki etkileri de test edilmiştir. Böylece, yöntemin farklı senaryolarda nasıl çalıştığına dair kapsamlı bir analiz sunulmuştur. Çalışmanın değerlendirilmesinde kullanılan performans metrikleri, önerilen yöntemin farklı özelliklerini ölçmede yardımcı olacak şekilde seçilmiştir. Minimal değişikliği ölçmek için yakınlık metriği olarak Öklid uzaklığı ile nümerik değişkenlerde değişikliğin büyüklüğü ölçülmüş, Gower uzaklığı ise hem kategorik hem de nümerik değişkenler arasındaki farklılaşmayı ölçmeye yarayacak hibrit bit metrik olarak kullanılmıştır. Bu iki metrik değişikliğin büyüklüğüne odaklanırken, yapılması gereken değişiklik adedini göz ardı etmektedir. Minimal değişikliğin bir diğer ayağı da olabildiğince az bağımsız değişkeni değiştirerek karşı olgusal açıklama yaratmaktır. Bu özellik, Hamming uzaklığı ile ölçülmüş ve sonuçlar incelenmiştir. Burada kullanılan metriklerin bir ortak özelliği açıklanmak istenen örnek ile üretilen karşı olgusal açıklama arasındaki mesafeyi ölçmede kullanılmalarıdır. Karşı olgusal açıklamaların makullüğünün değerlendirilmesi genellikle literatürde üretilen açıklama ile modelin eğitildiği veri setinin kıyası üzerinden yapılmaktadır. Bu çalışmada da bu amaçla literatüre ile benzer olacak şekilde Mahalanobis uzaklığı ölçülmüş ve bu mesafeye göre üretilen açıklamaların veri setinin dağılımından ne kadar ayrıştığı ölçülmüştür. Bu metriğin yanı sıra tek sınıflı destek vektör algoritması ile de üretilen karşı olgusal açıklamanın veri setiyle uyumlu mu yoksa aykırı bir değer mi olduğu değerlendirilmiştir. Yöntemin seçilen bazı varyasyonları, literatürde benzer amaçlar için yaratılmış diğer karşı olgusal açıklama üretim yöntemleri ile farklı veri setleri üzerinde kıyaslanmış ve diğer yöntemlere göre güçlü ve zayıf yönleri yine farklı performans metrikleri ile test edilmiştir. Özellikle üretilen açıklamaların veri setine yakınlığı konusunda, önerilen yöntemin literatürdeki diğer yöntemlere kıyasla daha iyi sonuçlar verdiği gözlemlenmiştir. Bütün bunların yanı sıra ikincil bir analiz konusu olarak, karşı olgusal açıklama yönteminin lokal açıklamanın yanında her ne kadar ana amacı olmasa da global açıklama üretme konusunda da kullanılabilecek potansiyelinin olduğu gösterilmiştir. Karşı olgusal açıklamaların bu özelliğinin de ileride daha detaylı incelenmeye değer olduğu, SHAP gibi literatürdeki önde gelen global açıklama yöntemleri ile korelasyonları da sunulmuş ve kayda değer sonuçları gösterilmiştir. Bu çalışma, karşı olgusal açıklamaların yapay zekâ modellerinin yorumlanabilirliğine nasıl katkı sağlayabileceğini araştırmaktadır. Önerilen yöntem, açıklamaların gerçekçi ve makul olmasını sağlarken, minimal değişiklik ilkesini gözeterek kullanıcıya anlamlı geri bildirim sunmayı hedeflemektedir. Yapay zekâ sistemlerinin giderek daha fazla alanda karar alma süreçlerine entegre olduğu düşünüldüğünde, bu tür açıklanabilirlik yaklaşımlarının önemi artmaktadır. Gelecekte, karşıt-gerçeklik açıklamalarının farklı model türleri ve veri yapılarıyla nasıl daha etkin hale getirilebileceği üzerine çalışmalar yapılabilir. Böylece, daha şeffaf, adil ve güvenilir yapay zekâ sistemleri geliştirilmesine katkı sağlanabilir.
Özet (Çeviri)
Today's machine learning and AI models are becoming increasingly complex, making it difficult to understand how and why they make certain decisions. This has elevated the importance of explainability and interpretability, especially in high-risk decision-making processes. Developments in Explainable AI (XAI) extend beyond understanding model mechanisms to address fairness, accountability, and ethics. In critical areas like medical diagnosis, credit assessment, and recruitment, the need for transparent AI decision-making has accelerated research. Explainability research has diversified over time, generally falling into two categories: global and local explainability methods. Global methods focus on understanding a model's overall structure and decision processes, while local methods examine specific inputs and outputs. While some researchers have developed methods for ranking feature importance at a global scale, others have focused on generating explanations for individual observations. Counterfactual explanations (CFEs) hold a significant and unique place among local explainability methods. They aim to understand how changing specific inputs would affect a model's output, essentially answering:“What are the minimum changes that needs to be done to change the model's outcome?”Unlike other methods, counterfactuals not only explain current decisions but also show what changes would be needed to achieve a desired outcome, allowing individuals to understand and question AI decisions. The use of CFEs is growing in finance, healthcare, law, insurance, and retail which are the areas directly affecting individual rights. For example, in healthcare, diagnosis models could explain:“If the patient's body mass index decreased to this level and daily physical activity increased by this amount, the diagnosis might change.”Similarly, in credit risk assessment, explanations like:“If your income were 10% higher or your credit history delays were completed in less than three months, your application could have been approved”provide actionable guidance. For CFEs to succeed, they need certain characteristics. They should involve minimal changes; the smallest number and magnitude of modifications needed to achieve the desired outcome. This enhances interpretability and makes it easier for users to understand and implement recommendations. Additionally, proposed changes must be plausible and practically feasible. These requirements transform CFE generation into an optimization problem aimed at similarity. Various approaches have been developed: some focus primarily on minimal change, while others incorporate feasibility as a secondary goal or constraint during optimization. This thesis proposes an approach that generates explanations based on the model's training sample. Unlike methods that treat feasibility as a secondary goal, using the training dataset in the optimization process ensures that proposed changes inherently align with data distribution, avoiding unrealistic explanations. The method first selects observations from the training data that are closest to the instance being explained but classified differently. Then, it identifies differentiating features between these observations to create a search space. Using Bayesian optimization, this space is explored to find the optimal counterfactual example. This approach aims for minimal change while ensuring practical feasibility. The proposed method offers flexibility and applicability in different situations. It's model-agnostic and works for binary classification problems with tabular data, supporting both numerical and categorical variables. Various parameters can be adjusted, including the number of observations selected from the training data, Bayesian optimization iterations, and distance metrics. Performance metrics were chosen to measure different aspects of the method. To evaluate proximity, the Euclidean distance measured numerical feature changes, while the Gower distance served as a hybrid metric for both categorical and numerical variables. On the other hand, the Hamming distance was used to measure the sparsity of the generated CFEs which can be described as number of features that needs to be changed. For assessing plausibility, the Mahalanobis distance and one-class support vector algorithm were used to evaluate how well the generated counterfactuals aligned with the data distribution. Comparisons with other methods across different datasets showed that the proposed approach performs particularly well in generating counterfactuals that align closely with the training data distribution. Additionally, the study demonstrated the method's potential for global explanation despite its primary focus on local explanation. Correlations with state-of-the-art global explanation methods like SHAP were presented, showing noteworthy results. This work investigates how CFEs can contribute to AI model interpretability, aiming to provide realistic explanations with minimal changes. As AI systems increasingly integrate into decision-making processes, such explainability approaches become more important. Future research could explore how to make CFEs more effective with different model types and data structures, contributing to more transparent, fair, and reliable AI systems.
Benzer Tezler
- Generating runtime verification specifications based on static code analysis alerts
Statik kod analiz uyarılarından koşum zamanı doğrulama belirtimlerinin oluşturulması
YUNUS KILIÇ
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. HASAN SÖZER
- Novel centrality, topology and hierarchical-aware link prediction in dynamic networks
Dinamik ağlarda merkezilik, topoloji ve hiyerarşik tabanlı bağlanti tahmini
ABUBAKHARI SSERWADDA
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
YRD. DOÇ. ALPER ÖZCAN
- Optimization based polyhedral region approach for multi-class data classification problem
Çok gruplu veri sınıflandırması problemi için eniyileme tabanlı çokyüzlü bölge yaklaşımı
FATİH RAHİM
Doktora
İngilizce
2019
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği ve İşletme Yönetimi Bilim Dalı
PROF. DR. METİN TÜRKAY
- Can veri yolu haberleşme protokolüne sahipelektrikli araçlara yapılan siber saldırıları derinöğrenme yöntemleri ile tespiti
Detection of cyber attacks on electric vehicles withcan-bus communication protocol using deep learni̇ngmethods
EMRE TÜFEKCİOĞLU
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik MühendisliğiBursa Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAKAN GÜRKAN
PROF. DR. CEMAL HANİLÇİ
- Unified anomaly detection in static graphs using randomized adversarial network
Statik çizgelerde rastgeleleştirilmiş saldırgan ağ kullanarak bütünleşik anomali tespiti
AHMET TÜZEN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN