Geri Dön

Analysis of gender bias in legal texts using natural language processing methods

Hukuki metinlerdeki cinsiyetçi önyargının doğal dil işleme metotlarıyla analizi

  1. Tez No: 828298
  2. Yazar: NURULLAH SEVİM
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYKUT KOÇ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 98

Özet

Kelime temsilleri, doğal dil işlemede (NLP) sıkça kullanılan önemli yapı taşları haline gelmiştir. Çeşitli avantajlarına rağmen, kelime temsilleri, üzerinde eğitildikleri derlemlerde bulunan bazı cinsiyet ve etnik kökene dayalı önyargıları istemeden barındırabilir. Kelime temsilleri birçok üst düzey algoritmada yaygın olarak kullanıldığından etik kaygılar ortaya çıkmıştır. Ayrıca, dönüştürücü tabanlı bağlamsallaştırılmış dil modelleri, çeşitli doğal dil işleme (NLP) görevlerinde ve uygulamalarında en son teknolojiyi oluşturmaktadır. Yararlarına rağmen, bağlamsallaştırılmış modeller, eğitim derlemleri genellikle insan tarafından üretilen metinlerden oluştuğu için insan benzeri sosyal önyargılar içerebilir. NLP modellerinde sosyal önyargıları değerlendirmek ve ortadan kaldırmak, devam eden ve öne çıkan bir araştırma çabası olmuştur. Buna paralel olarak, hukuk alanındaki NLP yaklaşımları, yani yasal NLP veya hesaplama hukuku da son zamanlarda sıkça çalışılan alanlardır. Hukuk alanında istenmeyen önyargıların ortadan kaldırılması iki kat önemlidir, çünkü hukukun insanlar üzerindeki önemi ve etkisi en üst düzeydedir. Cinsiyet yanlılığı sorununa yasal metin işleme alanı kapsamında yaklaşmaktayız. Çalışmamızın ilk aşamasında, Word2Vec ve GloVe gibi geleneksel kelime yerleştirmelerdeki cinsiyet yanlılığına odaklandık. Yasal belgelerdeki cinsiyet yanlılığını ölçmek ve ortadan kaldırmak için farklı ülkelerdeki yasal belgeler ve mevzuattan oluşan derlemler üzerinde eğitilen kelime temsilleri modelleri kullanılmıştır. Cinsiyet önyargısının derecesini ortaya çıkarmak ve ülkeler arasındaki değişimini gözlemlemek için çeşitli yöntemler kullanılmıştır. Ayrıca, istenmeyen önyargıyı etkisiz hale getirmek için bir önyargısızlaştırma yöntemi kullanılmıştır. Saptırılmış vektör uzayının anlamsal tutarlılığının korunduğu, üst düzey görevler kullanılarak da gösterilmiştir. İkinci aşamada, BERT tabanlı modellerde kodlanan cinsiyet yanlılığını inceledik. FBI veri tabanından suç sözcükleri kullanan bir önyargı değerlendirme külliyatı ile şablon tabanlı yeni bir önyargı ölçüm yöntemi önerdik. Bu yöntem, yasal uygulamalar için BERT tabanlı modellerde bulunan cinsiyet yanlılığını ölçmektedir. Ayrıca, yasal olarak önceden eğitilmiş modellerin önyargısını gidermek için Avrupa İnsan Hakları Mahkemesi (AİHM) külliyatını kullanan ince ayara dayalı bir önyargı azaltma yöntemi önerdik. Önyargısızlaştırma işlemi sırasında altta yatan semantik vektör uzayının bozulmadığını doğrulamak için LexGLUE kıyaslamasında önyargısız modelleri test ettik. Son olarak, genel sonuçlar ve bunların yansımaları, yasal alanda NLP kapsamında tartışılmıştır.

Özet (Çeviri)

Word embeddings have become important building blocks that are used profoundly in natural language processing (NLP). Despite their several advantages, word embeddings can unintentionally accommodate some gender- and ethnicity-based biases that are present within the corpora they are trained on. Therefore, ethical concerns have been raised since word embeddings are extensively used in several high level algorithms. Furthermore, transformer-based contextualized language models constitute the state-of-the-art in several natural language processing (NLP) tasks and applications. Despite their utility, contextualized models can contain human-like social biases as their training corpora generally consist of human-generated text. Evaluating and removing social biases in NLP models have been an ongoing and prominent research endeavor. In parallel, the NLP approaches in the legal area, namely legal NLP or computational law, have also been increasing recently. Eliminating unwanted bias in the legal domain is doubly crucial since the law has the utmost importance and effect on people. We approach the gender bias problem from the scope of legal text processing domain. In the first stage of our study, we focus on the gender bias in traditional word embeddings, like Word2Vec and GloVe. Word embedding models which are trained on corpora composed by legal documents and legislation from different countries have been utilized to measure and eliminate gender bias in legal documents. Several methods have been employed to reveal the degree of gender bias and observe its variations over countries. Moreover, a debiasing method has been used to neutralize unwanted bias. The preservation of semantic coherence of the debiased vector space has also been demonstrated by using high level tasks. In the second stage, we study the gender bias encoded in BERT-based models. We propose a new template-based bias measurement method with a bias evaluation corpus using crime words from the FBI database. This method quantifies the gender bias present in BERT-based models for legal applications. Furthermore, we propose a fine-tuning-based debiasing method using the European Court of Human Rights (ECtHR) corpus to debias legal pre-trained models. We test the debiased models on the LexGLUE benchmark to confirm that the underlying semantic vector space is not perturbed during the debiasing process. Finally, overall results and their implications have been discussed in the scope of NLP in legal domain.

Benzer Tezler

  1. Finansal denetim ve halka açık şirketlerin denetlenmesi

    Başlık çevirisi yok

    HÜSEYİN AKGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    İşletmeİstanbul Teknik Üniversitesi

    DOÇ.DR. MEHMET BOLAK

  2. Disposition bias for different investor categories in Borsa Istanbul

    Borsa İstanbul'da farklı yatırımcı grupları için eğilim yanlılığı

    EVRİM HİLAL KAHYA

    Doktora

    İngilizce

    İngilizce

    2022

    Maliyeİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CUMHUR ENİS EKİNCİ

  3. A triple comparative study of business and human rights mechanisms in Türkiye, Colombia and South Africa from a gender equality perspective

    Türkiye, Kolombiya ve Güney Afrika'da iş dünyası ve insan hakları mekanizmalarının toplumsal cinsiyet perspektifinden üçlü bir karşılaştırması

    İLAYDA ESKİTAŞCİOĞLU KARAVELİOĞLU

    Doktora

    İngilizce

    İngilizce

    2024

    HukukKoç Üniversitesi

    Hukuk Ana Bilim Dalı

    PROF. DR. BERTİL EMRAH ODER

  4. Okul müdürlerinin kayırmacı davranışlarının öğretmenlerin örgütsel adalet algıları ile müdüre güvene etkisi

    Favori̇tsm behaviors of school directors effectiveness of organizations with teachers 'organizational justice

    NESİP DEMİRBİLEK

    Doktora

    Türkçe

    Türkçe

    2018

    Eğitim ve Öğretimİnönü Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. HASAN DEMİRTAŞ

  5. Türkiye'de hukuk mesleğinde kadın temsili

    Women representation of legal profession in Turkey

    EMİNE BALCI

    Doktora

    Türkçe

    Türkçe

    2017

    Siyasal BilimlerHacettepe Üniversitesi

    Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı

    PROF. DR. BERRİN KOYUNCU LORASDAĞI