Geri Dön

Natural language processings in legal domain: Classification of Turkish legal texts

Hukuk alanında doğal dil işleme: Türkçe hukuki metinlerin sınıflandırılması

  1. Tez No: 825257
  2. Yazar: ONUR AKÇA
  3. Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 73

Özet

Yüksek mahkeme kararları gibi hukuki belgeler, teknik kelimelerin yoğun kullanımı nedeniyle karmaşıktır. Genellikle çok uzun ve karmaşık cümlelerden oluşurlar. Bu durum, dilin yüksek morfolojik ve eklemeli yapısı nedeniyle özellikle Türkçe hukuki belgelerde daha belirgindir. Bu zorluklar ve büyük kıyaslama veri kümelerinin eksikliği nedeniyle, Türkçe hukuk metinlerinde yapay zeka kullanımı üzerine sadece birkaç Doğal Dil İşleme (DDİ) çalışması yapılmıştır. Bu çalışmada, yaklaşık 10 GB'lık hukuk metinlerinden oluşan büyük bir denetimsiz veri kümesi kullandık ve benzersiz 56 suç etiketine sahip yaklaşık 90 bin yüksek mahkeme kararından oluşan bir denetimli veri kümesi derledik. Temel amacımız, etki alanı uyarlamasının, yani büyük bir dil modeli olan BERT'in etki alanına özgü bir derlem kullanılarak ince ayarının sınıflandırma performansını nasıl etkilediğini görmektir. Çeşitli sınıflandırıcılarla kapsamlı tek etiketli ve çok etiketli sınıflandırma deneyleri gerçekleştiriyoruz. Beklendiği gibi, BERT modelleri diğer sınıflandırıcılardan büyük bir farkla daha iyi performans gösteriyor. Daha da önemlisi, etki alanı uyarlamasının F1 puanında yaklaşık %2 artışa yol açtığını gösteriyoruz. Çalışmamız, hukuk alanında DDİ üzerine giderek artan araştırmalara katkıda bulunmakta ve alana özgü dil modellerinin potansiyelini vurgulamaktadır.

Özet (Çeviri)

Legal documents such as higher court decisions are complicated due to the intensive use of technical vocabulary. They are usually composed of very long and complex sentences. This is especially visible in Turkish legal documents due to the highly morphological and agglutinative nature of the language. Due to these difficulties and the lack of large benchmark datasets, there have been only a few Natural Language Processing (NLP) studies on artificial intelligence use in Turkish legal texts. In this research, we utilize a large unsupervised dataset of about 10 GBs of legal texts and compile a supervised dataset of about 90 thousand higher court decisions having unique 56 crime labels. Our main aim is the see how domain adaptation, i.e. continued pre-training of BERT, a large language model, by employing a domain-specific corpus affects the classification performance. We conduct extensive multi-class and multilabel classification experiments with a range of classifiers. As expected, BERT models outperform other classifiers by a wide margin. More importantly, we show that domain adaptation leads to about a 2% increase in F1 score. Our study contributes to the expanding corpus of studies on NLP in the legal domain and highlights the potential of domain-specific language models.

Benzer Tezler

  1. Analysis of gender bias in legal texts using natural language processing methods

    Hukuki metinlerdeki cinsiyetçi önyargının doğal dil işleme metotlarıyla analizi

    NURULLAH SEVİM

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYKUT KOÇ

  2. Akademik hukuk makalelerinde atıf önerisi

    Citation recommendation on scholarly legal articles

    DOĞUKAN ARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  3. Türkiye'de su hakkı

    The right to water in Turkey

    YILDIZ AKEL ÜNAL

    Doktora

    Türkçe

    Türkçe

    2021

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ERDOĞAN BÜLBÜL

  4. Prediction of outcomes in higher courts of Turkey using natural language processing

    Doğal dil işleme yöntemleri kullanılarak Türk yüksek mahkemelerinde karar tahmini

    EMRE MUMCUOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEMDUH HALDUN ÖZAKTAŞ

    DR. ÖĞR. ÜYESİ AYKUT KOÇ

  5. Yapay zekânın yol açtığı zararlardan doğan hukuki sorumluluk

    Civil liability arising from the damages caused by artificial intelligence

    ORHAN EROL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukAnkara Üniversitesi

    Özel Hukuk Ana Bilim Dalı

    DOÇ. DR. ÖMER ARBEK