Natural language processings in legal domain: Classification of Turkish legal texts
Hukuk alanında doğal dil işleme: Türkçe hukuki metinlerin sınıflandırılması
- Tez No: 825257
- Danışmanlar: DOÇ. DR. MURAT CAN GANİZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 73
Özet
Yüksek mahkeme kararları gibi hukuki belgeler, teknik kelimelerin yoğun kullanımı nedeniyle karmaşıktır. Genellikle çok uzun ve karmaşık cümlelerden oluşurlar. Bu durum, dilin yüksek morfolojik ve eklemeli yapısı nedeniyle özellikle Türkçe hukuki belgelerde daha belirgindir. Bu zorluklar ve büyük kıyaslama veri kümelerinin eksikliği nedeniyle, Türkçe hukuk metinlerinde yapay zeka kullanımı üzerine sadece birkaç Doğal Dil İşleme (DDİ) çalışması yapılmıştır. Bu çalışmada, yaklaşık 10 GB'lık hukuk metinlerinden oluşan büyük bir denetimsiz veri kümesi kullandık ve benzersiz 56 suç etiketine sahip yaklaşık 90 bin yüksek mahkeme kararından oluşan bir denetimli veri kümesi derledik. Temel amacımız, etki alanı uyarlamasının, yani büyük bir dil modeli olan BERT'in etki alanına özgü bir derlem kullanılarak ince ayarının sınıflandırma performansını nasıl etkilediğini görmektir. Çeşitli sınıflandırıcılarla kapsamlı tek etiketli ve çok etiketli sınıflandırma deneyleri gerçekleştiriyoruz. Beklendiği gibi, BERT modelleri diğer sınıflandırıcılardan büyük bir farkla daha iyi performans gösteriyor. Daha da önemlisi, etki alanı uyarlamasının F1 puanında yaklaşık %2 artışa yol açtığını gösteriyoruz. Çalışmamız, hukuk alanında DDİ üzerine giderek artan araştırmalara katkıda bulunmakta ve alana özgü dil modellerinin potansiyelini vurgulamaktadır.
Özet (Çeviri)
Legal documents such as higher court decisions are complicated due to the intensive use of technical vocabulary. They are usually composed of very long and complex sentences. This is especially visible in Turkish legal documents due to the highly morphological and agglutinative nature of the language. Due to these difficulties and the lack of large benchmark datasets, there have been only a few Natural Language Processing (NLP) studies on artificial intelligence use in Turkish legal texts. In this research, we utilize a large unsupervised dataset of about 10 GBs of legal texts and compile a supervised dataset of about 90 thousand higher court decisions having unique 56 crime labels. Our main aim is the see how domain adaptation, i.e. continued pre-training of BERT, a large language model, by employing a domain-specific corpus affects the classification performance. We conduct extensive multi-class and multilabel classification experiments with a range of classifiers. As expected, BERT models outperform other classifiers by a wide margin. More importantly, we show that domain adaptation leads to about a 2% increase in F1 score. Our study contributes to the expanding corpus of studies on NLP in the legal domain and highlights the potential of domain-specific language models.
Benzer Tezler
- Analysis of gender bias in legal texts using natural language processing methods
Hukuki metinlerdeki cinsiyetçi önyargının doğal dil işleme metotlarıyla analizi
NURULLAH SEVİM
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYKUT KOÇ
- Akademik hukuk makalelerinde atıf önerisi
Citation recommendation on scholarly legal articles
DOĞUKAN ARSLAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Prediction of outcomes in higher courts of Turkey using natural language processing
Doğal dil işleme yöntemleri kullanılarak Türk yüksek mahkemelerinde karar tahmini
EMRE MUMCUOĞLU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MEMDUH HALDUN ÖZAKTAŞ
DR. ÖĞR. ÜYESİ AYKUT KOÇ
- Yapay zekânın yol açtığı zararlardan doğan hukuki sorumluluk
Civil liability arising from the damages caused by artificial intelligence
ORHAN EROL