Geri Dön

Improving the performance of NLP tasks in legal tech

Hukuk teknolojisinde NLP görevlerinin performansının iyileştirilmesi

  1. Tez No: 845407
  2. Yazar: FARNAZ ZEIDI
  3. Danışmanlar: DOÇ. DR. ÇİĞDEM EROL, PROF. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dokümantasyon ve Enformasyon, Maden Mühendisliği ve Madencilik, Computer Engineering and Computer Science and Control, Documentation and Information, Mining Engineering and Mining
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 108

Özet

Transformer sinir ağı'nın tanıtımı, kendiliğinden denetimli ön eğitim ve transfer öğrenme gibi tekniklerle birleştirilerek BERT gibi gelişmiş modellere yol açmıştır. BERT'ün etkileyici performansına rağmen, daha fazla geliştirme fırsatları bulunmaktadır. Çalışmamız, öncelikle Türkçe hukuki alanında BERT modelini ön eğitim aşamasında yapılan değişikliklerle geliştirmeye odaklanmaktadır. BERT'in performansını artırmak için üç temel fikri takip ettik: NSP'nin SOP ile değiştirilmesi, NSP'nin kaldırılması ve MLM'nin TF-IDF ile birleştirilmesi. Yenilikçi yaklaşımımızda, %10'unu, Tokenizer'ın kelime dağarcığından rastgele belirteçler yerine yüksek TF-IDF değerlerine sahip olanlarla değiştirmeyi öneriyoruz. Ayrıca, MLM'nin orijinal kuralları (80_10_10) içinde çeşitli maskeleme stratejileri uygulandı. Önerilen modellerimizi ön eğitmek için, 'Yüksek Öğrenim Tez Merkezi'nde bulunan hukukla ilgili tez belgelerinden elde edilen 50 MB'lik etiketlenmemiş Türkçe metinden faydalandık. Ardından, bu özelleştirilmiş modellerimizi, Türk hukukuyla ilgili etiketli verileri kullanarak NER ve çoklu etiketli metin sınıflandırma için ayarladık. Bu özelleştirilmiş modellerimizi orijinal BERT ile karşılaştıran kapsamlı bir performans analizi gerçekleştirdik. Kesinlik, duyarlılık ve F-ölçütü performans metrikleri olarak kullanıldı. Bulgular, NSP'nin SOP ile değiştirilmesinin genellikle BERT modelini geliştirdiğini gösterdi. Ancak, NSP/SOP'nin dışarıda bırakılmasının sonuçları önemli ölçüde etkilediğini, daha belirgin bir etki gösterdiğini belirtti. Önerilen MLM yaklaşımımız ise, orijinal BERT modeline göre hem NER'de (%71.85 kesinlik, %83.47 duyarlılık, %77.23 F-ölçütü) hem de çoklu etiketli metin sınıflandırma görevlerinde (%86.61 kesinlik, %61.83 duyarlılık, %72.15 F-ölçütü) önemli iyileştirmeler gösterdi. Ayrıca, farklı maskeleme stratejileri uygulandıktan sonra, çoklu etiketli metin sınıflandırma görevinde, MLM stratejisine daha fazla rastgele belirteç eklemenin olumlu bir etki gösterdiği görüldü. Özellikle, bu belirteçlerin yüksek TF-IDF puanlarına sahip bir listeden seçildiğinde daha iyi performans gösterilecektir. Ancak, NER görevinde, rastgele belirteçlerin eklenmesi sonuçları olumsuz yönde etkiledi ve en iyi model performansı, bu tür belirteçlerin MLM stratejisinden çıkarıldığında görüldü.

Özet (Çeviri)

The introduction of the Transformer neural network, coupled with techniques like self-supervised pre-training and transfer learning, has paved the way for advanced models like BERT. Despite BERT's impressive performance, opportunities for further enhancement exist. Our study is primarily dedicated to enhancing the BERT model within the legal Turkish domain through modifications in the pre-training phase. We pursued three primary ideas to boost BERT's performance: replacing NSP with SOP, eliminating NSP, and merging MLM with TF-IDF. In our innovative approach, we propose replacing 10% of the MLM selected tokens with those having high TF-IDF values, rather than using random tokens from the Tokenizer's vocabulary. In addition, diverse masking strategies were applied within the MLM's original rules (80_10_10). To pre-train our proposed models, we utilized a 50 MB legal Turkish corpus (unlabeled text) sourced from legal-related thesis documents available in the Higher Education Board National Thesis Center. Subsequently, these customized models were fine-tuned for NER and multi-label text classification using Turkish legal related labeled data. Following over 60 rounds of training in both pre-training and fine-tuning, we conducted a comprehensive performance analysis, comparing these customized models to the original BERT. Precision, Recall, and F-measure were employed as performance metrics. The findings revealed that replacing NSP with SOP generally enhances the BERT model. However, the exclusion of NSP/SOP significantly impacts the outcomes, indicating a more substantial effect. Our modified MLM approach demonstrated significant improvements in both NER (Precision: 71.85%, Recall: 83.47%, F-measure: 77.23%) and multi-label text classification tasks (Precision: 86.61%, Recall: 61.83%, F-measure: 72.15%) compared to the original BERT model. Moreover, applying different masking strategies showed that presenting more random tokens in the MLM strategy positively influenced multi-label text classification, particularly when selected from a list with high TF-IDF scores. However, in the NER task, adding random tokens negatively impacted the results, indicating optimal model performance when such tokens were excluded from the MLM strategy.

Benzer Tezler

  1. Finsentiment: Predicting financial sentiment and risk through transfer learning

    Başlık çevirisi yok

    ZEHRA ERVA ERGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  2. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Deyim derlemi oluşturmak için oyunlaştırılmış kitle kaynak kullanımı

    Gamified crowdsourcing for idiom corpora construction

    ALİ ŞENTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  4. Data augmentation for natural language processing

    Doğal dil işleme için veri artırma

    MUSTAFA ÇATALTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

    DOÇ. DR. NURDAN BAYKAN

  5. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE