Improving the performance of NLP tasks in legal tech
Hukuk teknolojisinde NLP görevlerinin performansının iyileştirilmesi
- Tez No: 845407
- Danışmanlar: DOÇ. DR. ÇİĞDEM EROL, PROF. DR. MEHMET FATİH AMASYALI
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dokümantasyon ve Enformasyon, Maden Mühendisliği ve Madencilik, Computer Engineering and Computer Science and Control, Documentation and Information, Mining Engineering and Mining
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Enformatik Ana Bilim Dalı
- Bilim Dalı: Enformatik Bilim Dalı
- Sayfa Sayısı: 108
Özet
Transformer sinir ağı'nın tanıtımı, kendiliğinden denetimli ön eğitim ve transfer öğrenme gibi tekniklerle birleştirilerek BERT gibi gelişmiş modellere yol açmıştır. BERT'ün etkileyici performansına rağmen, daha fazla geliştirme fırsatları bulunmaktadır. Çalışmamız, öncelikle Türkçe hukuki alanında BERT modelini ön eğitim aşamasında yapılan değişikliklerle geliştirmeye odaklanmaktadır. BERT'in performansını artırmak için üç temel fikri takip ettik: NSP'nin SOP ile değiştirilmesi, NSP'nin kaldırılması ve MLM'nin TF-IDF ile birleştirilmesi. Yenilikçi yaklaşımımızda, %10'unu, Tokenizer'ın kelime dağarcığından rastgele belirteçler yerine yüksek TF-IDF değerlerine sahip olanlarla değiştirmeyi öneriyoruz. Ayrıca, MLM'nin orijinal kuralları (80_10_10) içinde çeşitli maskeleme stratejileri uygulandı. Önerilen modellerimizi ön eğitmek için, 'Yüksek Öğrenim Tez Merkezi'nde bulunan hukukla ilgili tez belgelerinden elde edilen 50 MB'lik etiketlenmemiş Türkçe metinden faydalandık. Ardından, bu özelleştirilmiş modellerimizi, Türk hukukuyla ilgili etiketli verileri kullanarak NER ve çoklu etiketli metin sınıflandırma için ayarladık. Bu özelleştirilmiş modellerimizi orijinal BERT ile karşılaştıran kapsamlı bir performans analizi gerçekleştirdik. Kesinlik, duyarlılık ve F-ölçütü performans metrikleri olarak kullanıldı. Bulgular, NSP'nin SOP ile değiştirilmesinin genellikle BERT modelini geliştirdiğini gösterdi. Ancak, NSP/SOP'nin dışarıda bırakılmasının sonuçları önemli ölçüde etkilediğini, daha belirgin bir etki gösterdiğini belirtti. Önerilen MLM yaklaşımımız ise, orijinal BERT modeline göre hem NER'de (%71.85 kesinlik, %83.47 duyarlılık, %77.23 F-ölçütü) hem de çoklu etiketli metin sınıflandırma görevlerinde (%86.61 kesinlik, %61.83 duyarlılık, %72.15 F-ölçütü) önemli iyileştirmeler gösterdi. Ayrıca, farklı maskeleme stratejileri uygulandıktan sonra, çoklu etiketli metin sınıflandırma görevinde, MLM stratejisine daha fazla rastgele belirteç eklemenin olumlu bir etki gösterdiği görüldü. Özellikle, bu belirteçlerin yüksek TF-IDF puanlarına sahip bir listeden seçildiğinde daha iyi performans gösterilecektir. Ancak, NER görevinde, rastgele belirteçlerin eklenmesi sonuçları olumsuz yönde etkiledi ve en iyi model performansı, bu tür belirteçlerin MLM stratejisinden çıkarıldığında görüldü.
Özet (Çeviri)
The introduction of the Transformer neural network, coupled with techniques like self-supervised pre-training and transfer learning, has paved the way for advanced models like BERT. Despite BERT's impressive performance, opportunities for further enhancement exist. Our study is primarily dedicated to enhancing the BERT model within the legal Turkish domain through modifications in the pre-training phase. We pursued three primary ideas to boost BERT's performance: replacing NSP with SOP, eliminating NSP, and merging MLM with TF-IDF. In our innovative approach, we propose replacing 10% of the MLM selected tokens with those having high TF-IDF values, rather than using random tokens from the Tokenizer's vocabulary. In addition, diverse masking strategies were applied within the MLM's original rules (80_10_10). To pre-train our proposed models, we utilized a 50 MB legal Turkish corpus (unlabeled text) sourced from legal-related thesis documents available in the Higher Education Board National Thesis Center. Subsequently, these customized models were fine-tuned for NER and multi-label text classification using Turkish legal related labeled data. Following over 60 rounds of training in both pre-training and fine-tuning, we conducted a comprehensive performance analysis, comparing these customized models to the original BERT. Precision, Recall, and F-measure were employed as performance metrics. The findings revealed that replacing NSP with SOP generally enhances the BERT model. However, the exclusion of NSP/SOP significantly impacts the outcomes, indicating a more substantial effect. Our modified MLM approach demonstrated significant improvements in both NER (Precision: 71.85%, Recall: 83.47%, F-measure: 77.23%) and multi-label text classification tasks (Precision: 86.61%, Recall: 61.83%, F-measure: 72.15%) compared to the original BERT model. Moreover, applying different masking strategies showed that presenting more random tokens in the MLM strategy positively influenced multi-label text classification, particularly when selected from a list with high TF-IDF scores. However, in the NER task, adding random tokens negatively impacted the results, indicating optimal model performance when such tokens were excluded from the MLM strategy.
Benzer Tezler
- Finsentiment: Predicting financial sentiment and risk through transfer learning
Başlık çevirisi yok
ZEHRA ERVA ERGÜN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER
- Improving self-attention based transformer performance for morphologically rich languages
Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi
YİĞİT BEKİR KAYA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Deyim derlemi oluşturmak için oyunlaştırılmış kitle kaynak kullanımı
Gamified crowdsourcing for idiom corpora construction
ALİ ŞENTAŞ
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Data augmentation for natural language processing
Doğal dil işleme için veri artırma
MUSTAFA ÇATALTAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ
DOÇ. DR. NURDAN BAYKAN
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE