Düşük kaynaklı dillerde transformer tabanlı dil modellerinin alan adaptasyonu: Türkçe hukuk metinleri üzerine bir çalışma
Domain adaptation of transformer-based language models in low-resource languages: A study on Turkish legal texts
- Tez No: 925501
- Danışmanlar: DR. ÖĞR. ÜYESİ MURAT AYDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 78
Özet
Doğal dil işleme alanındaki ilerlemelere rağmen, düşük kaynaklı diller için daha fazla çalışmaya ihtiyaç duyulmaktadır. Özellikle, Türkçe gibi karmaşık dil yapısına ve sınırlı kaynaklara sahip dillerde, hukuk gibi zengin terminolojiye sahip alanlar için Transformer tabanlı dil modellerinin yetenekleri önemli bir araştırma konusu olarak öne çıkmaktadır. Bu çalışmada, Transformer tabanlı dil modellerinin Türkçe hukuk metinleri ile alan adaptasyonu süreci incelenmiş ve bu sürecin modellerin performansına etkileri değerlendirilmiştir. Çalışma doğrultusunda Danıştay karar sorgulama sayfasından toplanan hukuki metinler kullanılmış ve bu metinler maskeli dil modelleme ve adlandırılmış varlık tanıma görevleri için yapılandırılarak özgün veri setleri oluşturulmuştur. Alan adaptasyonu için Türkçeyi de kapsayan çok dilli yapıya sahip mBERT modeli ve Türkçe için özelleştirilmiş BERTurk modeli kullanılmıştır. Alan adaptasyonu sürecinde modellerin kelime dağarcığı hukuk kelimeleri ile genişletilmiş, hukuki kelimelerin ve rastgele kelimelerin maskelendiği bir maskeli dil modelleme yaklaşımı uygulanmıştır. Modeller, adlandırılmış varlık tanıma görevi için ince ayarlanarak sonuçlar değerlendirilmiştir. Elde edilen bulgular, alan adaptasyonu uygulanan modellerin temel modellere kıyasla hukuk metinlerinde adlandırılmış varlık tanıma görevi için daha yüksek performans sağladığını göstermektedir. Alan adaptasyonu ile mBERT modelinde %3,147, BERTurk modelinde ise %1,130 oranında F1 Skoru artışı elde edilmiştir. Bu çalışma, düşük kaynaklı dillerde alan adaptasyonunun Transformer tabanlı dil modellerinin performansını artırmada önemli bir süreç olduğunu ortaya koymaktadır.
Özet (Çeviri)
Despite advancements in natural language processing, further research is needed for low-resource languages. In particular, for languages with a complex language structure and limited resources like Turkish, the capabilities of Transformer-based language models in terminology-rich domains such as law have emerged as a significant research area. In this study, the domain adaptation process of Transformer-based language models with Turkish legal texts was examined and the effects of this process on the performance of the models are evaluated. Legal texts collected from the Turkish Council of State decision query page were used for the study, and these texts were structured for masked language modeling and named entity recognition tasks to create unique datasets. For domain adaptation, the mBERT model, which has a multilingual structure including Turkish, and the BERTurk model customized for Turkish were used. During the domain adaptation process, the vocabulary of the models was expanded with legal words and a masked language modeling approach was applied in which legal words and random words were masked. The models were fine-tuned for the named entity recognition task and the results were evaluated. The results show that the domain-adapted models achieved higher performance for the named entity recognition task in legal texts compared to the baseline models. The domain adaptation resulted in an F1 Score increase of 3.147% for the mBERT model and 1.130% for the BERTurk model. This study demonstrates that domain adaptation in low-resource languages is an important process in improving the performance of Transformer-based language models.
Benzer Tezler
- Türkçe klinik metinlerin derin öğrenme yaklaşımları ile sınıflandırılması
Classification of Turkish clinical notes using deep learning techniques
HAZAL TÜRKMEN
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
- Türkçe yoruma dayalı metin özetlemede transformer tabanlı veri arttırma destekli hibrit yaklaşım önerisi
A hybrid approach supported by transformer-based data augmentation for turkish abstractive text summarization
UMUT CAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. AYSUN GÜRAN
- Developing morphology disambiguation and named entity recognition for amharic
Amharca morfolojik belirsizliği giderme ve adlandırılmış varlık tanıma geliştirilmesi
EBRAHIM CHEKOL JIBRIL
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Automatic question generation for improving low resource question answering performance
Düşük kaynaklı soru cevaplama performansını artırmak için otomatık soru üretimi
YUSUFCAN MANAV
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR
- A comparative study on deep learning-based handwritten text recognition techniques using a brand-new Turkish handwriting dataset
Yepyeni bir Türkçe el yazısı veri seti kullanılarak derin öğrenme tabanlı el yazısı metin tanıma teknikleri üzerine karşılaştırmalı bir çalışma
OSMAN FURKAN KARAKUŞ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ CAN KARACA
DOÇ. DR. AYLA GÜLCÜ