Zero-shot and few-shot named entity recognition in environmental sciences domain
Çevre bilimleri alanında sıfır-örnekli ve az-örnekli adlandırılmış varlık tanıma
- Tez No: 895678
- Danışmanlar: DR. ÖĞR. ÜYESİ SERDAR ARSLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Çankaya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 111
Özet
Doğal dil işlemede yeni mimariler, modelin bilgisini farklı görevlere aktarabilmeyi sağlar. Bu aktarımlı öğrenme sayesinde modeli bazı görevler için yeniden eğitme ihtiyacı ortadan kalkmıştır. Aktarımlı öğrenme, önceden eğitilmiş bir Büyük Dil Modeli'ni ince ayar yaparak sağlanabilir. Bu çalışmada sonraki cümleyi tahmin etmek için eğitilmiş bir model olan BERT'in daha sade bir versiyonu olan DistilBERT üzerinde ince ayar yapılarak, metinsel veriler üzerinde önemli bir bilgi erişim görevi olan Adlandırılmış Varlık Tanıma görevinin yapılması sağlanmıştır. Aktarımlı öğrenme, modelin daha önceden edindiği bilgileri daha önce görmediği alanlara aktarabilmeyi de sağlar. Bu bağlamda, çevre bilimleri alanına özgü bir veri kümesi oluşturduk. Ayrıca, belirli varlıkları tanımak için çevre bilimleri alanındaki varlıklar için özel varlık etiketleri tanımlanmıştır. Modelin transfer öğrenme yeteneğini değerlendirmek için oluşturulan veri kümesi üzerinde sıfır atışlı, bir atışlı ve on atışlı öğrenme prosedürleri gerçekleştirilmiştir. Transfer öğrenimini iyileştirmek için modeli genel bir Türkçe veri kümesi üzerinde önceden eğittik. Son olarak, modelin sıfır atışlı ve birkaç atışlı kurulumlardaki tahmin performansını iyileştirmek için bir büyük dil modeli kullanılarak oluşturulan çevre bilimleri alanına özgü veriler, oluşturduğumuz veri kümesiyle birleştirilmiştir. Çalışmada, modeli genel veri kümesiyle önceden eğitme işlemi ve yapay olarak oluşturulan veri kümesini tanıtma işlemi ayrı ayrı ve birlikte değerlendirilmiştir. Ayrıca, eğitim veri kümesinde anlamsal olarak ilişkili varlıkların, modelin tahmin yeteneği üzerindeki etkisi incelenmiş olup, ilişkili varlıkların eğitim verisine eklenmesi sonucu tüm atış seçeneklerinde tahmin performansının iyileştiği görülmüştür. Testlerin değerlendirmesi umut verici sonuçlar göstermekte ve transfer öğrenimi açısından iyileştirmelere ışık tutmaktadır.
Özet (Çeviri)
Novel architectures in natural language processing enable to transfer knowledge of the model for specific tasks. For many downstream tasks, training the model from scratch has become unnecessary since transfer learning can be leveraged for such cases. This can be achieved by finetuning a pretrained Large Language Models (LLM). In this study, a lightweight version of BERT, DistilBERT which is pretrained to predict next sentence was fine-tuned to handle Named Entity Recognition, as one of the most important information extraction task in context of textual data. Transfer learning also enable to transfer knowledge of the model to unseen domains. In this context, we created a domain-specific dataset in the environmental sciences domain. Also, to recognize specific entities, custom NER labels for entities in environmental sciences domain have been defined. To evaluate transfer learning ability of the model, zero-shot, one-shot and ten-shots learning procedures have been conducted on created dataset. To improve transfer learning, we have pre-trained the model a generic Turkish dataset. Finally, artificially generated data that specific to environmental sciences domain have been combined with our created dataset to improve the prediction performance of the model in zero-shot and few-shot setups. In the study, pretraining the model with generic dataset and introducing artificially generated dataset evaluated individually and together. In addition, presence of semantically related entities in the dataset have been investigated and improvements in prediction performance regardless of shot number are seen. The evaluation of tests demonstrates promising results and enlightens improvements in terms of transfer learning.
Benzer Tezler
- Sosyal medya izleme ve deprem acil durumlarına hızlı yanıt: Twitter verisi üzerine bir çalışma
Social media monitoring and rapid response to earthquake emergencies: A study on twitter data
DİLARA CANDAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLŞAH TÜMÜKLÜ ÖZYER
- A comparative study of prompting and fine-tuning for binary text classification of sustainable development goals
Sürdürülebilir kalkınma amaçlarının ikili metin sınıflandırmasında istemleme ve ince-ayar üzerine karşılaştırmalı bir çalışma
MERT ATAY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PELİN ANGIN ÜLKÜER
- GPT modelleri kullanılarak ironi tespiti ve sınıflandırması
Irony detection and classification using GPT models
MUSTAFA ULVİ AYTEKİN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN AYHAN ERDEM
- Sınırlı denetim ve anlamsal temsiller ile işaret dili öğrenimi
Learning sign languages with limited supervision and semantic representations
YUNUS CAN BİLGE
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZLI İKİZLER CİNBİŞ
- Video classification and retrieval with low data regime learning
Düşük veri rejimi öğrenimi ile video sınıflandırma ve geri alma
EROL ÇITAK
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MİNE ELİF KARSLIGİL