Enhancing relation classification by using shortest dependency paths between entities with pre-trained language models
Ön eğitimli dil modelleri ile varlıklar arası en kısa bağlılık yollarını kullanarak ilişki sınıflandırmasının geliştirilmesi
- Tez No: 731319
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 79
Özet
İlişki Çıkarma (İÇ), düz bir metinden varlıklar arasındaki ilişkiyi bulma görevidir. Verilen metnin uzunluğu arttıkça ilişkiyi bulmak da gittikçe zorlaşmaktadır. Metnin bağlılık ağacında iki varlık arasındaki terimleri izleyerek oluşturulan en kısa bağlılık yolları, metindeki gürültü yaratan kelimeleri budayarak varlıklara odaklanmış bir gösterim sunar. İlişki Çıkarma konusunun denetimli versiyonu olan İlişki Sınıflandırma'da, çoğu son teknoloji metod yaklaşımlarına ön eğitimli dil modellerini entegre etmektedir. Ancak şu ana kadar ön eğitimli dil modelleri, varlıklar arası en kısa bağlılık yolları ile birlikte kullanılmamıştır. Bu tez, ön eğitimli modellerin varlıklar arası en kısa bağlılık yolları ile beraber kullanılmasının etkilerini incelemektedir. Bu inceleme için R-BERT ilişki sınıflandırma modeli temel model olarak alınmış ve üzerine geliştirmeler yapılmıştır. Sunduğumuz yeni yaklaşımda, temel modeli geliştirmek amacıyla, iki varlık arasındaki en kısa bağlılık yolunun ön eğitimli dil modellerinden geçirilmesi ile elde edilmiş genel temsili, ek bir vektör olarak temel modele eklenir. Deneylerde, temel model, Stanford, HPSG ve LAL bağlılık ayrıştırıcılarının XLNet ve BERT ön eğitimli dil modelleri ile kombinasyonları SemEval-2010 Task 8 ve TACRED veri kümelerinde değerlendirilmiştir. Deney sonuçlarında, önerilen modelin temel modelden SemEval-2010 Task 8 veri kümesinde 1.41%, TACRED veri kümesinde 3.6% daha iyi sonuç verdiği görülmektedir.
Özet (Çeviri)
Relation Extraction (RE) is the task of finding the relation between entities from a plain text. As the length of the text increases, finding the relation becomes more challenging. The shortest dependency path (SDP) between two entities, obtained by traversing the terms in the text's dependency tree, provides a view focused on the entities by pruning noisy words. In RE's supervised form Relation Classification, the state-of-the-art methods generally integrate a pre-trained language model (PLM) into their approaches. However, none of them incorporates the shortest dependency paths into their calculations to our knowledge. In this thesis, we investigate the effects of using shortest dependency paths with pre-trained language models by taking the R-BERT relation classification model as our baseline and building upon it. Our novel approach enhances the baseline model by adding the sequence representation of the shortest dependency path between entities, collected from PLMs, as an additional embedding. In experiments, we have evaluated the proposed model's performance for each combination of SDPs generated from Stanford, HPSG, LAL dependency parsers, and baseline with BERT and XLNet PLMs in two datasets, SemEval-2010 Task 8 and TACRED. We improve the baseline model by absolute 1.41% and 3.6% scores, increasing the rankings of the model from 8th to 7th and 18th to 7th in SemEval-2010 Task 8 and TACRED, respectively.
Benzer Tezler
- Doku ve renk öznitelikleriyle tarla görüntülerinden bitki ve fenolojik evrelerinin çıkarımı
Plant and phenology recognition from field images using texture and color features
FATİH GÜLAÇ
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Cam sektöründe talep tahmin yöntemlerinin uygulanması ve değerlendirilmesi
Application and assessment of the demand forecasting methods in the glass sector
NESLİHAN DEMİRCİ
Yüksek Lisans
Türkçe
2015
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT BASKAK
- TF-IDF ve Doc2Vec tabanlı metin sınıflandırma sisteminin başarımdeğerinin ardışık kelime gurubu tespiti ile arttırılması
Enhancing the performance of TF-IDF and Doc2Vec based turkish text categorization system with phrase modeling
DOĞANCAN KINIK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDoğuş ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYSUN GÜRAN
- Enhancing deep learning models for campaign participation prediction
Kampanya katılım tahminleme için derin öğrenme modelleri geliştirilmesi
DEMET AYVAZ
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. MURAT ŞENSOY
YRD. DOÇ. GONCA GÜRSUN
- Karbon yönetimi ölçütlerinin lojistik performans endeksine entegrasyonu
Integration of carbon management criteria into the logistics performance index
SELİM GÖRKEM YILDIZ
Yüksek Lisans
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞEYDA SERDAR ASAN