Geri Dön

Datasets and transformer models for cross-lingual relation classification

Çapraz dilli ilişki sınıflandırması için dönüştürücü modelleri ve veri kümeleri

  1. Tez No: 692505
  2. Yazar: ABDULLATİF KÖKSAL
  3. Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 71

Özet

İlişki sınıflandırması, bilgi tabanları oluşturmak ve soru cevaplama sistemleri için faydalı bilgiler sağlamak için kullanılabilen bilgi çıkarımındaki önemli konulardan biridir. İlişki sınıflandırmasındaki mevcut yaklaşımlar, temel olarak İngilizce dilinde gerçekleşmektir ve çok sayıda işaretli eğitim verisi gerektirir. Az kaynaklı diller için bu miktarda işaretli eğitim verisi oluşturmak pratik değildir ve yüksek maliyetlidir. Bu sorunun üstesinden gelmek için iki farklı çapraz dilli ilişki sınıflandırma modeli öneriyoruz: Çok Dilli BERT'e (mBERT) dayalı temel bir model ve temel modeli önemli ölçüde iyileştiren Çok Dilli Boşlukları Eşleştirme (MTMB) adını verdiğimiz, uzak denetim kullanılarak özgün bir ön eğitim aşamasına sahip olan çok dilli bir dönüştürücü modeli. Çapraz dilli ilişki sınıflandırması için RELX adını verdiğimiz, İngilizce, Fransızca, Almanca, İspanyolca ve Türkçe dillerinden verilere sahip olan yeni bir değerlendirme veri seti sunuyoruz. Ayrıca, bu diller için Wikipedia ve Wikidata'dan uzak denetim yöntemiyle toplanan yüz binlerce cümle içeren RELX-Distant ilişki sınıflandırma veri kümesini de sağlıyoruz. Sonuç olarak çapraz dilli ilişki sınıflandırmasında MTMB'nin mBERT temel modeline göre sunulan dillerde önemli ölçüde daha iyi performans gösterdiğini ve ortalama olarak F1 puanında %2,14 iyileşme sağladığını gözlemliyoruz. Eğitim verisinin %10'unun kullanıldığı az kaynaklı ortamda da MTMB'nin etkinliğinin daha iyi olduğunu ve mBERT'e göre ortalama F1 puanını %10,58 iyileştirdiğini gözlemliyoruz.

Özet (Çeviri)

Relation classification is one of the key topics in information extraction, which can be used to construct knowledge bases or to provide useful information for question answering. Current approaches for relation classification are mainly focused on the English language and require lots of training data with human annotations. Creating and annotating a large amount of training data for low-resource languages is impractical and expensive. To overcome this issue, we propose two cross-lingual relation classification models: a baseline model based on Multilingual BERT (mBERT) and a new multilingual pretraining setup called Matching the Multilingual Blanks (MTMB), which significantly improves the baseline with distant supervision. For evaluation, we introduce a new public benchmark dataset for cross-lingual relation classification in English, French, German, Spanish, and Turkish, called RELX. We also provide the RELX-Distant dataset, which includes hundreds of thousands of sentences with relations from Wikipedia and Wikidata collected by distant supervision for these languages. We observe that MTMB significantly outperforms the mBERT baseline in presented languages by 2.14% absolute improvement of F1-score on average. We further investigate MTMB's effectiveness in low-resource settings, and when 10% of the training data is used, 10.58% absolute improvement of F1-score on average over mBERT is observed.

Benzer Tezler

  1. Neural language modelling approaches for post-ocr text processing

    Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları

    AYŞE İREM TOPÇU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  2. Türkçe hakaret ve nefret söylemi tespiti

    Offensive language and hate speech detection in Turkish

    MEHMET SALİH KURT

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EYLEM YÜCEL DEMİREL

  3. Backchannel prediction in human-robot interaction for engaging agents

    İnsan-robot etkileşiminde ilgi düzeyinin iyileştirilmesine yönelik arka-kanal sinyal kestirimi

    BEKİR BERKER TÜRKER

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ENGİN ERZİN

  4. Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

    Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek

    NECLA NİSA SOYLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  5. Fight recognition from still images in the wild

    Doğal ortamda sabit görüntülerden kavga tespiti

    ŞEYMANUR AKTI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL