Geri Dön

Automatic question generation for improving low resource question answering performance

Düşük kaynaklı soru cevaplama performansını artırmak için otomatık soru üretimi

  1. Tez No: 832143
  2. Yazar: YUSUFCAN MANAV
  3. Danışmanlar: DOÇ. ARZUCAN ÖZGÜR TÜRKMEN, DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 88

Özet

Bu tez, soru-cevap modellerinin performansını artırmak için bir soru üretim sistemi kullanma üzerine odaklanmaktadır. Önerdiğimiz model çok dilli Transformer tabanlı bir kodlayıcı-çözücü mimarisi üzerine inşa edilerek, birden fazla görev için aynı anda eğitilmiştir. Bu model sayesinde yalnız paragraflar girdi olarak alınarak soru cevap ikilileri üretilebilir. Çok dilli bir model kullanmamız sayesinde soru üretim sistemini çeşitli dillere uyarlayabildik. İlk olarak, Türkçe Vikipedi sayfalarını ve bu soru üretim sistemi kullanarak Türkçe Soru Yanıt veri kümesini oluşturduk. Deneylerimiz, üretilen veri kümesinin insan tarafından işaretlenmiş Soru Yanıt veri kümesiyle birleştirildiğinde, Türkçe XQuAD setindeki performansın \%3 arttığını ortaya çıkardı. İkinci olarak, modelimizi birçok dil ve düşük kaynak ortamında kapsamlı bir şekilde test ettik. Soru üretim modelini eğitmek için İngilizce, Almanca, Fransızca ve Türkçe gibi farklı dillerden soru-yanıt veri kümesinden sınırlı sayıda işaretlenmiş veri kullandık. Daha sonra bu modeli işaretlenmemiş paragraflardan yapay soru-cevap çiftleri oluşturarak; soru cevaplama modelinin eğitimine ek veri olarak kattık. Deneylerimiz, özellikle düşük veri ayarlarında, arttırma stratejimizin, insan tarafından işaretlenmiş veriye dayalı temel soru-yanıt modellerinin farklı boyutta ve dilde veri kümeleri üzerinde daha iyi performans gösterdiğini ortaya koydu.

Özet (Çeviri)

This thesis focuses on employing a question-generation system to improve the performance of question-answering models. We propose a multitask-trained question-generation module that is built on a multilingual encoder-decoder architecture and can produce question-answer pairs over plain text passages. We were able to adapt the question-generation system to several languages by using a multilingual model. First, we created a Turkish Question Answering dataset utilizing the Turkish Wikipedia pages and this question-generation system. Our experiments revealed that the performance on the Turkish XQuAD set was enhanced by 3\% when the generated dataset was combined with the human-annotated dataset for question-answering model training. Second we also extensively test our model in many languages and low-resource environments. We used limited annotated data from the question-answering datasets from different languages like English, German, French, and Turkish; to train the question generation model. We then utilized this model to create artificial question-answer pairs from the unannotated paragraphs. Our experiments revealed that, especially in the lower data settings, our augmentation strategy consistently outperformed the baseline question-answering models that are trained on human-annotated data across a range of dataset sizes and languages.

Benzer Tezler

  1. Teknoloji yönetimi

    Technology and strategy

    DEVRİM YÜCEL

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. HALUK ERKUT

  2. Digital fotogrametrik ortofoto üretimine yönelik bir sym bilgisayar programı ve uygulamaları

    Developing a dtm software for fotogrammetric digital orthophoto production and applications

    BASHAR BASHİR

    Doktora

    Türkçe

    Türkçe

    1999

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    PROF.DR. M. ORHAN ALTAN

  3. Jeoistatistiksel, statik ve kararsız basınç testi verilerine koşullandırılmış heterojen geçirgenlik ve gözeneklilik sahalarının türetilmesi

    Generation of porosity and permeability fields conditioned to geostatistical, and pressure transient data

    ADİL GÜRKAN CEYHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik Üniversitesi

    Petrol Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDURRAHMAN SATMAN

  4. Otomatik vezne makinaları (ATMs) ve uygulamaları

    Autamated teller machines (ATMs) and applications

    A. C. BANU ÇAĞLAR

    Yüksek Lisans

    Türkçe

    Türkçe

    1994

    BankacılıkMarmara Üniversitesi

    Bankacılık Ekonomisi ve İşletmeciliği Ana Bilim Dalı

    PROF. DR. METE DOĞRUER