Automatic question generation for improving low resource question answering performance
Düşük kaynaklı soru cevaplama performansını artırmak için otomatık soru üretimi
- Tez No: 832143
- Danışmanlar: DOÇ. ARZUCAN ÖZGÜR TÜRKMEN, DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 88
Özet
Bu tez, soru-cevap modellerinin performansını artırmak için bir soru üretim sistemi kullanma üzerine odaklanmaktadır. Önerdiğimiz model çok dilli Transformer tabanlı bir kodlayıcı-çözücü mimarisi üzerine inşa edilerek, birden fazla görev için aynı anda eğitilmiştir. Bu model sayesinde yalnız paragraflar girdi olarak alınarak soru cevap ikilileri üretilebilir. Çok dilli bir model kullanmamız sayesinde soru üretim sistemini çeşitli dillere uyarlayabildik. İlk olarak, Türkçe Vikipedi sayfalarını ve bu soru üretim sistemi kullanarak Türkçe Soru Yanıt veri kümesini oluşturduk. Deneylerimiz, üretilen veri kümesinin insan tarafından işaretlenmiş Soru Yanıt veri kümesiyle birleştirildiğinde, Türkçe XQuAD setindeki performansın \%3 arttığını ortaya çıkardı. İkinci olarak, modelimizi birçok dil ve düşük kaynak ortamında kapsamlı bir şekilde test ettik. Soru üretim modelini eğitmek için İngilizce, Almanca, Fransızca ve Türkçe gibi farklı dillerden soru-yanıt veri kümesinden sınırlı sayıda işaretlenmiş veri kullandık. Daha sonra bu modeli işaretlenmemiş paragraflardan yapay soru-cevap çiftleri oluşturarak; soru cevaplama modelinin eğitimine ek veri olarak kattık. Deneylerimiz, özellikle düşük veri ayarlarında, arttırma stratejimizin, insan tarafından işaretlenmiş veriye dayalı temel soru-yanıt modellerinin farklı boyutta ve dilde veri kümeleri üzerinde daha iyi performans gösterdiğini ortaya koydu.
Özet (Çeviri)
This thesis focuses on employing a question-generation system to improve the performance of question-answering models. We propose a multitask-trained question-generation module that is built on a multilingual encoder-decoder architecture and can produce question-answer pairs over plain text passages. We were able to adapt the question-generation system to several languages by using a multilingual model. First, we created a Turkish Question Answering dataset utilizing the Turkish Wikipedia pages and this question-generation system. Our experiments revealed that the performance on the Turkish XQuAD set was enhanced by 3\% when the generated dataset was combined with the human-annotated dataset for question-answering model training. Second we also extensively test our model in many languages and low-resource environments. We used limited annotated data from the question-answering datasets from different languages like English, German, French, and Turkish; to train the question generation model. We then utilized this model to create artificial question-answer pairs from the unannotated paragraphs. Our experiments revealed that, especially in the lower data settings, our augmentation strategy consistently outperformed the baseline question-answering models that are trained on human-annotated data across a range of dataset sizes and languages.
Benzer Tezler
- Teknoloji yönetimi
Technology and strategy
DEVRİM YÜCEL
Yüksek Lisans
Türkçe
1995
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. HALUK ERKUT
- Digital fotogrametrik ortofoto üretimine yönelik bir sym bilgisayar programı ve uygulamaları
Developing a dtm software for fotogrammetric digital orthophoto production and applications
BASHAR BASHİR
- Makina performansının titreşim analizi metodları yardımıyla belirlenmesi ve rulmanlarda titreşim analizi ile hasar tesbiti
Başlık çevirisi yok
BİLGİN KONAÇ
- Jeoistatistiksel, statik ve kararsız basınç testi verilerine koşullandırılmış heterojen geçirgenlik ve gözeneklilik sahalarının türetilmesi
Generation of porosity and permeability fields conditioned to geostatistical, and pressure transient data
ADİL GÜRKAN CEYHAN
Yüksek Lisans
Türkçe
1997
Petrol ve Doğal Gaz Mühendisliğiİstanbul Teknik ÜniversitesiPetrol Mühendisliği Ana Bilim Dalı
PROF. DR. ABDURRAHMAN SATMAN
- Otomatik vezne makinaları (ATMs) ve uygulamaları
Autamated teller machines (ATMs) and applications
A. C. BANU ÇAĞLAR
Yüksek Lisans
Türkçe
1994
BankacılıkMarmara ÜniversitesiBankacılık Ekonomisi ve İşletmeciliği Ana Bilim Dalı
PROF. DR. METE DOĞRUER