Domain specific automatic question generation from text
Konu bazlı düz metinden otomatik soru üretmek
- Tez No: 936235
- Danışmanlar: PROF. DR. BAHAR KARAOĞLAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 150
Özet
Soru sorma, eğitimde öğrencilerin bilgi düzeyini ölçmek için kullanılan etkili tekniklerden biridir. Ancak, öğretmenler tarafından soruların manuel olarak hazırlama süreci zaman alıcı, zahmetli ve maliyetlidir. Bildirim metninden soru oluşturma görevinin otomatikleştirilmesi bu süreci kolaylaştırır. Son zamanlarda, diziden diziye nöral modellerin kullanılması, geleneksel kural tabanlı modellere kıyasla soru üretme görevinin performansını arttırmıştır. Birçok mevcut nöral modeller cümle düzeyinde yoğunlaşmaktadır, ancak yüksek kaliteli ve gerçekçi sorular üretmek için, bir paragrafın cümlelerinin arasındaki zamansal ve nedensel bağlamları çıkarmak gerekir. Bu tezde, alana özgü, eğitim amaçlı, dikkat ve kopya mekanizmalarına dayalı, paragraf düzeyinde sinirsel soru üretme modeli geliştirilmiştir. Önerilen model iki ana bileşenden oluşmaktadır: sınıflandırıcı ve üretici. Sınıflandırıcı bileşeninde, cevaba duyarlı BERT tabanlı bir model, üretici bileşenin nasıl soru sorulacağını bilmesini sağlamak için soru sözcüğünü tahmin eder. Dikkat ve kopyalama mekanizmaları, üreticinin sırasıyla paragrafın bilgilendirici kısmına daha fazla dikkat etmesine ve kelime dağarcığı sorununun üstesinden gelmesine yardımcı olur. Ayrıca, Türkçe durum ekleri modelin performansını artırmak için kullanılmıştır. Tez kapsamında ayrıca, veri güdümlü Türkçe nöral soru üretim modelini eğitmek ve test etmek için, Türkçe Biyoloji Soru Cevaplama Veriseti v1.0 (TurBiQuAD) bir yan ürün olarak geliştirilmiştir. Deneyler, TurBiQuAD ve SQuAD veri kümeleri üzerinde gerçekleştirilmiştir. Sonuçlar, önerilen modelin, her iki veri setinde de paragraf düzeyinde, literatürde yaygın referans alan çalışmalar ile karşılaştırıldığında mevcut başarımı yakaladığı görülmüştür.
Özet (Çeviri)
Questioning is one of the effective techniques for assessing the learning level of students in education. However, the process of preparing questions manually by teachers is time-consuming, laborious, and costly. Automatizing the question generation task from the declarative text alleviates this process. Recently, employing sequence-to-sequence neural models has advanced the performance of generating questions compared to traditional rule-based models. Most of the existing neural models have concentrated on sentence-level while generating high-quality and realistic questions requires extracting temporal and causal dependencies between sentences from the whole paragraph. In this thesis, the paragraph-level neural question generation model based on attention and copy mechanisms is developed for educational purposes in a specific domain. The proposed model consists of two main components: classifier and generator. In the classifier component, an answer-aware BERT-based model predicts the interrogative phrase to let the generator component know how to ask a question. Attention and copy mechanisms help the generator to pay more attention to the informative part of the paragraph and to overcome the out-of-vocabulary problem, respectively. Moreover, Turkish case markers are incorporated into the model to boost performance. Though developing an effective model is crucial, there is a need for datasets to train the question generation model. In this thesis, Turkish Biology Question Answering Dataset v1.0 (TurBiQuAD) containing {paragraph, question, answer} triplets, are built to drive the model forward. Experiments are conducted on TurBiQuAD as well as SQuAD datasets. The results show that the proposed model is well within the state-of-the-art models in paragraph-level in both datasets.
Benzer Tezler
- Anlamsal web ortamında çalışan çok etmenli sistemlerin model güdümlü geliştirilmesi
Model driven development of semantic web enabled multiagent systems
GEYLANİ KARDAŞ
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiUluslararası Bilgisayar Ana Bilim Dalı
PROF. DR. E. TURHAN TUNALI
PROF. DR. OĞUZ DİKENELLİ
- Automatized test generation and evaluation tool from lecture notes for high school students
Lise öğrencileri için ders notlarından otomatik test oluşturma ve değerlendirme aracı
ÖNDER CAN SARI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZLEM AKTAŞ
- Evaluation of retrieval augmented generation on various types of large language models
Çeşitli büyük dil modelleri üzerinde bilgi getirme destekli üretimin değerlendirilmesi
ÖMER KARTLI
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Medipol ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELİM AKYOKUŞ
DR. ÖĞR. ÜYESİ SALİH SARP
- Üretim şirketlerinin operasyonel verimliliklerinin artırılması için endüstri 4.0 gerçekleştirme prosedürel modeli tasarımı
Procedure model for industry 4.0 realization for operations improvement of manufacturing organizations
İZLEM TEKİN BAYRAK
Doktora
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
- Üniversitelerin idari süreçlerini iyileştirmek için akıllı konuşma aracı geliştirme: Sakarya Üniversitesi vaka çalışması
Developing an intelligent conversational agent to improve administrative processes at universities: A case study of Sakarya University
KANAAN AL JAF
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. CEMİL ÖZ