A framework for open-domain question answering system
Açık çalışma alanı soru yanıtlama sistemi için bir çerçeve oluşturulması
- Tez No: 898295
- Danışmanlar: DOÇ. DR. BAHA ŞEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 92
Özet
Genel olarak Soru Yanıtlama (QA), İngilizce gibi doğal bir dilde sorulan soruları anlayabilen ve istenen bilgilerle tam olarak yanıt verebilen otomatik bir süreç olarak tanımlanabilir.“İdeal”bir QA sistemi oldukça karmaşık bir mimariye sahiptir. Çünkü bu sistem, sorudaki istenilen bilgiyi belirlemeli, uygun kaynaklardan istenilen bilgiyi bulmalı, bilgiyi çıkarmalı ve ardından bir yanıt oluşturmalıdır. Kullanıcılar, arama sorgusu ile ilgili tüm dokümanları incelemek yerine, sorularına kesin yanıtlar bulmak için QA sistemini tercih ederler. Doğal dilde sorulan soruları otomatik olarak yanıtlayan sistemler üzerine çalışmalar 1960'larda başlamıştır. 1999 yılında Metin Erişim Konferansı (TREC) kapsamında başlatılan QA süreciyle bilgi erişim topluluğu içinde ana araştırma alanı haline gelmiştir. Açık alan QA sistemlerinin aksine, tıbbi, alana özgü soru cevaplama üzerinde daha az araştırmacı çalışmaktadır. Biyomedikal alanda üretilen bilginin sürekli artması nedeniyle, halk, tıp öğrencileri, sağlık profesyonelleri ve biyomedikal araştırmacılar için biyomedikal soru yanıtlama sistemine olan ihtiyaç artmaktadır. Bir anlamda, biyomedikal soru cevaplama sistemi gerçek dünyanın en kritik uygulamalarından biridir. Bu çalışmada, biyomedikal alan için bir soru-cevaplama sistemi geliştirilmiştir. Sistemin belge getirme bileşeni için dört farklı sıralama algoritması (Vector Space Model, Okapi BM25, Query Likelihood with Dirichlet Smoothing, and the Jelinek–Mercer Smoothing Model) test edilmiştir. En iyi performans, MESH terimleri ile genişletilmiş bir sorgu kullanılarak Query Likelihood with Dirichlet Smoothing algoritması ile elde edilmiştir. Cevap çıkarma bileşeninde, metin benzerliğine ek olarak, Adlandırılmış Varlık Tanıma (NER), UMLS Kavram Tekil Tanımlayıcıları (CUIs), UMLS Anlamsal Türleri ve UMLS Anlamsal Grup özellikleri, yanıt olabilecek cümleleri bulmak için kullanılmıştır. Sadece metin benzerliğine dayalı F1 skoru 0.27'den 0.39'a çıkarılarak yaklaşık %44 performans artışı sağlanmıştır. Transformer mimarisine dayalı BERT dil modeli, biyomedikal alan için eğitilmiş ve SQuAD ve BioASQ 9b eğitim veri setleri kullanılarak biyomedikal soru-cevaplama sistemi için ince ayar yapılmıştır. BioASQ 9b test veri setlerindeki factoid sorular için 0.72 MRR skoru elde edilmiştir.
Özet (Çeviri)
In general, Question Answering (QA) can be defined as an automatic process that is capable of understanding questions posed in a natural language such as English and responding exactly with requested information. An“ideal”QA system has a highly complex architecture. Because this system has to determine the desired information in the question, find the requested information from suitable sources, extract information, and then create an answer. Users prefer a QA system to find precise answers to their questions rather than inspect all related documents relevant to search queries. The studies on the systems automatically answering natural language questions started in the 1960s. It has become the leading research area within the information retrieval community, with the QA track started in 1999 under the Text Retrieval Conference (TREC). Contrary to open domain QA systems, fewer researchers are working on medical, domain-specific question answering. Due to the continuous increase in information produced in the biomedical field, there is an increasing need for biomedical QA, especially for the public, medical students, healthcare professionals, and biomedical researchers. In a sense, biomedical QA is one of the most critical applications of the real world. In this study, a question-answering system was developed for the biomedical field. Four different ranking algorithms (Vector Space Model, Okapi BM25, Query Likelihood with Dirichlet Smoothing, and the Jelinek–Mercer Smoothing Model) were tested for the system's document retrieval component. The best performance was achieved with the Query Likelihood with Dirichlet Smoothing ranking algorithm using a query expanded with MESH terms. In the answer extraction component, in addition to text similarity, Named Entity Recognition (NER), UMLS Concept Unique Identifiers (CUIs), UMLS Semantic Types, and UMLS Semantic Group features were employed to find sentences that might be the answer. The F1 score based solely on text similarity was increased from 0.27 to 0.39, achieving an approximate 44% performance improvement. Based on transformer architecture, the BERT language model was trained for the biomedical field and fine-tuned for the biomedical question-answering system using the SQuAD and BioASQ 9b train datasets. For factoid questions in the BioASQ 9b test datasets, a 0.72 MRR score was achieved.
Benzer Tezler
- Pre-service mathematics teachers' knowledge development and belief change within a technology-enhanced mathematics course
Başlık çevirisi yok
VECİHİ ZAMBAK
- Bağlama çalıp söyleyen kadınların müzik performansının toplumsal cinsiyet açısından incelenmesi
Analysing the music performance of baglama-playing female singers in terms of gender
SEVAL EROĞLU
Doktora
Türkçe
2018
Müzikİstanbul Teknik ÜniversitesiMüzikoloji ve Müzik Teorisi Ana Bilim Dalı
PROF. SONGÜL KARAHASANOĞLU
- Haliç metro köprüsü sağlık izleme sistemi ve üç boyutlu doğrusal sonlu eleman modeli geliştirilmesi
Health monitoring system of golden horn metro bridge and development of three dimensional linear finite element model
ÖMER GALİP PINAR
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BARIŞ ERKUŞ
- Boğaziçi'nde insan etkileri ve çevrenin görsel yorumu
Visual effects of man-made developments on the rosphorus and the visual commentment of the Bosphorus present landscape
A.ŞEBNEM PİLGİR
- Sudan yazılan yer: Mimarlıkta bir kuramsal yazım çalışması
Place written from water: A study of theoretical writing in architecture
İREM KORKMAZ
Yüksek Lisans
Türkçe
2022
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
DOÇ. DR. SIDIKA ASLIHAN ŞENEL