Geri Dön

A framework for open-domain question answering system

Açık çalışma alanı soru yanıtlama sistemi için bir çerçeve oluşturulması

  1. Tez No: 898295
  2. Yazar: HARUN BOLAT
  3. Danışmanlar: DOÇ. DR. BAHA ŞEN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Ankara Yıldırım Beyazıt Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Genel olarak Soru Yanıtlama (QA), İngilizce gibi doğal bir dilde sorulan soruları anlayabilen ve istenen bilgilerle tam olarak yanıt verebilen otomatik bir süreç olarak tanımlanabilir.“İdeal”bir QA sistemi oldukça karmaşık bir mimariye sahiptir. Çünkü bu sistem, sorudaki istenilen bilgiyi belirlemeli, uygun kaynaklardan istenilen bilgiyi bulmalı, bilgiyi çıkarmalı ve ardından bir yanıt oluşturmalıdır. Kullanıcılar, arama sorgusu ile ilgili tüm dokümanları incelemek yerine, sorularına kesin yanıtlar bulmak için QA sistemini tercih ederler. Doğal dilde sorulan soruları otomatik olarak yanıtlayan sistemler üzerine çalışmalar 1960'larda başlamıştır. 1999 yılında Metin Erişim Konferansı (TREC) kapsamında başlatılan QA süreciyle bilgi erişim topluluğu içinde ana araştırma alanı haline gelmiştir. Açık alan QA sistemlerinin aksine, tıbbi, alana özgü soru cevaplama üzerinde daha az araştırmacı çalışmaktadır. Biyomedikal alanda üretilen bilginin sürekli artması nedeniyle, halk, tıp öğrencileri, sağlık profesyonelleri ve biyomedikal araştırmacılar için biyomedikal soru yanıtlama sistemine olan ihtiyaç artmaktadır. Bir anlamda, biyomedikal soru cevaplama sistemi gerçek dünyanın en kritik uygulamalarından biridir. Bu çalışmada, biyomedikal alan için bir soru-cevaplama sistemi geliştirilmiştir. Sistemin belge getirme bileşeni için dört farklı sıralama algoritması (Vector Space Model, Okapi BM25, Query Likelihood with Dirichlet Smoothing, and the Jelinek–Mercer Smoothing Model) test edilmiştir. En iyi performans, MESH terimleri ile genişletilmiş bir sorgu kullanılarak Query Likelihood with Dirichlet Smoothing algoritması ile elde edilmiştir. Cevap çıkarma bileşeninde, metin benzerliğine ek olarak, Adlandırılmış Varlık Tanıma (NER), UMLS Kavram Tekil Tanımlayıcıları (CUIs), UMLS Anlamsal Türleri ve UMLS Anlamsal Grup özellikleri, yanıt olabilecek cümleleri bulmak için kullanılmıştır. Sadece metin benzerliğine dayalı F1 skoru 0.27'den 0.39'a çıkarılarak yaklaşık %44 performans artışı sağlanmıştır. Transformer mimarisine dayalı BERT dil modeli, biyomedikal alan için eğitilmiş ve SQuAD ve BioASQ 9b eğitim veri setleri kullanılarak biyomedikal soru-cevaplama sistemi için ince ayar yapılmıştır. BioASQ 9b test veri setlerindeki factoid sorular için 0.72 MRR skoru elde edilmiştir.

Özet (Çeviri)

In general, Question Answering (QA) can be defined as an automatic process that is capable of understanding questions posed in a natural language such as English and responding exactly with requested information. An“ideal”QA system has a highly complex architecture. Because this system has to determine the desired information in the question, find the requested information from suitable sources, extract information, and then create an answer. Users prefer a QA system to find precise answers to their questions rather than inspect all related documents relevant to search queries. The studies on the systems automatically answering natural language questions started in the 1960s. It has become the leading research area within the information retrieval community, with the QA track started in 1999 under the Text Retrieval Conference (TREC). Contrary to open domain QA systems, fewer researchers are working on medical, domain-specific question answering. Due to the continuous increase in information produced in the biomedical field, there is an increasing need for biomedical QA, especially for the public, medical students, healthcare professionals, and biomedical researchers. In a sense, biomedical QA is one of the most critical applications of the real world. In this study, a question-answering system was developed for the biomedical field. Four different ranking algorithms (Vector Space Model, Okapi BM25, Query Likelihood with Dirichlet Smoothing, and the Jelinek–Mercer Smoothing Model) were tested for the system's document retrieval component. The best performance was achieved with the Query Likelihood with Dirichlet Smoothing ranking algorithm using a query expanded with MESH terms. In the answer extraction component, in addition to text similarity, Named Entity Recognition (NER), UMLS Concept Unique Identifiers (CUIs), UMLS Semantic Types, and UMLS Semantic Group features were employed to find sentences that might be the answer. The F1 score based solely on text similarity was increased from 0.27 to 0.39, achieving an approximate 44% performance improvement. Based on transformer architecture, the BERT language model was trained for the biomedical field and fine-tuned for the biomedical question-answering system using the SQuAD and BioASQ 9b train datasets. For factoid questions in the BioASQ 9b test datasets, a 0.72 MRR score was achieved.

Benzer Tezler

  1. Bağlama çalıp söyleyen kadınların müzik performansının toplumsal cinsiyet açısından incelenmesi

    Analysing the music performance of baglama-playing female singers in terms of gender

    SEVAL EROĞLU

    Doktora

    Türkçe

    Türkçe

    2018

    Müzikİstanbul Teknik Üniversitesi

    Müzikoloji ve Müzik Teorisi Ana Bilim Dalı

    PROF. SONGÜL KARAHASANOĞLU

  2. Haliç metro köprüsü sağlık izleme sistemi ve üç boyutlu doğrusal sonlu eleman modeli geliştirilmesi

    Health monitoring system of golden horn metro bridge and development of three dimensional linear finite element model

    ÖMER GALİP PINAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BARIŞ ERKUŞ

  3. Boğaziçi'nde insan etkileri ve çevrenin görsel yorumu

    Visual effects of man-made developments on the rosphorus and the visual commentment of the Bosphorus present landscape

    A.ŞEBNEM PİLGİR

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Mimarlıkİstanbul Teknik Üniversitesi

    PROF. DR. HÜLYA YÜREKLİ

  4. Sudan yazılan yer: Mimarlıkta bir kuramsal yazım çalışması

    Place written from water: A study of theoretical writing in architecture

    İREM KORKMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. SIDIKA ASLIHAN ŞENEL