Geri Dön

Open domain factoid question answering system

Tek yanıtlı sorular için açık alanlı soru yanıtlama sistemi

  1. Tez No: 415224
  2. Yazar: FARHAD SOLEİMANİAN GHAREHCHOPOGH
  3. Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 237

Özet

Soru Yanıtlama (SY), Yapay Zeka (YZ), Bilgi Tarama (IR) ve Doğal Dil İşleme (DDİ) bilim dalıdır ve doğal dil içerisindeki açık ve kapalı çalışma alanlarında soruları yanıtlayan sistemleri oluşturmayı otomatik olarak beraberinde getirir. Soru Yanıtlama Sistemleri (SYS) çeşitli kullanıcı sorularına değinmek durumundadır. Bazı basit sorulara verilen cevaplar kısa cümlecikler olurken, daha karmaşık sorular için verilen cevaplar kısa metinler olabilir. Basit cevaplı bir soru tek yanıtlı soru olarak tanımlanır ve tek yanıtlı sorularla ilgilenen soru cevaplama sistemine de tek yanıtlı SYS denir. Bu Tezde, üç aşamadan oluşan tek yanıtlı SYS sunmaktayız: soru işleme, metin tarama ve cevap işleme. Soru işleme aşamasında, otomatik öğrenme teknikleri kullanarak kullanıcıların sorguladıkları sorulardan arama motoru elde etmek için yeni bir iki-aşamalı kategori yapısı ele almaktayız. Tezimizde yer alan tek yanıtlı SYS, metinler üzerinde temel yapı olarak internet kullanmakta ve metin tarama aşamasında bilgi odaklı tarama yapmaktadır. Bu aynı zamanda, cevap işleme aşamasında cevap kalıbını eşleştirme tekniği kullanarak şablona dayalı bir SYS'dır. Buna ek olarak, mevcut SYS'lerin sınıflandırmasını da sunmaktayız. Bu sınıflandırma, erken SYS'ler, kurala dayalı SYS'ler, şablona dayalı SYS'ler, NLP odaklı SYS'ler ve otomatik öğrenmeye dayalı SYS'ler gibi olguları kapsar. Kullandığımız tek yanıtlı SYS, aynı zamanda, 17 kaba-taneli ve 57 ince-taneli kategoriyi içeren iki aşamalı kategori yapısı kullanır. Bu sistem, TREC-8 ve TREC-9'dan ilham alınan 570 soru ile eğitilip ve 570 diğer sorular, TREC-8, TREC-9 , ve TREK-10 verilerile test edilmiştir. SYS'mizde, sorguyu genişletme aşaması oldukça önemlidir ve genel olarak tüm performansı etkiler. Orijinal bir kullanıcı sorusu sorgulanmak üzere verildiğinde, elde edilen uygun dökümanlar yeterli olmayabilir. Bu durumda, sorgu şablonları ve soru tiplerine dayanan otomatik sorgu genişletme yaklaşımı sunmaktayız. Yeni sorgular, soru kategorilerinin sorgu şablonlarından elde edilir ve kullanıcı sorusunun kategorisi Naïve Bayes sınıflandırma algoritması tarafından bulunur. Genişletilmiş yeni sorgular, sorgu örüntüdaki boşlukları iki uygun sözcük öbeği ile doldurarak elde edilir. İlk öbek soru tipi öbeğidir ve doğrudan sınıflandırma algoritması tarafından bulunur. İkinci öbek soru öbeğidir ve olası soru şablonlarından Levenshtein uzaklık algoritması ile saptanır. Soru tipleri için sorgu şablonları, o soru tipleri içindeki olası soruları analiz ederek oluşturulur. Bu tezde, sorgu genişletme yaklaşımımızı TREC-8, TREC-9 ve TREC-10 konferans verilerinde yer alan tek yanıtlı soru tipleriyle iki aşamalı değerlendirmekteyiz. Otomatik sorgu genişletme yaklaşımımızın sonuçları elle yapılan sorgu genişletme yaklaşımı sonuçlarından daha iyi çıkmaktadır. Ağı sorgulayarak cevap kalıplarını otomatik olarak öğrendikten sonra, her soru tipi için cevap kalıbı gruplarını kullanmaktayız. Cevap kalıpları, ilgili metin bölümlerinden bulunan cevapları çekip alır ve bu cevap kalıbı Adlandırılmış Varlık Onayı (AVO) ile genellenebilir. AVO, cevap işleme aşamasındaki Bilgi Taramanın (BT) ikincil işidir ve metinsel dökümanlardaki terimleri yer ismi, kişi ismi, olay tarihi, vb gibi yeniden tanımlanmış kategoriler içerisinde sınıflandırır. Cevapların sıralanması, cevap kalıplarındaki frekans hesabı ve Güvenirlik Faktörü (GF) değerlerine bağlıdır. Sistemin sonuçları, yaklaşımımızın soru cevaplama için etkili olduğunu ve temel ince-taneli kategori sınıfımız için 0.58 Ortalama Karşılıklı Sıra (OKS) değeri, kaba-taneli kategori yapısı için 0.62 OKS değeri ve TREC-10 üzerinde veri kümelerini test ederek yapılan değerlendirme için 0.55 OKS değeri elde ettiğini gösteriyor. Sistemin sonucu, TREC veri kümeleri üzerinde standart ölçme kullanarak diğer SYS'ler ile kıyaslanmıştır.

Özet (Çeviri)

Question Answering (QA) is a field of Artificial Intelligence (AI) and Information Retrieval (IR) and Natural Language Processing (NLP), and leads to generating systems that answer to questions natural language in open and closed domains, automatically. Question Answering Systems (QASs) have to deal different types of user questions. While answers for some simple questions can be short phrases, answers for some more complex questions can be short texts. A question with a single is known as a factoid question, and a question answering system that deals with factoid questions is called a factoid QAS. In this thesis, we present a factoid QAS that consists of three phases: question processing, document/passage retrieval, and answer processing. In the question processing phase, we consider a new two-level category structure using machine learning techniques to generate search engine from user questions queries. Our factoid QAS uses the World Wide Web (WWW) as its corpus of texts and knowledge base in document/passage retrieval phase. Also, it is a pattern-based QAS using answer pattern matching technique in answer processing phase. We also present a classification of existing QASs. The classification contains early QASs, rule based QASs, pattern based QASs, NLP based QASs and machine learning based QASs. Also, our factoid QAS uses two-level category structure which included 17 coarse-grained and 57 fine-grained Categories. The system utilizes from category structure in order to extract answers of questions consists of 570 questions originated from TREC-8, TREC-9 questions as training dataset and 570 other questions and TREC-8, TREC-9, and TREC-10 questions as testing datasets. In our QAS, the query expansion step is very important and it affects the overall performance of our QAS. When an original user question is given as a query, the amount of retrieved relevant documents may not be enough. We present an automatic query expansion approach based on query templates and question types. New queries are generated from query templates of question categories and the category of a user question is found by a Naïve Bayes classification algorithm. New expanded queries are generated by filling gaps in query templates with two appropriate phrases. The first phrase is the question type phrase and it is found directly by the classification algorithm. The second phrase is the question phrase and it is detected from possible question templates by a Levenshtein distance algorithm. Query templates for question types are created by analyzing possible questions in those question types. We evaluated our query expansion approach with two-level category structure with factoid question type's include in TREC-8, TREC-9 and TREC-10 conference datasets. The results of our automatic query expansion approach outperform the results of manual query expansion approach. After automatically learning answer patterns by querying the web, we use answer pattern sets for each question types. Answer patterns extracts answers from retrieved related text segments, and answer pattern can be generalization with Named Entity Recognition (NER). The NER is a sub-task of Information Extraction (IE) in answer processing phase and classifies terms in the textual documents into redefined categories of interest such as location name, person name, date of event and etc. The ranking of answers is based on frequency counting and Confidence Factor (CF) values of answer patterns. The results of the system show that our approach is effective for question answering and it accomplishes 0.58 values Mean Reciprocal Rank (MRR) for our corpus fine-grained category class, 0.62 MRR values for coarse-grained category structure and 0.55 MRR values for evaluation by testing datasets on TREC-10. The results of the system have been compared with other QASs using standard measurement on TREC datasets.

Benzer Tezler

  1. Open domain factoid question answering system

    Açık alan tekil yanıtlı soru cevaplama sistemi

    FATİH ÖZKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT SARAN

  2. A framework for open-domain question answering system

    Açık çalışma alanı soru yanıtlama sistemi için bir çerçeve oluşturulması

    HARUN BOLAT

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BAHA ŞEN

  3. Cross-level typing the logical form for open-domain semantic parsing

    Açık alan anlambilimsel ayrıştırma için mantıksal forma düzeyler arası tür atanması

    İSMET ADNAN ÖZTÜREL

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. HÜSEYİN CEM BOZŞAHİN

  4. Elizabeth Barrett Browning: Kadın şairin sesi

    Elizabeth Barrett Browning: The woman poet's voice

    HANDE SADUN

    Doktora

    İngilizce

    İngilizce

    1998

    İngiliz Dili ve EdebiyatıHacettepe Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. OYA MENTEŞE

  5. An embodied conversational agent with facial expressions

    Başlık çevirisi yok

    MUNYA ALKHALIFA

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KASIM ÖZACAR