Open domain factoid question answering system

Tek yanıtlı sorular için açık alanlı soru yanıtlama sistemi

PDF İndir

Tez No: 415224
Yazar: FARHAD SOLEİMANİAN GHAREHCHOPOGH
Danışmanlar: PROF. DR. İLYAS ÇİÇEKLİ
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 237

Özet

Soru Yanıtlama (SY), Yapay Zeka (YZ), Bilgi Tarama (IR) ve Doğal Dil İşleme (DDİ) bilim dalıdır ve doğal dil içerisindeki açık ve kapalı çalışma alanlarında soruları yanıtlayan sistemleri oluşturmayı otomatik olarak beraberinde getirir. Soru Yanıtlama Sistemleri (SYS) çeşitli kullanıcı sorularına değinmek durumundadır. Bazı basit sorulara verilen cevaplar kısa cümlecikler olurken, daha karmaşık sorular için verilen cevaplar kısa metinler olabilir. Basit cevaplı bir soru tek yanıtlı soru olarak tanımlanır ve tek yanıtlı sorularla ilgilenen soru cevaplama sistemine de tek yanıtlı SYS denir. Bu Tezde, üç aşamadan oluşan tek yanıtlı SYS sunmaktayız: soru işleme, metin tarama ve cevap işleme. Soru işleme aşamasında, otomatik öğrenme teknikleri kullanarak kullanıcıların sorguladıkları sorulardan arama motoru elde etmek için yeni bir iki-aşamalı kategori yapısı ele almaktayız. Tezimizde yer alan tek yanıtlı SYS, metinler üzerinde temel yapı olarak internet kullanmakta ve metin tarama aşamasında bilgi odaklı tarama yapmaktadır. Bu aynı zamanda, cevap işleme aşamasında cevap kalıbını eşleştirme tekniği kullanarak şablona dayalı bir SYS'dır. Buna ek olarak, mevcut SYS'lerin sınıflandırmasını da sunmaktayız. Bu sınıflandırma, erken SYS'ler, kurala dayalı SYS'ler, şablona dayalı SYS'ler, NLP odaklı SYS'ler ve otomatik öğrenmeye dayalı SYS'ler gibi olguları kapsar. Kullandığımız tek yanıtlı SYS, aynı zamanda, 17 kaba-taneli ve 57 ince-taneli kategoriyi içeren iki aşamalı kategori yapısı kullanır. Bu sistem, TREC-8 ve TREC-9'dan ilham alınan 570 soru ile eğitilip ve 570 diğer sorular, TREC-8, TREC-9 , ve TREK-10 verilerile test edilmiştir. SYS'mizde, sorguyu genişletme aşaması oldukça önemlidir ve genel olarak tüm performansı etkiler. Orijinal bir kullanıcı sorusu sorgulanmak üzere verildiğinde, elde edilen uygun dökümanlar yeterli olmayabilir. Bu durumda, sorgu şablonları ve soru tiplerine dayanan otomatik sorgu genişletme yaklaşımı sunmaktayız. Yeni sorgular, soru kategorilerinin sorgu şablonlarından elde edilir ve kullanıcı sorusunun kategorisi Naïve Bayes sınıflandırma algoritması tarafından bulunur. Genişletilmiş yeni sorgular, sorgu örüntüdaki boşlukları iki uygun sözcük öbeği ile doldurarak elde edilir. İlk öbek soru tipi öbeğidir ve doğrudan sınıflandırma algoritması tarafından bulunur. İkinci öbek soru öbeğidir ve olası soru şablonlarından Levenshtein uzaklık algoritması ile saptanır. Soru tipleri için sorgu şablonları, o soru tipleri içindeki olası soruları analiz ederek oluşturulur. Bu tezde, sorgu genişletme yaklaşımımızı TREC-8, TREC-9 ve TREC-10 konferans verilerinde yer alan tek yanıtlı soru tipleriyle iki aşamalı değerlendirmekteyiz. Otomatik sorgu genişletme yaklaşımımızın sonuçları elle yapılan sorgu genişletme yaklaşımı sonuçlarından daha iyi çıkmaktadır. Ağı sorgulayarak cevap kalıplarını otomatik olarak öğrendikten sonra, her soru tipi için cevap kalıbı gruplarını kullanmaktayız. Cevap kalıpları, ilgili metin bölümlerinden bulunan cevapları çekip alır ve bu cevap kalıbı Adlandırılmış Varlık Onayı (AVO) ile genellenebilir. AVO, cevap işleme aşamasındaki Bilgi Taramanın (BT) ikincil işidir ve metinsel dökümanlardaki terimleri yer ismi, kişi ismi, olay tarihi, vb gibi yeniden tanımlanmış kategoriler içerisinde sınıflandırır. Cevapların sıralanması, cevap kalıplarındaki frekans hesabı ve Güvenirlik Faktörü (GF) değerlerine bağlıdır. Sistemin sonuçları, yaklaşımımızın soru cevaplama için etkili olduğunu ve temel ince-taneli kategori sınıfımız için 0.58 Ortalama Karşılıklı Sıra (OKS) değeri, kaba-taneli kategori yapısı için 0.62 OKS değeri ve TREC-10 üzerinde veri kümelerini test ederek yapılan değerlendirme için 0.55 OKS değeri elde ettiğini gösteriyor. Sistemin sonucu, TREC veri kümeleri üzerinde standart ölçme kullanarak diğer SYS'ler ile kıyaslanmıştır.

Özet (Çeviri)

Question Answering (QA) is a field of Artificial Intelligence (AI) and Information Retrieval (IR) and Natural Language Processing (NLP), and leads to generating systems that answer to questions natural language in open and closed domains, automatically. Question Answering Systems (QASs) have to deal different types of user questions. While answers for some simple questions can be short phrases, answers for some more complex questions can be short texts. A question with a single is known as a factoid question, and a question answering system that deals with factoid questions is called a factoid QAS. In this thesis, we present a factoid QAS that consists of three phases: question processing, document/passage retrieval, and answer processing. In the question processing phase, we consider a new two-level category structure using machine learning techniques to generate search engine from user questions queries. Our factoid QAS uses the World Wide Web (WWW) as its corpus of texts and knowledge base in document/passage retrieval phase. Also, it is a pattern-based QAS using answer pattern matching technique in answer processing phase. We also present a classification of existing QASs. The classification contains early QASs, rule based QASs, pattern based QASs, NLP based QASs and machine learning based QASs. Also, our factoid QAS uses two-level category structure which included 17 coarse-grained and 57 fine-grained Categories. The system utilizes from category structure in order to extract answers of questions consists of 570 questions originated from TREC-8, TREC-9 questions as training dataset and 570 other questions and TREC-8, TREC-9, and TREC-10 questions as testing datasets. In our QAS, the query expansion step is very important and it affects the overall performance of our QAS. When an original user question is given as a query, the amount of retrieved relevant documents may not be enough. We present an automatic query expansion approach based on query templates and question types. New queries are generated from query templates of question categories and the category of a user question is found by a Naïve Bayes classification algorithm. New expanded queries are generated by filling gaps in query templates with two appropriate phrases. The first phrase is the question type phrase and it is found directly by the classification algorithm. The second phrase is the question phrase and it is detected from possible question templates by a Levenshtein distance algorithm. Query templates for question types are created by analyzing possible questions in those question types. We evaluated our query expansion approach with two-level category structure with factoid question type's include in TREC-8, TREC-9 and TREC-10 conference datasets. The results of our automatic query expansion approach outperform the results of manual query expansion approach. After automatically learning answer patterns by querying the web, we use answer pattern sets for each question types. Answer patterns extracts answers from retrieved related text segments, and answer pattern can be generalization with Named Entity Recognition (NER). The NER is a sub-task of Information Extraction (IE) in answer processing phase and classifies terms in the textual documents into redefined categories of interest such as location name, person name, date of event and etc. The ranking of answers is based on frequency counting and Confidence Factor (CF) values of answer patterns. The results of the system show that our approach is effective for question answering and it accomplishes 0.58 values Mean Reciprocal Rank (MRR) for our corpus fine-grained category class, 0.62 MRR values for coarse-grained category structure and 0.55 MRR values for evaluation by testing datasets on TREC-10. The results of the system have been compared with other QASs using standard measurement on TREC datasets.

Benzer Tezler

Tez No
424146
Open domain factoid question answering system
Açık alan tekil yanıtlı soru cevaplama sistemi
FATİH ÖZKAN
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Çankaya Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAN
Tez No
898295
A framework for open-domain question answering system
Açık çalışma alanı soru yanıtlama sistemi için bir çerçeve oluşturulması
HARUN BOLAT
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Yıldırım Beyazıt Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAHA ŞEN
Tez No
758409
Cross-level typing the logical form for open-domain semantic parsing
Açık alan anlambilimsel ayrıştırma için mantıksal forma düzeyler arası tür atanması
İSMET ADNAN ÖZTÜREL
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişsel Bilim Ana Bilim Dalı
PROF. DR. HÜSEYİN CEM BOZŞAHİN
Tez No
73775
Elizabeth Barrett Browning: Kadın şairin sesi
Elizabeth Barrett Browning: The woman poet's voice
HANDE SADUN
Doktora
İngilizce
1998
İngiliz Dili ve Edebiyatı Hacettepe Üniversitesi
İngiliz Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. OYA MENTEŞE
Tez No
915137
Developing morphology disambiguation and named entity recognition for amharic
Amharca morfolojik belirsizliği giderme ve adlandırılmış varlık tanıma geliştirilmesi
EBRAHIM CHEKOL JIBRIL
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ

Geri Dön