Question analysis and information retrieval for a Turkish question answering system: Hazırcevap
Türkçe soru cevaplama sistemi için soru analizi ve bilgi çıkarımı: Hazırcevap
- Tez No: 371818
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 70
Özet
Bu çalışmada lise öğrencilerinin eğitimlerine yardımcı olması için geliştirilen kapalı-alan Türkçe tek cevaplı Soru Cevaplama (SC) sisteminin inşasında tasarlanan soru analizi ve bilgi çıkarımı (BÇ) modülleri için geliştirilmiş teknikler anlatılmakta ve değerlendirilmektedir. Verilen bir soruda tam olarak neyin sorulduğu ve cevaplamanın ne şekilde yapılması gerektiğini belirlemek için sorudan gerekli bilgileri çıkartan soru analizi, bir soru cevaplama sisteminin en önemli parçalarından biridir. Bu nedenle bu çalışmada soru analizindeki en önemli iki problem olan odak çıkarımı ve soru sınıflandırılması problemlerine, kural tabanlı ve Saklı Markov Modeli (SMM) tabanlı modellerin sentezinden oluşan ve sorudaki kelimeler arasındaki bağlılık ilişkilerini kullanan çözümler sunulmuştur. Ek olarak bir SC sisteminin bir başka önemli modülü olak BÇ modülü de incelenmiş, ve içerisinde verilen sorunun cevabının aranacağı ilgili bilgileri kümesinin verimli bir şekilde çıkartılması için de teknikler önerilmiştir. BÇ modülü, soru ile ilgili döküman ve pasajları Indri ve Apache Lucene arama motorlarını kullanarak bulmaya çalışmaktadır. Sunulan çözümler, üzerine sadece cevap modülünün eklenmesiyle tam bir SC sisteminin oluşturulabileceği bir altyapı oluşturmaktadır. Önerilen tüm çözümlerin karşılaştırmalı deneyleri, baz modelleri ile birlikte sunulmuştur. Bu çalışmada aynı zamanda, elle toplanıp işaretlenmiş Türkçe standard veri kümesi, bu alanda daha sonraki araştırmalarda kullanılmak üzere genel kullanıma açılmıştır.
Özet (Çeviri)
This study describes and evaluates the techniques we developed for the question analysis and information retrieval (IR) module of a closed-domain Turkish factoid Question Answering (QA) system that is intended for high-school students to support their education. Question analysis, which involves analyzing the questions to extract the necessary information for determining what is being asked and how to approach answering it, is one of the most crucial components of a QA system. Therefore, we propose novel methods for two major problems in question analysis, namely focus extraction and question classification, based on integrating a rule-based and a Hidden Markov Model (HMM) based sequence classification approach, both of which make use of the dependency relations among the words in the question. We also investigate the IR module, which is another critical aspect of a QA system, and introduce the IR module to efficiently gather the relevant information to a given question, with which the answer will be determined. IR module searches for the relevant documents and passages through the combined use of search engines Indri and Apache Lucene. Solution to these problems constitute the framework, on top of which a whole QA system can easily be built with only an addition of an answering module. Comparisons of all solutions with baseline models are provided. This study also offers a manually collected and annotated gold standard data set for further research in this area.
Benzer Tezler
- Türkçe tümcelerin öğelerinin bulunması
Finding constituents of Turkish sentences
NİLAY COŞKUN
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Design and implementation of Turkish question answering system
Türkçe soru cevap sisteminin tasarımı ve gerçekleştirimi
OKAN ÖZTÜRKMENOĞLU
Yüksek Lisans
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ADİL ALPKOÇAK
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Türkçe sözcük anlam belirsizliği giderme
Word sense disambiguation for Turkish
BAHAR İLGEN
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Türkçe kelimelerin biçim birimlerine ayrılması için kullanılacak standart biçim birimi kümesinin oluşturulması
A unified suffix set for morphological analysis of Turkish words
ÖZKAN ASLAN
Yüksek Lisans
Türkçe
2008
DilbilimMuğla Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. B. TANER DİNÇER