Geri Dön

Metin madenciliği ve derin ağlar ile soru cevap sistemi

Question answering system with text mining and deep networks

  1. Tez No: 886676
  2. Yazar: HÜSEYİN AVNİ ARDAÇ
  3. Danışmanlar: PROF. DR. PAKİZE ERDOĞMUŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 150

Özet

Günümüzde teknolojinin hızlı gelişimi, insanların yaşam şekillerinde birçok alışkanlığında değişimine sebep olmuştur. Pandeminin de etkisiyle eğitim başta olmak üzere birçok alanda yüz yüze iletişim oldukça azalmıştır. Birçok kurum sektörlerine yönelik verileri kullanmak amacıyla çalışmalar yapmaktadırlar. Gelişen yapay zekâ teknolojileriyle, bu çalışmalar firmalara katma değer kazandırmaktadır. Bu değeri kazandıran çalışma alanlarından biri de yapay zekânın alt dalı olan doğal dil işlemede soru cevaplama sistemleridir. Soru cevaplama sistemleri, kullanıcıların doğal dildeki sorularına cevap verebilme yeteneğine sahip sistemlerdir. Bu sistemler soruları anlama ve doğru cevapları bulma aşamalarından oluşmaktadır. Sorular doğal dil işleme teknikleriyle analiz edilir ve cevaplar bilgi çekme yöntemleriyle ilgili veri kaynaklarından elde edilir. Bu çalışmada, metin madenciliği ve derin ağlar kullanılarak soru cevaplama modelleri tasarlanmıştır. Önceden eğitilmiş İngilizce BERT-base modeli farklı hiperparametrelerle ince ayar tekniği kullanılarak Stanford Soru Cevaplama Veri Seti (SQuADv1.1) ile eğitimi yapılmıştır. Eğitim sonucu literatürde yapılan çalışmalara kıyasla %88,13 F1 skoru ve %80,74 Tam Eşleşme (Exact Match - EM) oranıyla yüksek başarı elde edilmiştir. Ardından Türkçe Tarih Soru Cevaplama Veri Seti (THQuADv1.0) üzerinde iyileştirme çalışması yapılmıştır. Veri setine Düzce Üniversitenin birimleriyle ilgili sorularda eklenerek THQuADv2.0 olarak güncellenmiştir. Önceden eğitilmiş Türkçe BERTurk-base modeli İngilizce modelde elde edilen başarılı hiperparametrelerle ince ayar tekniği kullanılarak THQuADv2.0 veri seti ile eğitimi yapılmıştır. Yapılan eğitim sonucunda Türkçe soru cevaplama için BERTDuQuA (BERT Düzce University Question Answering) modeli oluşturulmuştur. BERTDuQuA modeli %87,10 F1 skoru ve %76,90 EM ile yüksek başarı elde edilmiştir. BERT modeline BiLSTM katmanıda eklenerek yeni bir model oluşturulmuştur. Türkçe modelde elde edilen başarılı hiperparametrelerle ince ayar tekniği kullanılarak THQuADv2.0 veri seti ile eğitimi yapılmıştır. Yapılan eğitim sonucunda Türkçe soru cevaplama için BERTBiDuQuA (BERT&BiLSTM Duzce University Question Answering) modeli oluşturulmuştur. BERTBiDuQuA modeli %88,84 F1 skoru ve %78,43 EM ile yüksek başarı elde edilmiştir.

Özet (Çeviri)

Nowadays, the rapid development of technology has led to changes in many aspects of people's lifestyles. Due to the pandemic, face-to-face communication has decreased significantly, particularly in education. Institutions are now utilizing their data to improve their sectors. The use of artificial intelligence technologies adds value to companies. Question answering systems are a sub-branch of artificial intelligence that add value by answering users' questions in natural language. These systems consist of two stages: understanding the questions and finding the correct answers. The analysis of questions utilises natural language processing techniques, while answers are obtained through information extraction methods from relevant data sources. In this study, the design of question answering models using text mining and deep networks is presented. The pre-trained English BERT-base model was fine-tuned with the Stanford Question Answering Dataset (SQuADv1.1) using various hyperparameters and fine-tuning values. The results of the training show high success rates, with an F1 score of 88.13% and an Exact Match (EM) rate of 80.74%, compared to previous studies in the literature. An improvement study was conducted on the Turkish History Question Answering Dataset (THQuADv1.0), which was subsequently updated to THQuADv2.0 by adding questions related to Düzce University units. The pre-trained Turkish BERTurk-base model was then fine-tuned using the THQuADv2.0 dataset and the successful hyperparameters and fine-tuning values obtained from the English model.The training resulted in the creation of the BERTDuQuA (BERT Duzce University Question Answering) model for Turkish question answering, which achieved high performance with an F1 score of 87.10% and an EM of 76.90%. A novel model was devised by incorporating the BiLSTM layer into the BERT model. Training was conducted with the THQuADv2.0 dataset, utilising the fine-tuning technique with the optimal hyperparameters identified in the Turkish model. The outcome of this training was the BERTBiDuQuA (BERT&BiLSTM Duzce University Question Answering) model, which was developed for Turkish question answering. The BERTBiDuQuA model demonstrated high success, achieving an F1 score of 88.84% and an EM of 78.43%.

Benzer Tezler

  1. Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi

    A deep learning analysis on Turkish question classification task using word2vec representations

    ŞEYHMUS YILMAZ

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SİNAN TOKLU

  2. Metin madenciliği ve makine öğrenmesi ile internet sayfalarının sınıflandırılması

    Web page classification using text mining and machine learning

    İLKER ŞAHİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri MühendisliğiHacettepe Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OUMOUT CHOUSEIN OGLOU

  3. Science, technology and innovation-related text data analysis with deep neural networks

    Derin sinir ağları ile bilim, teknoloji ve inovasyon ile ilgili metin analizi

    NECİP GÖZÜAÇIK

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMAL OKAN ŞAKAR

    DOÇ. DR. SERCAN ÖZCAN

  4. Leveraging ai in construction management

    İnşaat proje yönetiminde yapay zekadan faydalanma

    BARAN AKOL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FATMA PINAR ÇAKMAK

  5. Classification of arabic text using convolutional neural networks

    Konvolutıonal neural ağları kullanılan arabıc metinin sınıflandırması

    BILAL SHAKIR FARAJ ALKHASAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FEHİM KÖYLÜ