Geri Dön

Metin analizi tabanlı soru cevaplama sistemleri için model tabanlı değerlendirme metriği

Model based evaluation metric for text analysis based question answering systems

  1. Tez No: 945838
  2. Yazar: DİLAN BAKIR
  3. Danışmanlar: PROF. DR. MEHMET SIDDIK AKTAŞ, DOÇ. DR. BEYTULLAH YILDIZ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 115

Özet

Bu tezde Soru Cevaplama (SC) sistemlerinin değerlendirme süreçlerinde karşılaşılan temel eksiklikler ele alınmaktadır. Geleneksel değerlendirme metrikleri, SC sistemlerinin ürettiği yanıtların semantik doğruluğunu ve bağlamsal uygunluğunu tam olarak yansıtmamaktadır. Mevcut metrikler genellikle yüzeysel benzerliklere odaklanırken, karmaşık metinlerin ve terminolojilerin değerlendirilmesinde yetersiz kalmaktadır. Bu bağlamda, SC sistemlerinin cevaplarının doğruluğunu daha etkin bir şekilde ölçmek için yeni bir değerlendirme yaklaşımına ihtiyaç duyulmaktadır. Tez kapsamında, SC sistemleri için mevcut değerlendirme yöntemleri analiz edilmiştir. Bu tez kapsamında insan yargılarına dayalı veri kümeleri oluşturulmuştur. Elde edilen veri kümeleri sadece yüzeysel benzerliklere dayanmamakta aynı zamanda anlamsal benzerliklere dayalı olarakta oluşturulmuştur. Literatürdeki çalışmalar, mevcut metriklerin yüzeysel yöntemlere dayandığını ortaya koymaktadır. SC sistemlerinde sorulara verilen detaylı veya yazım hatası içeren yanıtların değerlendirmesi yapıldığında yeterli kaliteye ulaşılamadığını ortaya koymaktadır. Bu tez kapsamında bu sorunları ortadan kaldırabilmek için model tabanlı bir değerlendirme metriği önerilmiştir. Önerilen model tabanlı değerlendirme metriği için bu tez kapsamında, SC sistemlerinin yanıtlarını daha kapsamlı analiz edebilmek amacıyla, bir iş akışı tasarımı sunulmaktadır. Bu metrik ile birlikte, yanıtların semantik bütünlüğü ve bağlamsal uygunluğu değerlendirilerek geleneksel yöntemlerden daha yüksek doğruluk sağlamak hedeflenmektedir. Burdaki doğruluğun sağlandığını ortaya koyabilmek için, model tabanlı değerlendirme metriğinin insan değerlendirmeleriyle yüksek korelasyon gösterip göstermediği tez kapsamında irdelenmiştir. Bu çalışmada, SC sistemleri için geliştirilen değerlendirme metriğinin uçtan uca iş akışı detaylandırılmıştır. Metriklerin oluşturulmasında kullanılan veri kümeleri ve etiketleme süreçleri bu tez kapsamında detaylı olarak açıklanmaktadır. Bu tez kapsamında SC sistemlerinin değerlendirme süreçlerini daha güvenilir hale getirecek yeni bir değerlendirme yaklaşımı sunulmaktadır. Sonuç olarak, bu tez, SC sistemlerinin performansını daha adil ve objektif bir şekilde değerlendirmeye yönelik yeni bir metrik geliştirilmekte ve bu metriğin etkinliğini analiz edilmektedir. Bu çalışmada, SC sistemlerinin kullanım alanlarını genişletmek ve yanıt doğruluğunu artırmak için katkılar sunulmaktadır.

Özet (Çeviri)

This thesis addresses the fundamental deficiencies encountered in the evaluation processes of Question Answering (SC) systems. Traditional evaluation metrics do not fully reflect the semantic accuracy and contextual relevance of the answers produced by SC systems. While existing metrics generally focus on superficial similarities, they are insufficient in evaluating complex texts and terminologies. In this context, a new evaluation approach is needed to measure the accuracy of answers of SC systems more effectively. Within the scope of the thesis, existing evaluation methods for SC systems have been analyzed. Within the scope of this thesis, data sets based on human judgments have been created. The obtained data sets are not only based on superficial similarities, but also on semantic similarities. Studies in the literature reveal that existing metrics are based on superficial methods. It reveals that sufficient quality cannot be achieved when detailed or spelling-error answers given to questions in SC systems are evaluated. Within the scope of this thesis, a model-based evaluation metric is proposed to eliminate these problems. In this thesis, a workflow design is presented for the proposed model-based evaluation metric in order to analyze the responses of SC systems more comprehensively. With this metric, it is aimed to provide higher accuracy than traditional methods by evaluating the semantic integrity and contextual appropriateness of the responses. In order to demonstrate that the accuracy here is achieved, it is examined in the thesis whether the model-based evaluation metric shows a high correlation with human evaluations. In this study, the end-to-end workflow of the evaluation metric developed for SC systems is detailed. The datasets and labeling processes used in the creation of the metrics are explained in detail in this thesis. A new evaluation approach that will make the evaluation processes of SC systems more reliable is presented in this thesis. As a result, this thesis develops a new metric to evaluate the performance of SC systems in a more fair and objective way and analyzes the effectiveness of this metric. In this study, contributions are made to expand the areas of use of SC systems and increase response accuracy.

Benzer Tezler

  1. Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

    Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

    ISMAIL OUBAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SELCUK SENER

  2. Financial named entity recognition for turkish news texts

    Türkçe haber metinlerinde finansal varlık ismi tanıma

    DUYGU DİNÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ HİKMET DOĞRU

    PROF. DR. PINAR KARAGÖZ

  3. Multimodal medical visual question answering: Knowledge spaces and semantic segmentation for improved and explainable AI

    Çok-kipli tıbbi görsel soru cevaplama: Bilgi uzayları ve anlamsal bölütleme ile gelişmiş ve açıklanabilir yapay zekâ

    ZİYA ATA YAZICI

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAZIM KEMAL EKENEL

  4. Deep learning-based preprocessing tools for Turkish natural language processing

    Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları

    BUSE AK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. TFEEC : Türkçe finansal olay çıkarım derlemi

    TFEEC : Turkish financial event extraction corpus

    KADİR ŞİNAS KAYNAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ