Metin analizi tabanlı soru cevaplama sistemleri için model tabanlı değerlendirme metriği
Model based evaluation metric for text analysis based question answering systems
- Tez No: 945838
- Danışmanlar: PROF. DR. MEHMET SIDDIK AKTAŞ, DOÇ. DR. BEYTULLAH YILDIZ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 115
Özet
Bu tezde Soru Cevaplama (SC) sistemlerinin değerlendirme süreçlerinde karşılaşılan temel eksiklikler ele alınmaktadır. Geleneksel değerlendirme metrikleri, SC sistemlerinin ürettiği yanıtların semantik doğruluğunu ve bağlamsal uygunluğunu tam olarak yansıtmamaktadır. Mevcut metrikler genellikle yüzeysel benzerliklere odaklanırken, karmaşık metinlerin ve terminolojilerin değerlendirilmesinde yetersiz kalmaktadır. Bu bağlamda, SC sistemlerinin cevaplarının doğruluğunu daha etkin bir şekilde ölçmek için yeni bir değerlendirme yaklaşımına ihtiyaç duyulmaktadır. Tez kapsamında, SC sistemleri için mevcut değerlendirme yöntemleri analiz edilmiştir. Bu tez kapsamında insan yargılarına dayalı veri kümeleri oluşturulmuştur. Elde edilen veri kümeleri sadece yüzeysel benzerliklere dayanmamakta aynı zamanda anlamsal benzerliklere dayalı olarakta oluşturulmuştur. Literatürdeki çalışmalar, mevcut metriklerin yüzeysel yöntemlere dayandığını ortaya koymaktadır. SC sistemlerinde sorulara verilen detaylı veya yazım hatası içeren yanıtların değerlendirmesi yapıldığında yeterli kaliteye ulaşılamadığını ortaya koymaktadır. Bu tez kapsamında bu sorunları ortadan kaldırabilmek için model tabanlı bir değerlendirme metriği önerilmiştir. Önerilen model tabanlı değerlendirme metriği için bu tez kapsamında, SC sistemlerinin yanıtlarını daha kapsamlı analiz edebilmek amacıyla, bir iş akışı tasarımı sunulmaktadır. Bu metrik ile birlikte, yanıtların semantik bütünlüğü ve bağlamsal uygunluğu değerlendirilerek geleneksel yöntemlerden daha yüksek doğruluk sağlamak hedeflenmektedir. Burdaki doğruluğun sağlandığını ortaya koyabilmek için, model tabanlı değerlendirme metriğinin insan değerlendirmeleriyle yüksek korelasyon gösterip göstermediği tez kapsamında irdelenmiştir. Bu çalışmada, SC sistemleri için geliştirilen değerlendirme metriğinin uçtan uca iş akışı detaylandırılmıştır. Metriklerin oluşturulmasında kullanılan veri kümeleri ve etiketleme süreçleri bu tez kapsamında detaylı olarak açıklanmaktadır. Bu tez kapsamında SC sistemlerinin değerlendirme süreçlerini daha güvenilir hale getirecek yeni bir değerlendirme yaklaşımı sunulmaktadır. Sonuç olarak, bu tez, SC sistemlerinin performansını daha adil ve objektif bir şekilde değerlendirmeye yönelik yeni bir metrik geliştirilmekte ve bu metriğin etkinliğini analiz edilmektedir. Bu çalışmada, SC sistemlerinin kullanım alanlarını genişletmek ve yanıt doğruluğunu artırmak için katkılar sunulmaktadır.
Özet (Çeviri)
This thesis addresses the fundamental deficiencies encountered in the evaluation processes of Question Answering (SC) systems. Traditional evaluation metrics do not fully reflect the semantic accuracy and contextual relevance of the answers produced by SC systems. While existing metrics generally focus on superficial similarities, they are insufficient in evaluating complex texts and terminologies. In this context, a new evaluation approach is needed to measure the accuracy of answers of SC systems more effectively. Within the scope of the thesis, existing evaluation methods for SC systems have been analyzed. Within the scope of this thesis, data sets based on human judgments have been created. The obtained data sets are not only based on superficial similarities, but also on semantic similarities. Studies in the literature reveal that existing metrics are based on superficial methods. It reveals that sufficient quality cannot be achieved when detailed or spelling-error answers given to questions in SC systems are evaluated. Within the scope of this thesis, a model-based evaluation metric is proposed to eliminate these problems. In this thesis, a workflow design is presented for the proposed model-based evaluation metric in order to analyze the responses of SC systems more comprehensively. With this metric, it is aimed to provide higher accuracy than traditional methods by evaluating the semantic integrity and contextual appropriateness of the responses. In order to demonstrate that the accuracy here is achieved, it is examined in the thesis whether the model-based evaluation metric shows a high correlation with human evaluations. In this study, the end-to-end workflow of the evaluation metric developed for SC systems is detailed. The datasets and labeling processes used in the creation of the metrics are explained in detail in this thesis. A new evaluation approach that will make the evaluation processes of SC systems more reliable is presented in this thesis. As a result, this thesis develops a new metric to evaluate the performance of SC systems in a more fair and objective way and analyzes the effectiveness of this metric. In this study, contributions are made to expand the areas of use of SC systems and increase response accuracy.
Benzer Tezler
- Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- Multimodal medical visual question answering: Knowledge spaces and semantic segmentation for improved and explainable AI
Çok-kipli tıbbi görsel soru cevaplama: Bilgi uzayları ve anlamsal bölütleme ile gelişmiş ve açıklanabilir yapay zekâ
ZİYA ATA YAZICI
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
- Deep learning-based preprocessing tools for Turkish natural language processing
Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları
BUSE AK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- TFEEC : Türkçe finansal olay çıkarım derlemi
TFEEC : Turkish financial event extraction corpus
KADİR ŞİNAS KAYNAK
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ