Geri Dön

A comprehensive evaluation metric for abstractive summarization: Leveraging similarity, entailment, and acceptability

Soyutlayıcı özetlemek, benzerlik, gereklilik, ve kabul edilebilirliği kullanan kapsamlı değerlendirme metriği

  1. Tez No: 812633
  2. Yazar: MOHAMMED KHALID HILMI AL-BRIMAN
  3. Danışmanlar: DOÇ. DR. BEYTULLAH YILDIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Atılım Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 123

Özet

Uzun metinlerden otomatik olarak anlamlı özetler üretmek, birçok alanda büyük önem taşımaktadır. Transformer modeli gibi yeni sinir ağı mimarilerinin ortaya çıkması, kaliteli özetler üretebilen çok sayıda büyük dil modellerinin gelişmesine neden olmuştur. Fakat, özetleme modellerinin ürettiği özetler, önemli bir sorunu beraberinde getirmektedir. Özetleme modellerinin kalitesini ölçen, ROUGE gibi, standart otomatik değerlendirme metrikleri, kapsamlı bir değerlendirme yapmakta eksik kalmaktadır. Bu çalışmada, modeller tarafından üretilen ve insanlar tarafından yazılan örnek özetleri kullanan, SEAScore adlı yeni bir model tabanlı metrik sunuyoruz. Bu metrik, semantik benzerlik, doğal dil çıkarımı ve dilsel kabul edilebilirlik gibi çeşitli Doğal Dil İşleme yöntemlerini kullanır. Geliştirdiğimiz SEAScore metriği, daha önce eğitilmiş dil modelleri tarafından çıkarılan özellikleri kullanarak, özetleme modellerinin kalitelerini ölçen bir puan üretir. Bu tezde, üç tane özetleme modeli kullanarak yeni metriğimizin kalitesini ölçen deneyler yaptık. Deneysel sonuçlara göre, geliştirdiğimiz SEAScore metriği, bilinen standart metriklerine göre, insan tarafından üretilen değerlendirme puanları ile daha yüksek korelasyon sergileyerek başarılı sonuçlar sunmuştur.

Özet (Çeviri)

Producing meaningful automatic summaries from long textual documents is essential in various fields. The emergence of novel neural network architectures, such as the Transformer model, has led to the development of large pre-trained language models that can produce quality summaries. However, model-generated summaries suffer from many issues. Thus, standard automatic evaluation metrics, such as the ROUGE metric, fail to effectively evaluate the quality of summarization models. In this study, we introduce SEAScore, a new model-based automatic evaluation metric that can evaluate model-generated summaries against their counterpart reference summaries by utilizing multiple Natural Language Processing tasks such as Semantic Similarity, Natural Language Inference, and Linguistic Acceptability. SEAScore takes features extracted by pre-trained language models and produces an evaluation score to measure the quality of summarization models. In this thesis, we develop our new evaluation metric SEAScore and train three summarization models to assess our new metric. Experimental results show that SEAScore correlates better with human judgment than some standard metrics.

Benzer Tezler

  1. Cyber resilience ability control assessment on a risk centric and persona based ZTNA approach

    Risk odaklı ve kişi tabanlı ZTNA yaklaşımında siber dayanıklılık yetenek kontrolü değerlendirmesi

    YAPRAK KURTLUTEPE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Yönetim Bilişim SistemleriKadir Has Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HASAN DAĞ

  2. An improved multi-component metric for spatial pattern calibration of hydrologic models

    Hidrolojik modellerin örüntüye dayalı kalibrasyonu için çok bileşenli metrik geliştirilmesi

    EYMEN BERKAY YORULMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET CÜNEYD DEMİREL

  3. A composed technical debt identification methodology to predict software vulnerabilities

    Yazılım zafiyetlerini tahmin etmek için kapsamlı bir teknik borç tanımlama yöntemi

    RUŞEN HALEPMOLLASI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYŞE TOSUN KÜHN

  4. Nosql veritabanı sistemlerinin performans karşılaştırılması ve analizi

    Comparison and analysis of the performance of nosql database systems

    SÜLEYMAN ÖNDER

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDULLAH SEVİN

  5. Developing a new cognitive workload assessment equation for office staff

    Ofis çalışanlarının bilişsel ağırlıklı iş yükünü belirlemek için yeni bir denklem

    NEVCİHAN TORAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Endüstri ve Endüstri MühendisliğiGaziantep Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERAP ULUSAM SEÇKİNER