A comprehensive evaluation metric for abstractive summarization: Leveraging similarity, entailment, and acceptability

Soyutlayıcı özetlemek, benzerlik, gereklilik, ve kabul edilebilirliği kullanan kapsamlı değerlendirme metriği

PDF İndir

Tez No: 812633
Yazar: MOHAMMED KHALID HILMI AL-BRIMAN
Danışmanlar: DOÇ. DR. BEYTULLAH YILDIZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Atılım Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 123

Özet

Uzun metinlerden otomatik olarak anlamlı özetler üretmek, birçok alanda büyük önem taşımaktadır. Transformer modeli gibi yeni sinir ağı mimarilerinin ortaya çıkması, kaliteli özetler üretebilen çok sayıda büyük dil modellerinin gelişmesine neden olmuştur. Fakat, özetleme modellerinin ürettiği özetler, önemli bir sorunu beraberinde getirmektedir. Özetleme modellerinin kalitesini ölçen, ROUGE gibi, standart otomatik değerlendirme metrikleri, kapsamlı bir değerlendirme yapmakta eksik kalmaktadır. Bu çalışmada, modeller tarafından üretilen ve insanlar tarafından yazılan örnek özetleri kullanan, SEAScore adlı yeni bir model tabanlı metrik sunuyoruz. Bu metrik, semantik benzerlik, doğal dil çıkarımı ve dilsel kabul edilebilirlik gibi çeşitli Doğal Dil İşleme yöntemlerini kullanır. Geliştirdiğimiz SEAScore metriği, daha önce eğitilmiş dil modelleri tarafından çıkarılan özellikleri kullanarak, özetleme modellerinin kalitelerini ölçen bir puan üretir. Bu tezde, üç tane özetleme modeli kullanarak yeni metriğimizin kalitesini ölçen deneyler yaptık. Deneysel sonuçlara göre, geliştirdiğimiz SEAScore metriği, bilinen standart metriklerine göre, insan tarafından üretilen değerlendirme puanları ile daha yüksek korelasyon sergileyerek başarılı sonuçlar sunmuştur.

Özet (Çeviri)

Producing meaningful automatic summaries from long textual documents is essential in various fields. The emergence of novel neural network architectures, such as the Transformer model, has led to the development of large pre-trained language models that can produce quality summaries. However, model-generated summaries suffer from many issues. Thus, standard automatic evaluation metrics, such as the ROUGE metric, fail to effectively evaluate the quality of summarization models. In this study, we introduce SEAScore, a new model-based automatic evaluation metric that can evaluate model-generated summaries against their counterpart reference summaries by utilizing multiple Natural Language Processing tasks such as Semantic Similarity, Natural Language Inference, and Linguistic Acceptability. SEAScore takes features extracted by pre-trained language models and produces an evaluation score to measure the quality of summarization models. In this thesis, we develop our new evaluation metric SEAScore and train three summarization models to assess our new metric. Experimental results show that SEAScore correlates better with human judgment than some standard metrics.

Benzer Tezler

Tez No
963027
A transformer-based archıtecture: The ınformer model for uav power consumptıon estımatıon
İha güç tüketimi tahmini için transformer tabanlı ınformer modeli
AHMET KAAN DURMAZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. GÜLAY ÖKE GÜNEL
Tez No
964929
Anomaly detection in ınternet of medical things using deep learning
Anomaly detect ionin internet of medical things using deep learning
AYŞE BETÜL BÜKEN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
Tez No
921995
Evaluation of vector and graph-based search methods in a banking knowledge platform using advanced language models
Bankacılık bilgi platformu için vektör ve grafik temelli arama yöntemlerinin gelişmiş dil modelleriyle değerlendirilmesi
BÜNYAMİN BAKIR
Yüksek Lisans
İngilizce
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Büyük Veri ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
826674
Cyber resilience ability control assessment on a risk centric and persona based ZTNA approach
Risk odaklı ve kişi tabanlı ZTNA yaklaşımında siber dayanıklılık yetenek kontrolü değerlendirmesi
YAPRAK KURTLUTEPE
Yüksek Lisans
İngilizce
2023
Yönetim Bilişim Sistemleri Kadir Has Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HASAN DAĞ
Tez No
943959
Investigation of process conditions in the preparation of biobased polyethylene masterbatch and development of innovative masterbatches
Biyoesaslı polietilen konsantre boya hazırlanmasında proses şartlarının incelenmesi ve yenilikçi biyoesaslı konsantre boyaların geliştirilmesi
MERT YÜCETÜRK
Doktora
İngilizce
2025
Polimer Bilim ve Teknolojisi İzmir Katip Çelebi Üniversitesi
Malzeme Bilimi ve Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ÖZGÜR SEYDİBEYOĞLU

Geri Dön