Unraveling the capabilities of language models in news summarization: Performance evaluation and comparative study

Haber özetleme görevindeki dil modellerinin gücünü keşfetmek: Performans değerlendirmesi ve karşılaştırmalı çalışma

PDF İndir

Tez No: 937402
Yazar: ABDURRAHMAN ODABAŞI
Danışmanlar: DR. ÖĞR. ÜYESİ GÖKSEL BİRİCİK
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Türk-Alman Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Son zamanlarda birçok açık Büyük Dil Modelinin (LLM) piyasaya sunulması ve Doğal Dil İşleme görevlerinin özellikle özetleme görevinin iyileştirilmesine yönelik devam eden talep göz önüne alındığında, bu tez, haber özetleme görevinde 20 güncel LLM'nin kapsamlı bir kıyaslamasını sunmaktadır. Bu çalışma, üç farklı veri kümesi kullanarak, bu modellerin farklı tarzlardaki haber makalelerini özetleme kabiliyetini ve etkinliğini sistematik olarak değerlendirmektedir. Özellikle, bu çalışma sıfır atış (Zero-shot) ve az atış (Few-shot) öğrenme ortamlarına odaklanıp otomatik ölçümleri, insan değerlendirmesini ve değerlendirme esnasında bir LLM'i kullanan, Hakem-LLM olarak adlandırılan yöntemi entegre eden sağlam bir değerlendirme metodolojisi kullanmaktadır. İlginç bir şekilde, few-shot öğrenme senaryosunda tanıtım örneklerinin dahil edilmesi modellerin performansını artırmamış ve hatta bazı durumlarda daha kötü sonuçlara neden olmuştur. Bu sorun temel olarak referans olarak kullanılan altın özetlerin kalitesizliğinden kaynaklanmakta ve modellerin öğrenme sürecini engelleyerek performanslarını olumsuz yönde etkilemektedir. Ayrıca, çalışmamızın sonuçları, gelişmiş yetenekleri nedeniyle genellikle baskın olan GPT-3.5 ve GPT-4'ün olağanüstü performansını vurgulamaktadır. Bununla birlikte, değerlendirilen açık modeller arasında Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0 ve Zephyr-7B-Beta gibi bazı modeller umut vadeden sonuçlar göstermiştir. Bu modeller, haber özetleme görevi için özel modellere rekabetçi alternatifler olarak konumlandırılarak önemli bir potansiyel göstermiştir.

Özet (Çeviri)

Given the recent introduction of multiple public Large Language Models (LLMs) and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this thesis provides a comprehensive benchmarking of 20 recent LLMs on the news summarization task. The study systematically evaluates the capability and effectiveness of these models in summarizing news articles across different styles, utilizing three distinct datasets. Specifically, this study focuses on zero-shot and few-shot learning settings, employing a robust evaluation methodology that integrates automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse outcomes. This issue arises mainly due to the poor quality of the gold summaries used as references, which hinders the models' learning process and negatively impacts their performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5 and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to private models for the task of news summarization.

Benzer Tezler

Tez No
438163
Havacılık jeopolitiği, potansiyel bölgenin tespiti ve tespit edilen bölgedeki bir uçak bakım merkezinin ekonomik modellemesinin yapılması
Identification of potential investment region by the aviation geopolitics and economical modelling of maintenance repair and overhaul facility at this region
AHMET UMUR ÇAKMAK
Yüksek Lisans
Türkçe
2016
Uçak Mühendisliği İstanbul Teknik Üniversitesi
Uçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM ÖZKOL
Tez No
887227
Dolusavak plaka boşlukları boyunca akım ve türbülans karakteristiği
Flow and turbulent characteristic over spillways slab gaps
MUHAMMED FATİH ÖZÜN
Yüksek Lisans
Türkçe
2024
İnşaat Mühendisliği İstanbul Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEVKET ÇOKGÖR
Tez No
933215
Ant colony optimization and greedy algorithm performance comparison in travelling salesman problem
Gezgin satıcı probleminde karınca kolonisi optimizasyonu ve greedy algoritması performans karşılaştırması
MERVE ECE GÖRGÜN
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri Mühendisliği Sakarya Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BERRİN DENİZHAN
Tez No
296110
Halkla ilişkiler mesleğinin profesyonelleşmesi: Bursa Halkla İlişkiler Derneği örneği
The professionalisation of the public relations foundation: Bursa Public Relations Foundation sample
CENGİZ ACAR
Yüksek Lisans
Türkçe
2011
Halkla İlişkiler Sakarya Üniversitesi
Sosyoloji Ana Bilim Dalı
YRD. DOÇ. DR. PINAR YAZGAN HEPGÜL
Tez No
945180
Bilişim teknolojisi altyapı kütüphaneliği çerçevesinde operasyonel süreçlerin süreç madenciliği, tahminleme ve kesikli olay simülasyonu ile iyileştirilmesi
Improving operational processes through process mining, forecasting, and discrete-event simulation within the itil framework
AYŞEGÜL KAÇAR
Yüksek Lisans
Türkçe
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI

Geri Dön