Unraveling the capabilities of language models in news summarization: Performance evaluation and comparative study
Haber özetleme görevindeki dil modellerinin gücünü keşfetmek: Performans değerlendirmesi ve karşılaştırmalı çalışma
- Tez No: 937402
- Danışmanlar: DR. ÖĞR. ÜYESİ GÖKSEL BİRİCİK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Türk-Alman Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Son zamanlarda birçok açık Büyük Dil Modelinin (LLM) piyasaya sunulması ve Doğal Dil İşleme görevlerinin özellikle özetleme görevinin iyileştirilmesine yönelik devam eden talep göz önüne alındığında, bu tez, haber özetleme görevinde 20 güncel LLM'nin kapsamlı bir kıyaslamasını sunmaktadır. Bu çalışma, üç farklı veri kümesi kullanarak, bu modellerin farklı tarzlardaki haber makalelerini özetleme kabiliyetini ve etkinliğini sistematik olarak değerlendirmektedir. Özellikle, bu çalışma sıfır atış (Zero-shot) ve az atış (Few-shot) öğrenme ortamlarına odaklanıp otomatik ölçümleri, insan değerlendirmesini ve değerlendirme esnasında bir LLM'i kullanan, Hakem-LLM olarak adlandırılan yöntemi entegre eden sağlam bir değerlendirme metodolojisi kullanmaktadır. İlginç bir şekilde, few-shot öğrenme senaryosunda tanıtım örneklerinin dahil edilmesi modellerin performansını artırmamış ve hatta bazı durumlarda daha kötü sonuçlara neden olmuştur. Bu sorun temel olarak referans olarak kullanılan altın özetlerin kalitesizliğinden kaynaklanmakta ve modellerin öğrenme sürecini engelleyerek performanslarını olumsuz yönde etkilemektedir. Ayrıca, çalışmamızın sonuçları, gelişmiş yetenekleri nedeniyle genellikle baskın olan GPT-3.5 ve GPT-4'ün olağanüstü performansını vurgulamaktadır. Bununla birlikte, değerlendirilen açık modeller arasında Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0 ve Zephyr-7B-Beta gibi bazı modeller umut vadeden sonuçlar göstermiştir. Bu modeller, haber özetleme görevi için özel modellere rekabetçi alternatifler olarak konumlandırılarak önemli bir potansiyel göstermiştir.
Özet (Çeviri)
Given the recent introduction of multiple public Large Language Models (LLMs) and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this thesis provides a comprehensive benchmarking of 20 recent LLMs on the news summarization task. The study systematically evaluates the capability and effectiveness of these models in summarizing news articles across different styles, utilizing three distinct datasets. Specifically, this study focuses on zero-shot and few-shot learning settings, employing a robust evaluation methodology that integrates automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse outcomes. This issue arises mainly due to the poor quality of the gold summaries used as references, which hinders the models' learning process and negatively impacts their performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5 and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to private models for the task of news summarization.
Benzer Tezler
- Havacılık jeopolitiği, potansiyel bölgenin tespiti ve tespit edilen bölgedeki bir uçak bakım merkezinin ekonomik modellemesinin yapılması
Identification of potential investment region by the aviation geopolitics and economical modelling of maintenance repair and overhaul facility at this region
AHMET UMUR ÇAKMAK
Yüksek Lisans
Türkçe
2016
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. İBRAHİM ÖZKOL
- Dolusavak plaka boşlukları boyunca akım ve türbülans karakteristiği
Flow and turbulent characteristic over spillways slab gaps
MUHAMMED FATİH ÖZÜN
Yüksek Lisans
Türkçe
2024
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEVKET ÇOKGÖR
- Ant colony optimization and greedy algorithm performance comparison in travelling salesman problem
Gezgin satıcı probleminde karınca kolonisi optimizasyonu ve greedy algoritması performans karşılaştırması
MERVE ECE GÖRGÜN
Yüksek Lisans
İngilizce
2024
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BERRİN DENİZHAN
- Halkla ilişkiler mesleğinin profesyonelleşmesi: Bursa Halkla İlişkiler Derneği örneği
The professionalisation of the public relations foundation: Bursa Public Relations Foundation sample
CENGİZ ACAR
Yüksek Lisans
Türkçe
2011
Halkla İlişkilerSakarya ÜniversitesiSosyoloji Ana Bilim Dalı
YRD. DOÇ. DR. PINAR YAZGAN HEPGÜL
- Bilişim teknolojisi altyapı kütüphaneliği çerçevesinde operasyonel süreçlerin süreç madenciliği, tahminleme ve kesikli olay simülasyonu ile iyileştirilmesi
Improving operational processes through process mining, forecasting, and discrete-event simulation within the itil framework
AYŞEGÜL KAÇAR
Yüksek Lisans
Türkçe
2025
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI