Geri Dön

Unraveling the capabilities of language models in news summarization: Performance evaluation and comparative study

Haber özetleme görevindeki dil modellerinin gücünü keşfetmek: Performans değerlendirmesi ve karşılaştırmalı çalışma

  1. Tez No: 937402
  2. Yazar: ABDURRAHMAN ODABAŞI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÖKSEL BİRİCİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Türk-Alman Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 84

Özet

Son zamanlarda birçok açık Büyük Dil Modelinin (LLM) piyasaya sunulması ve Doğal Dil İşleme görevlerinin özellikle özetleme görevinin iyileştirilmesine yönelik devam eden talep göz önüne alındığında, bu tez, haber özetleme görevinde 20 güncel LLM'nin kapsamlı bir kıyaslamasını sunmaktadır. Bu çalışma, üç farklı veri kümesi kullanarak, bu modellerin farklı tarzlardaki haber makalelerini özetleme kabiliyetini ve etkinliğini sistematik olarak değerlendirmektedir. Özellikle, bu çalışma sıfır atış (Zero-shot) ve az atış (Few-shot) öğrenme ortamlarına odaklanıp otomatik ölçümleri, insan değerlendirmesini ve değerlendirme esnasında bir LLM'i kullanan, Hakem-LLM olarak adlandırılan yöntemi entegre eden sağlam bir değerlendirme metodolojisi kullanmaktadır. İlginç bir şekilde, few-shot öğrenme senaryosunda tanıtım örneklerinin dahil edilmesi modellerin performansını artırmamış ve hatta bazı durumlarda daha kötü sonuçlara neden olmuştur. Bu sorun temel olarak referans olarak kullanılan altın özetlerin kalitesizliğinden kaynaklanmakta ve modellerin öğrenme sürecini engelleyerek performanslarını olumsuz yönde etkilemektedir. Ayrıca, çalışmamızın sonuçları, gelişmiş yetenekleri nedeniyle genellikle baskın olan GPT-3.5 ve GPT-4'ün olağanüstü performansını vurgulamaktadır. Bununla birlikte, değerlendirilen açık modeller arasında Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0 ve Zephyr-7B-Beta gibi bazı modeller umut vadeden sonuçlar göstermiştir. Bu modeller, haber özetleme görevi için özel modellere rekabetçi alternatifler olarak konumlandırılarak önemli bir potansiyel göstermiştir.

Özet (Çeviri)

Given the recent introduction of multiple public Large Language Models (LLMs) and the ongoing demand for improved Natural Language Processing tasks, particularly summarization, this thesis provides a comprehensive benchmarking of 20 recent LLMs on the news summarization task. The study systematically evaluates the capability and effectiveness of these models in summarizing news articles across different styles, utilizing three distinct datasets. Specifically, this study focuses on zero-shot and few-shot learning settings, employing a robust evaluation methodology that integrates automatic metrics, human evaluation, and LLM-as-a-judge. Interestingly, including demonstration examples in the few-shot learning setting did not enhance models' performance and, in some cases, even led to worse outcomes. This issue arises mainly due to the poor quality of the gold summaries used as references, which hinders the models' learning process and negatively impacts their performance. Furthermore, our study's results highlight the exceptional performance of GPT-3.5 and GPT-4, which generally dominate due to their advanced capabilities. However, among the public models evaluated, certain models such as Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, and Zephyr-7B-Beta demonstrated promising results. These models showed significant potential, positioning them as competitive alternatives to private models for the task of news summarization.

Benzer Tezler

  1. Havacılık jeopolitiği, potansiyel bölgenin tespiti ve tespit edilen bölgedeki bir uçak bakım merkezinin ekonomik modellemesinin yapılması

    Identification of potential investment region by the aviation geopolitics and economical modelling of maintenance repair and overhaul facility at this region

    AHMET UMUR ÇAKMAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. İBRAHİM ÖZKOL

  2. Dolusavak plaka boşlukları boyunca akım ve türbülans karakteristiği

    Flow and turbulent characteristic over spillways slab gaps

    MUHAMMED FATİH ÖZÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞEVKET ÇOKGÖR

  3. Ant colony optimization and greedy algorithm performance comparison in travelling salesman problem

    Gezgin satıcı probleminde karınca kolonisi optimizasyonu ve greedy algoritması performans karşılaştırması

    MERVE ECE GÖRGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BERRİN DENİZHAN

  4. Halkla ilişkiler mesleğinin profesyonelleşmesi: Bursa Halkla İlişkiler Derneği örneği

    The professionalisation of the public relations foundation: Bursa Public Relations Foundation sample

    CENGİZ ACAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Halkla İlişkilerSakarya Üniversitesi

    Sosyoloji Ana Bilim Dalı

    YRD. DOÇ. DR. PINAR YAZGAN HEPGÜL

  5. Bilişim teknolojisi altyapı kütüphaneliği çerçevesinde operasyonel süreçlerin süreç madenciliği, tahminleme ve kesikli olay simülasyonu ile iyileştirilmesi

    Improving operational processes through process mining, forecasting, and discrete-event simulation within the itil framework

    AYŞEGÜL KAÇAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERKAN IŞIKLI