Geri Dön

A deep learning-based extractive text summarization system for Turkish news articles

Türkçe haber metinleri için derin öğrenme tabanlı çıkarıcı metin özetleme sistemi

  1. Tez No: 663848
  2. Yazar: ÖZCAN GÜNDEŞ
  3. Danışmanlar: YRD. DOÇ. AHMET ONUR DURAHİM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Gazetecilik, Computer Engineering and Computer Science and Control, Science and Technology, Journalism
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 114

Özet

Bu çalışmanın amacı, Türkçe haberler için önceden eğitilmiş dil modellerini kullanarak otomatik bir çıkarıcı özetleme sistemi geliştirmektir. Önceden eğitilmiş dil modelleri, birçok Doğal Dil İşleme görevinde kullanılmış ve yüksek performans sonuçları başarmıştır. Bu çalışmada, çıkarıcı özetleme görevi için derin öğrenme metotları ile önceden eğitilmiş Türkçe dil modelleri kullanılmıştır. Önerilen mimaride önceden eğitilmiş dil modeli üzerine, haberdeki belge düzeyindeki özellikleri ve cümleler arasındaki anlamsal ilişkileri yakalamak için fazladan Transformer katmanları eklenmiştir. Son olarak, haberde yer alan cümleler 0 ile 1 arasında bir değer üreten sigmoid fonksiyonu ile skorlanmıştır. Bu modeli eğitmek için, bilinen bir Türkçe haber sitesinden 2076 haber metni ilgili özetleriyle birlikte toplanmıştır. Veriler toplandıktan sonra, makalelerdeki her cümle, sezgisel bir algoritma ile 0 veya 1 olarak etiketlenmiş ve bu etiketler kullanılarak, çıkarıcı özetleme sistemi eğitilmiştir. Modeli test ederken ise model tarafından en yüksek skoru alan 5 cümle ile haberin özeti üretilmiştir. Ayrıca hiper parametrelerin etkilerini araştırmak amacıyla farklı hiper parametre setlerine sahip 241 farklı model çalıştırılmıştır. En iyi model 38.38 Rouge-1 F skoru, 26.8 Rouge-2 F skoru ve 38.04 Rouge-L F skoruna ulaşmıştır. Bu skorlar, 37.49, 26.4 ve 37.12 Rouge F skorlarına sahip LEAD-5 bazından önemli ölçüde daha yüksek oldukları için umut vericidir. Bu çalışmada LEAD-5, okuyucuların dikkatini çekmek amacıyla en önemli cümleler haberlerin başına yerleştirildiği için çok güçlü bir baz oluşturuyor. Dolayısıyla, önerilen model, Türkçe haber veri seti için oldukça iyi bir performans göstermektedir.

Özet (Çeviri)

The goal of this study is to develop an automated extractive summarization system for Turkish news using pre-trained language models. Pre-trained language models have been applied to wide range Natural Language Processing tasks and achieve state of the art performance results. In this thesis, pre-trained language models for Turkish are applied on extractive summarization task. The proposed model has a pre-trained language model and on top of it, Transformer layers are added to capture document level features and semantic relationships between the sentences in the news articles. Then, these sentences are scored with sigmoid function, which outputs a real value between 0 and 1. To train this model, 2076 news are collected from well-known Turkish news website. After the data collection, each sentence in the articles is labelled as 0 or 1 with a heuristic algorithm. By using these labels, an extractive model is trained. In the test time, Top-5 scoring sentences are combined to generate final summaries. Also, to investigate the effects of hyperparameters, 241 different models, which have different architecture and hyperparameter sets, are run. The best one has achieved 38.38 Rouge-1 F score, 26.8 Rouge-2 F score and 38.04 Rouge-L F score. These scores are promising since they are significantly greater than LEAD-5 baseline, which has 37.49, 26.4 and 37.12 Rouge F scores. For this study, LEAD-5 is very strong baseline since the most significant sentences are placed at the beginning of the news to capture the readers' attention. Therefore, the proposed model shows a good performance for Turkish news dataset.

Benzer Tezler

  1. Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi

    Generating news headline from Turkish news using deep learning methods

    ENİSE KARAKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU YILMAZ

  2. Çizge tabanlı metin özetleme

    Graph based text summarization

    CAN YALKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mühendislik BilimleriYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  3. Çıkarıcı Türkçe metin özetleme performansını iyileştirmek için yeni yöntemler

    New methods for improving the performance of extractive Turkish text summarization

    SALİH BAL

    Doktora

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EFNAN ŞORA GÜNAL

  4. Abstractive summarization with semantically-driven evaluation and reinforcement learning

    Anlamsal odaklı değerlendirme ve pekiştirmeli öğrenme ile soyutlayıcı özetleme

    FİGEN BEKEN FİKRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE BERRİN YANIKOĞLU YEŞİLYURT

    PROF. DR. KEMAL OFLAZER

  5. An evaluation of automatic text summarization techniques

    Otomatik metin özetleme tekniklerinin değerlendirilmesi

    MURAT GÜMÜŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TEVFİK AYTEKİN