Geri Dön

Çıkarımsal metin özetleme yöntemlerinin Türkçe metinler üzerinde karşılaştırılması

Comparison of extractive text summarization methods in Turkish texts

  1. Tez No: 860679
  2. Yazar: SEMİH MARANGOZ
  3. Danışmanlar: PROF. DR. AHMET SAYAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgi ve Belge Yönetimi, Information and Records Management
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 87

Özet

Çıkarımsal otomatik metin özetleme üzerine olan bu çalışmada, diğer dillerde sıklıkla kullanılan metin özetleme algoritmaları karşılaştırılmıştır. Bu algoritmaların, sondan eklemeli yapısı sebebiyle Türkçe üzerindeki etkisi, üzerinde fazlaca çalışma gerçekleştirilen İngilizce ve Çince kadar iyi olmayabilmektedir. Bu doğrultuda çıkarımsal metin özetleme yaklaşımlarından en fazla kullanılanlar araştırılarak, bazıları Türkçe metinler üzerinde test edilip karşılaştırılmıştır. Çalışma doğrultusunda, üç kişi tarafından özetlenen 130 verili haber metni veri setinin TextRank, LexRank, Luhn algoritmaları ve iki adet de kelime frekans bazına dayanan geliştirdiğimiz özetleme algoritması ile beş adet özeti oluşturulmuş, çıktıların referans özetlerle kıyaslanarak Rouge Metrik algoritmasıyla benzerlik metrikleri çıkartılmıştır. Kullanılan özetleme algoritmaları, ilgili çalışmalar incelenerek, en çok kullanılan çıkarımsal metin özetleme algoritmaları arasından tercih edilmiştir. Otomatik özetlemelerin öncesinde veri setindeki metinler ve referans özetler incelenmiş ve dil kurallarına uymayan, yazım yanlışı bulunan kelimeler güncellenerek sonucun daha anlamlı olması hedeflenmiştir. Çıkan değerler incelenip, yöntem analizlerinin Türkçe dili özelinde ne ölçüde fayda sağladığı karşılaştırılıp, sonuca dayalı tespit ve çıkarımlar üzerinde durulmuştur. Karşılaştırma neticesinde, kelime kökünün cümlede geçme sıklığına bakılarak cümle seçimine dayalı geliştirilen algoritmanın en yüksek benzerlik değerine sahip olduğu görülmüştür. Çalışma neticesinde Türkçe için en uygun otomatik özetleme algoritması tespit edilerek, bu doğrultuda hangi yöntemin hangi yönden uygulanabilir olduğu, ne şekilde çalışıldığı takdirde daha kazançlı sonuçlara ulaşılabileceği ve hangi yönlerinin güçlendirilmesi gerektiği ile ilgili çıkarımlarda bulunulabilir. Bu şekilde Türkçe dili özelinde özetlemenin profesyonel sonuca ulaşması hedeflenmektedir.

Özet (Çeviri)

In this study focusing on extractive automatic text summarization, popular text summarization algorithms commonly used in other languages were compared. Due to their suffix-based structure, the impact of these algorithms on Turkish may not be as effective as English and Chinese, which have been extensively studied. Accordingly, the most commonly used extractive text summarization approaches were investigated, and some of them were tested and compared on Turkish texts. In line with the study, five summaries were generated using the TextRank, LexRank, Luhn algorithms, and two word frequency-based summarization algorithms that we developed, based on a dataset of 130 news texts summarized by three individuals. The similarity metrics were calculated using the Rouge Metric algorithm by comparing the output summaries with the reference summaries. The selected summarization algorithms were chosen among the most commonly used extractive text summarization algorithms. Prior to automatic summarization, the texts in the dataset and the reference summaries were examined, and words with grammatical errors and spelling mistakes were updated to aim for a more meaningful outcome. As a result of the comparison, it was observed that the algorithm developed based on sentence selection using the frequency of word stems had the highest similarity value. The study's outcome will involve the identification of the most suitable automatic summarization algorithm for Turkish. In this context, conclusions can be drawn regarding the applicability of various methods, the potential for achieving more advantageous results when approached from specific angles, and the aspects requiring reinforcement. This way, the aim is to facilitate the attainment of proficient outcomes in Turkish-specific summarization, thus ensuring a professional culmination.

Benzer Tezler

  1. Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi

    Generating news headline from Turkish news using deep learning methods

    ENİSE KARAKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU YILMAZ

  2. Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması

    Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning

    EBRU DUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. PAKİZE ERDOĞMUŞ

  3. Metin çizgelerinde bağımsız kümelere dayalı çıkarımsal metin özetleme

    Extractive text summarization based on independent sets in text graphs

    TANER UÇKAN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ KARCI

  4. Abstractive text summarization for morphologically rich languages

    Biçimbilimsel açıdan zengin dillerde soyutlamalı metin özetleme

    BATUHAN BAYKARA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNGA GÜNGÖR

  5. Otomatik metin özetleme sistemi

    Automatic tex summarization system

    AYSUN GÜRAN

    Doktora

    Türkçe

    Türkçe

    2013

    MatematikYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT