Çıkarımsal metin özetleme yöntemlerinin Türkçe metinler üzerinde karşılaştırılması

Comparison of extractive text summarization methods in Turkish texts

PDF İndir

Tez No: 860679
Yazar: SEMİH MARANGOZ
Danışmanlar: PROF. DR. AHMET SAYAR
Tez Türü: Yüksek Lisans
Konular: Bilgi ve Belge Yönetimi, Information and Records Management
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: Türkçe
Üniversite: Kocaeli Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 87

Özet

Çıkarımsal otomatik metin özetleme üzerine olan bu çalışmada, diğer dillerde sıklıkla kullanılan metin özetleme algoritmaları karşılaştırılmıştır. Bu algoritmaların, sondan eklemeli yapısı sebebiyle Türkçe üzerindeki etkisi, üzerinde fazlaca çalışma gerçekleştirilen İngilizce ve Çince kadar iyi olmayabilmektedir. Bu doğrultuda çıkarımsal metin özetleme yaklaşımlarından en fazla kullanılanlar araştırılarak, bazıları Türkçe metinler üzerinde test edilip karşılaştırılmıştır. Çalışma doğrultusunda, üç kişi tarafından özetlenen 130 verili haber metni veri setinin TextRank, LexRank, Luhn algoritmaları ve iki adet de kelime frekans bazına dayanan geliştirdiğimiz özetleme algoritması ile beş adet özeti oluşturulmuş, çıktıların referans özetlerle kıyaslanarak Rouge Metrik algoritmasıyla benzerlik metrikleri çıkartılmıştır. Kullanılan özetleme algoritmaları, ilgili çalışmalar incelenerek, en çok kullanılan çıkarımsal metin özetleme algoritmaları arasından tercih edilmiştir. Otomatik özetlemelerin öncesinde veri setindeki metinler ve referans özetler incelenmiş ve dil kurallarına uymayan, yazım yanlışı bulunan kelimeler güncellenerek sonucun daha anlamlı olması hedeflenmiştir. Çıkan değerler incelenip, yöntem analizlerinin Türkçe dili özelinde ne ölçüde fayda sağladığı karşılaştırılıp, sonuca dayalı tespit ve çıkarımlar üzerinde durulmuştur. Karşılaştırma neticesinde, kelime kökünün cümlede geçme sıklığına bakılarak cümle seçimine dayalı geliştirilen algoritmanın en yüksek benzerlik değerine sahip olduğu görülmüştür. Çalışma neticesinde Türkçe için en uygun otomatik özetleme algoritması tespit edilerek, bu doğrultuda hangi yöntemin hangi yönden uygulanabilir olduğu, ne şekilde çalışıldığı takdirde daha kazançlı sonuçlara ulaşılabileceği ve hangi yönlerinin güçlendirilmesi gerektiği ile ilgili çıkarımlarda bulunulabilir. Bu şekilde Türkçe dili özelinde özetlemenin profesyonel sonuca ulaşması hedeflenmektedir.

Özet (Çeviri)

In this study focusing on extractive automatic text summarization, popular text summarization algorithms commonly used in other languages were compared. Due to their suffix-based structure, the impact of these algorithms on Turkish may not be as effective as English and Chinese, which have been extensively studied. Accordingly, the most commonly used extractive text summarization approaches were investigated, and some of them were tested and compared on Turkish texts. In line with the study, five summaries were generated using the TextRank, LexRank, Luhn algorithms, and two word frequency-based summarization algorithms that we developed, based on a dataset of 130 news texts summarized by three individuals. The similarity metrics were calculated using the Rouge Metric algorithm by comparing the output summaries with the reference summaries. The selected summarization algorithms were chosen among the most commonly used extractive text summarization algorithms. Prior to automatic summarization, the texts in the dataset and the reference summaries were examined, and words with grammatical errors and spelling mistakes were updated to aim for a more meaningful outcome. As a result of the comparison, it was observed that the algorithm developed based on sentence selection using the frequency of word stems had the highest similarity value. The study's outcome will involve the identification of the most suitable automatic summarization algorithm for Turkish. In this context, conclusions can be drawn regarding the applicability of various methods, the potential for achieving more advantageous results when approached from specific angles, and the aspects requiring reinforcement. This way, the aim is to facilitate the attainment of proficient outcomes in Turkish-specific summarization, thus ensuring a professional culmination.

Benzer Tezler

Tez No
606558
Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gebze Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
Tez No
634927
Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması
Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning
EBRU DUDAK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Düzce Üniversitesi
Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ
Tez No
619020
Metin çizgelerinde bağımsız kümelere dayalı çıkarımsal metin özetleme
Extractive text summarization based on independent sets in text graphs
TANER UÇKAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İnönü Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ KARCI
Tez No
950495
Büyük dil modelleri kullanan derin öğrenme tabanlı dinamik çok modlu veri özetleme yaklaşımları
Deep learning based multi modal data summarization approaches using large language models
TURAN GÖKTUĞ ALTUNDOĞAN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET KARAKÖSE
Tez No
832218
Abstractive text summarization for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde soyutlamalı metin özetleme
BATUHAN BAYKARA
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR

Geri Dön