Çıkarımsal metin özetleme yöntemlerinin Türkçe metinler üzerinde karşılaştırılması
Comparison of extractive text summarization methods in Turkish texts
- Tez No: 860679
- Danışmanlar: PROF. DR. AHMET SAYAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgi ve Belge Yönetimi, Information and Records Management
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Kocaeli Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 87
Özet
Çıkarımsal otomatik metin özetleme üzerine olan bu çalışmada, diğer dillerde sıklıkla kullanılan metin özetleme algoritmaları karşılaştırılmıştır. Bu algoritmaların, sondan eklemeli yapısı sebebiyle Türkçe üzerindeki etkisi, üzerinde fazlaca çalışma gerçekleştirilen İngilizce ve Çince kadar iyi olmayabilmektedir. Bu doğrultuda çıkarımsal metin özetleme yaklaşımlarından en fazla kullanılanlar araştırılarak, bazıları Türkçe metinler üzerinde test edilip karşılaştırılmıştır. Çalışma doğrultusunda, üç kişi tarafından özetlenen 130 verili haber metni veri setinin TextRank, LexRank, Luhn algoritmaları ve iki adet de kelime frekans bazına dayanan geliştirdiğimiz özetleme algoritması ile beş adet özeti oluşturulmuş, çıktıların referans özetlerle kıyaslanarak Rouge Metrik algoritmasıyla benzerlik metrikleri çıkartılmıştır. Kullanılan özetleme algoritmaları, ilgili çalışmalar incelenerek, en çok kullanılan çıkarımsal metin özetleme algoritmaları arasından tercih edilmiştir. Otomatik özetlemelerin öncesinde veri setindeki metinler ve referans özetler incelenmiş ve dil kurallarına uymayan, yazım yanlışı bulunan kelimeler güncellenerek sonucun daha anlamlı olması hedeflenmiştir. Çıkan değerler incelenip, yöntem analizlerinin Türkçe dili özelinde ne ölçüde fayda sağladığı karşılaştırılıp, sonuca dayalı tespit ve çıkarımlar üzerinde durulmuştur. Karşılaştırma neticesinde, kelime kökünün cümlede geçme sıklığına bakılarak cümle seçimine dayalı geliştirilen algoritmanın en yüksek benzerlik değerine sahip olduğu görülmüştür. Çalışma neticesinde Türkçe için en uygun otomatik özetleme algoritması tespit edilerek, bu doğrultuda hangi yöntemin hangi yönden uygulanabilir olduğu, ne şekilde çalışıldığı takdirde daha kazançlı sonuçlara ulaşılabileceği ve hangi yönlerinin güçlendirilmesi gerektiği ile ilgili çıkarımlarda bulunulabilir. Bu şekilde Türkçe dili özelinde özetlemenin profesyonel sonuca ulaşması hedeflenmektedir.
Özet (Çeviri)
In this study focusing on extractive automatic text summarization, popular text summarization algorithms commonly used in other languages were compared. Due to their suffix-based structure, the impact of these algorithms on Turkish may not be as effective as English and Chinese, which have been extensively studied. Accordingly, the most commonly used extractive text summarization approaches were investigated, and some of them were tested and compared on Turkish texts. In line with the study, five summaries were generated using the TextRank, LexRank, Luhn algorithms, and two word frequency-based summarization algorithms that we developed, based on a dataset of 130 news texts summarized by three individuals. The similarity metrics were calculated using the Rouge Metric algorithm by comparing the output summaries with the reference summaries. The selected summarization algorithms were chosen among the most commonly used extractive text summarization algorithms. Prior to automatic summarization, the texts in the dataset and the reference summaries were examined, and words with grammatical errors and spelling mistakes were updated to aim for a more meaningful outcome. As a result of the comparison, it was observed that the algorithm developed based on sentence selection using the frequency of word stems had the highest similarity value. The study's outcome will involve the identification of the most suitable automatic summarization algorithm for Turkish. In this context, conclusions can be drawn regarding the applicability of various methods, the potential for achieving more advantageous results when approached from specific angles, and the aspects requiring reinforcement. This way, the aim is to facilitate the attainment of proficient outcomes in Turkish-specific summarization, thus ensuring a professional culmination.
Benzer Tezler
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması
Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning
EBRU DUDAK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ
- Metin çizgelerinde bağımsız kümelere dayalı çıkarımsal metin özetleme
Extractive text summarization based on independent sets in text graphs
TANER UÇKAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ KARCI
- Abstractive text summarization for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde soyutlamalı metin özetleme
BATUHAN BAYKARA
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Otomatik metin özetleme sistemi
Automatic tex summarization system
AYSUN GÜRAN
Doktora
Türkçe
2013
MatematikYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT