Otomatik metin özetleme sistemi
Automatic tex summarization system
- Tez No: 329658
- Danışmanlar: YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Tez Türü: Doktora
- Konular: Matematik, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 123
Özet
Otomatik metin özetleme, bir bilgisayar programı aracılığı ile bir metnin özetlenmesi işlemidir. Bu işlem ile bilgisayara bir metin verilir ve bilgisayardan bu metne ait olan bir özet dokümanı alınır. Elde edilen özet dokümanı kullanıcıların inceledikleri metne ait olan ana temayı etkili bir şekilde anlamasını sağlar ve onların arama zamanını kısaltır.Bir otomatik metin özetleme sistemi, çıkarıma ve yoruma dayalı olan özetleme görevlerini gerçekleştirebilir. Çıkarıma dayalı olan özetleme işlemi var olan cümleler arasından en önemli olanlarını seçmeye dayalı iken, yoruma dayalı olan özetleme işlemi yeni cümlelerin üretilme aşamalarını kapsamaktadır. Yoruma dayalı olan özetleme yaklaşımları dokümanların derinlemesine incelenmesini gerektirir. Yoruma dayalı olan özetleme yaklaşımlarının aksine, çıkarıma dayalı olan özetleme yaklaşımları daha pratiktir. Bu yaklaşımların çoğu incelenen dokümanları, dokümanlara ait olan cümlelerin önem derecelerinin cümle skoru fonksiyonlarıyla ifade edilmesini sağlayan bazı yapısal ve anlamsal özellikler ile temsil etmektedir.Bu çalışma çıkarıma dayalı olan bir metin özetleme sistemi üzerinde yoğunlaşmıştır. Bu sistemde gizli anlamsal analiz temelli metin özetleme yöntemlerinde kullanılabilen yeni bir ağırlık değeri önerilmiştir. Önerilen yeni ağırlık değerine ait başarım sonucunun görülebilmesi için önerilen değer dört farklı gizli anlamsal analiz tabanlı yöntem üzerinde uygulanmış ve önerilen ağırlık değerinin tüm yöntem başarımlarını arttırdığı gösterilmiştir. Algoritmaların başarım analizleri insanlar tarafından oluşturulmuş olan dört farklı veri seti üzerinde analiz edilmiştir. Bu veri setlerinden ilk ikisi tez çalışması için hazırlanan yeni Türkçe veri setleridir. Son iki veri seti ise sık kullanılan İngilizce veri setlerini içermektedir. Başarım ölçüm değeri olarak ilk üç veri seti için ideal ve otomatik özetler arasındaki çakışan cümle sayısına dayalı olan F-ölçüm skoru kullanılmıştır. Son veri seti için ise ideal ve otomatik olarak oluşturulmuş özetler arasındaki çakışan Ngram sayısına bağlı olan ROUGE değerlendirme paketi kullanılmıştır.Tez çalışmasında ele alınan sistem aynı zamanda önemli cümle çıkarımı için yapısal ve anlamsal özelliklerin birleşimini sağlayan bir melez sistem önerisini de içermektedir. Önerilen sistem, içlerinden biri ilk kez tez çalışması kapsamında metin sınıflamadan metin özetlemeye adapte edilmiş olan, toplam on beş özelliği kapsamaktadır. Melez sistemde kullanılan özellikler iki farklı yaklaşım ile elde edilen ağırlıkların kullanılmasıyla birleştirilmiştir. Bu yaklaşımlardan ilki, özelliklerin ikili karşılaştırılmalarını içeren bir dizi uzman yargısına bağlı bir işlem olan bulanık analitik hiyerarşi sürecini kullanır. İkinci yaklaşım ise özellik ağırlıklarının otomatik olarak belirlenmesini sağlayan gerçek ve ikili kodlu genetik algoritmayı kullanmaktadır. Melez sisteminin başarım analizi Türkçe veri setleri üzerinde gerçekleştirilmiştir. Başarım ölçüm değeri olarak F-ölçüm skoru kullanılmıştır. Deneysel sonuçlar, özelliklerin birleştirilmesi suretiyle tüm özelliklerden yararlanılmasının, her bir özelliğin bireysel kullanımından daha iyi bir başarıma neden olduğunu göstermektedir.Sonuç olarak bu tezde metin özetleme konusu ile ilgili bir çok yaklaşım önerilmiş ve araştırmacılar için kullanışlı sonuçlar elde edilmiştir. Bu tezin metin özetleme alanında hem Türkiye'de hem de Dünya'da yapılan çalışmalara katkıda bulunması dileğimizdir.
Özet (Çeviri)
Automatic document summarization is a process where a computer summarizes a document. In this process, a document is entered into the computer and a summarized document is returned. The summarized document is extremely useful in allowing users to quickly understand the main theme of the whole document and effectively save their searching time.ADS can perform extractive and abstractive summarization tasks. Extractive summarization techniques involve selecting the most important existing sentences, whereas abstractive summarization techniques involve generating novel sentences from given documents. The abstractive summarization approaches require a deeper understanding of the documents. In contrast to the abstractive summarization approaches, extractive summarization approaches are more practical. Most of them represent documents with some structural and semantic sentence features that indicate sentence importance using a sentence score function.In this study, we focus on an extractive text summarization system. In this system we propose a new weighting scheme which can be used in Latent Semantic Analysis based text summarization methods. In order to see the performance of the proposed weighting scheme, we apply the new scheme on four different latent semantic analysis based summarization methods and we show that the proposed weighting factor makes improvements on all of the methods. The performance analysis of algorithms is conducted on the human-generated extractive summary corpora that include four different data sets. The first two data sets are new Turkish data sets prepared for the thesis study. The last two data sets are the most common English data sets that are used in text summarization studies. As a performance measure, for the first three data sets, we use the F-measure score that determines the coverage between the manually and automatically generated summaries. For the last English data set, we supplemented the above metric with the ROUGE evaluation toolkit that is based on Ngram co-occurrence between the manually generated and automatically generated summaries.The system also includes the proposal of a new hybrid system that combines structural and semantic sentence features used for important sentence extraction. The system employs fifteen features one of which is adapted from text categorization to text summarization for the first time. The features are combined by using weights calculated by two approaches. The first approach makes use of a fuzzy analytical hierarchical process which is a manual process that depends on a series of expert judgments based on pairwise comparisons of the features. The second approach makes use of the real and binary coded genetic algorithm for automatically determining the weights of the features. The performance analysis of hybrid system is conducted on the Turkish data sets. As a performance measure, we use the F-measure score that determines the coverage between the manually and automatically generated summaries. Experimental results show that exploiting all features by combining them resulted in a better performance than exploiting each feature individually.Consequently, in this thesis many new approaches about text summarization subject have been proposed and useful results for researches have been produced. It is our wish that this thesis contributes to the studies about text summarization research areas in Turkey and the world.
Benzer Tezler
- Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması
Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning
EBRU DUDAK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- A deep learning-based extractive text summarization system for Turkish news articles
Türkçe haber metinleri için derin öğrenme tabanlı çıkarıcı metin özetleme sistemi
ÖZCAN GÜNDEŞ
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
YRD. DOÇ. AHMET ONUR DURAHİM
- Derin öğrenme yöntemleri ile otomatik metin özetleme
Automatic text summarization with deep learning
NAZAN KEMALOĞLU ALAGÖZ
Doktora
Türkçe
2022
Mühendislik BilimleriSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ECİR UĞUR KÜÇÜKSİLLE
- Analyzing stemming and sentence simplification methodologies for turkish multi-document text summarization
Kök bulma ve cümle sadeleştirme yöntemlerinin türkçe çoklu belge özetleme üzerine etkileri
MUHAMMED YAVUZ NUZUMLALI
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN