Çizge tabanlı metin özetleme
Graph based text summarization
- Tez No: 378409
- Danışmanlar: YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Tez Türü: Yüksek Lisans
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Günümüzde teknolojinin katkısıyla veri miktarı çok artmıştır dolayısıyla doğru orantılı olarak doküman sayısındaki artış da ivme kazanmıştır. Bu denli bir artış bilgiye ulaşımı zorlaştırır veya bilginin gözden kaçmasına sebep olabilir. Bu tür problemleri çözmek için metin özetleme sistemleri kullanılabilir. Metin özetleme verilen metindeki ana fikri koruyarak onun kısaltılması işlemidir. Genellikle çıkarıma ya da soyutlamaya dayalı olmak üzere iki çeşit sistem üzerinde çalışma yapılır. Soyutlamaya dayalı özetleme derin bir doğal dil işleme gerektirdiğinden yapılan çalışmaların da çoğu çıkarıma dayalı sistemler içindir. Çıkarıma dayalı özetlemede ana metinden cümleler olduğu gibi seçilerek özet çıkartılır. Burada önemli olan en fazla bilgiyi içeren cümleyi özette olması için seçmektir. Çıkarıma dayalı özetlemelerde de anahtar olan nokta cümle seçim aşamasıdır. Cümle seçmek için önerilen birçok yöntem vardır; kelime frekansı kullanan yöntemler, cümle kümeleme, çizge tabanlı puanlama yöntemleri, makine öğrenmesi metotları vb. üstünde çalışılmış yöntemlerin arasındadır. Çizge metotları metin özetleme sistemlerinde çokça kullanılan bir yöntemdir. Çünkü çizge olarak yapılan temsil verinin daha farklı bir şekilde yorumlanmasına yardımcı olduğundan diğer yöntemler ile kolay bir şekilde ortaya çıkamayacak özellikleri ortaya koyabilir. Bu çalışma kapsamında da çizge tabanlı metin özetleme üstünde araştırma yapılmıştır. Araştırma kapsamında performansı ispatlanmış olan“TextRank”yöntemi kullanılmıştır. Bu yöntem ağ sayfalarının puanlamasının yapıldığı“PageRank”yönteminden esinlenilerek ortaya konulmuştur. Ağ sayfalarını önem derecesine göre puanlayabilmek için sayfaların birbirlerine vermiş olduğu linkleri kullanarak hesaplama yapar. Metin özetleme sisteminde de bu yöntemi kullanabilmek için cümleler arası ilişki tanımlanması gerekmektedir. Bu çalışma kapsamında 4 farklı ilişkilendirme yönteminin“TextRank”yöntemine olan etkisi araştırılmıştır. Deneysel çalışmalar DUC 2002 ve CAST veri seti kullanarak yapılmıştır. DUC veri setiyle yapılan testlerde en iyi sonucu içerik çakışması, CAST veri setinde ise NGD vermiştir. Bu çalışmaya ilave olarak daha önce yapılmamış bir sistem geliştirilmiştir. Bu sistem hiyerarşik birleştirici kümeleme ve“TextRank”yöntemleri kullanarak elde edilmiştir. Önerilen yeni yöntemde cümleler belli bir kritere göre kümelenmiştir, kümelerden cümle seçebilmek için“TextRank”uygulanmıştır. Yeni yöntemin deneysel çalışmaları, bir önceki çalışmadaki gibi DUC 2002 ve CAST veri setiyle yapılmıştır; böylece“TextRank”ile kıyaslama imkanı elde edilmiştir. Yapılan çalışmalara göre DUC 2002 kullanıldığında önerilen sistemin daha performanslı çalıştığı tespit edilmiştir. CAST veri setinde ise 4 farklı ilişkilendirme yönteminden 2 yöntemi geçtiği, diğer 2 yöntemle de arasındaki farkın az olduğu tespit edilmiştir. Dolayısıyla önerilen yeni yöntem farklı metin türlerine göre de başarılı performans gösterebilmektedir.
Özet (Çeviri)
Nowadays amount of data has increased very much as the techology improves. So that number of documents has also gained incredible acceleration. The huge amount of documents make harder for users to reach information or cause users to miss some information during search. These kind of problems can be solved by using text summarization systems. Text summarization is the process of extracting a shorter version of the given text by maintaining the main idea. Generally two kind of methods are examined for text summarization systems which are called extractive or abstractive. Since abstractive summarization needs deep knowledge of natural language processing, most of the studies cover extractive methods. In extractive based summarization, sentences are selected as it appears in the given text. The key point is to choose sentences which involve important information for being in the summary. There are a lot of methods proposed for selecting sentences such that methods that use word frequencies, sentence clustering, graph based ranking methods, machine learning methods and so on are some of the techniques that are worked on. Graph methods are widely used for text summarization systems. Because graph representation enables different interpretation of data which helps to expose some other properties that cannot be easily observed by conventional methods. In this study, research is done on graph based text summarization. In the scope of research TextRank technique whose performance is proved has been utilized. This technique is inspired from“PageRank”technique which is used for ranking web pages. Method uses links between pages for ranking web pages with respect to importance. In order to use this technique in text summarization system, a relation has to be defined between sentences. In the scope of study effect of four different relation methods on TextRank is analyzed. Experimental studies is done by using DUC 2002 and CAST corpus. According to experimental studies the best result is found with content overlap method by using DUC but for the CAST set NGD gives the best result. In addition to this study, a novel hybrid system which is not tried out before has been developed. The hybrid system has been achieved by combining hierarchical agglomerative clustering and TextRank methods. In the propsed study sentences are clustered according to a criteria, and then TextRank is applied for choosing sentences from clusters. Experimental studies for the novel system is done by using DUC 2002 and CAST corpus like in the previous study so that previous TextRank results can be compared with results of the novel system. According to research; it is observed that hybrid system works with better performance when DUC set is used. CAST set shows that two methods surpass the four different relation methods that are used in TextRank and for the other two method results are close to each other. Therefore proposed novel hybrid method is able to show its advance for different kind of texts.
Benzer Tezler
- Metin çizgelerinde bağımsız kümelere dayalı çıkarımsal metin özetleme
Extractive text summarization based on independent sets in text graphs
TANER UÇKAN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİnönü ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ KARCI
- Graph representation learning for text-based event detection
Metin tabanlı olay tespiti için çizge temsil öğrenimi
HİLAL GENÇ
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Fizyolojik süreçlerde model tabanlı yeni öğrenme yaklaşımları
Model based learning algorithms based on physiological processes
UĞUR AYAN
Doktora
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. GALİP CANSEVER
- Çizge tabanlı anahtar kelime çıkarılmasında kelime konumlarının etkisi
The effect of word positions in graphic-based keyword extraction
OSMAN KABASAKAL
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALEV MUTLU
- Synergraph: A novel approach for multi-modal graph based recommendation systems
Synergraph: Çok modlu çizge tabanlı tavsiye sistemleri için yeni bir yaklaşım
MERT BURAK BURABAK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiYapay Zeka Ana Bilim Dalı
DOÇ. DR. TEVFİK AYTEKİN