Otomatik doküman özetleme yöntemlerinin karşılaştırılması
Comparison of automatic document summarization methods
- Tez No: 494121
- Danışmanlar: DOÇ. DR. OĞUZ KAYNAR
- Tez Türü: Yüksek Lisans
- Konular: İşletme, Business Administration
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Cumhuriyet Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 115
Özet
Günümüzde internetin gelişmesiyle beraber makale, haber, web sayfaları gibi bilgi içeren dokümanların tamamı dijital ortamda üretilip saklanmaktadır. Buna ek olarak kullanıcıların yeni içerik girdiği web 2.0 ortamlarındaki artışla birlikte internetteki bilgi içeren doküman miktarı inanılmaz seviyelere yükselmiştir. Çok büyük miktardaki dokümanlar arasından istenilen bilgiye ulaşım zaman alıcı olmasının yanı sıra aranan bilginin gözden kaçırılmasına da neden olabilmektedir. Bu probleme, dokümanın boyutunu düşürürken içerdiği konu ve fikir hakkında bilgiyi aktarabilecek özetleme sistemleri çözüm olabilir. Otomatik doküman özetleme, verilen bir dokümanın bilgisayar ve algoritmalar vasıtasıyla özetinin hızlı ve objektif şekilde oluşturulmasıdır. Bu işlem yorumlayıcı ve çıkarıcı olmak üzere 2 başlığa ayrılır. Yorumlayıcı özetleme dokümanın ana fikir ve konularının belirlenmesi, bu fikirler çerçevesinde özetin yeni cümlelerle ifade edilmesi sürecidir. Çıkarıcı özetleme ise mevcut doküman içerisinden konuyu iyi şekilde yansıtan cümlelerin belirlenerek özet olarak sunulmasıdır. Bu yüksek lisans tez çalışmasında literatürde kabul görmüş farklı çıkarıcı otomatik özetleme yaklaşımları detaylı şekilde ele alınmış ve karşılaştırmalı olarak değerlendirilmiştir. Veri seti olarak sadece bir dile bağımlı kalınmayıp dilin özetleme açısından etkileri incelenmiştir. Ayrıca gereksiz kelime temizliğinin ve kelimelerin köklerinin alınmasının özetleme başarısına etkileri farklı dillerde ortaya koyulmuştur. Yapılan uygulamalarda özet başarısını ölçmek için kabul gören Rouge değerlendirme paketi kullanılmıştır. Elde edilen deneysel sonuçlara göre beklenin aksine gereksiz kelimelerin temizlemenin tüm yaklaşımlarda özetleme başarısını olumsuz etkilediği belirlenmiştir. Ayrıca klasik yöntem olarak bilinen cümlelerin öznitelik toplamları, diğer tüm yöntemlerden daha başarılı özetler ortaya çıkartmıştır. Türkçe ve diğer dillerdeki dokümanlar 3 farklı tipte ele alınarak, araştırmacılar için ilginç olabilecek istatistiksel sonuçlar ortaya çıkarılmıştır. Bu tez çalışmasının özellikle Türkçe dilindeki gelecek otomatik doküman özetleme çalışmalarına katkıda bulunması amaç ve dileğimizdir.
Özet (Çeviri)
Today, with the development of the internet, all the documents containing information such as articles, news, web pages are produced and saved in digital environment. In addition, along with the increase in web 2.0 environments in which users post new content, the number of documents containing information on the Internet has increased to incredible levels. Accessing the desired information from this huge amount of documents can be time consuming and moreover resulting in more information being missed. Summarizing systems which can provide information about subject and idea of document besides reducing dimension of it would be the solution of this problem. Automatic document summarization is a quick and objective way of summarizing a given document through computers and algorithms. This process is basically divided into two headers, the interpreter and the extractor. Interpreter summarization is to determine the main ideas and topics of the document and to express the summary in new terms with the scope of these ideas. Extractor summarization is to dertermine and present sentences that reflect the topic best in the document. According to obtained experimental results, it was seen that cleaning the stop-words affect adversely to all dataset in different language. Besides that, conventional method that calculates the score of sentence by summing attribute scores acquired higher Rouge scores than others. Turkish and others documents were handled 3 different types and statistical results might be interesting were found out for researchers. We hope this thesis can contribute to next automatic document summarizing works specially in Turkish.
Benzer Tezler
- Multi-document summarization using dependency grammars
Bağımsal dilbilgisi kullanarak çoklu doküman özetleme
ŞAZİYE BETÜL BİLGİN
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Automated query-biased and structure-preserving document summarization for web search tasks
Arama motorları için bilgi isteğine ve metin yapısına dayalı olarak otomatik doküman özetlenmesi
FATMA CANAN PEMBE
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUNGA GÜNGÖR
- Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi
A deep learning analysis on Turkish question classification task using word2vec representations
ŞEYHMUS YILMAZ
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SİNAN TOKLU
- Otomatik metin özetleme sistemi
Automatic tex summarization system
AYSUN GÜRAN
Doktora
Türkçe
2013
MatematikYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Extractive text summarization for Turkish using TF-IDF and pagerank algorithms
TF-IDF ve pagerank algoritmaları kullanılarak Türkçe için text özetleme
EMRE AKÜLKER
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ÇİĞDEM TURHAN