Geri Dön

Otomatik doküman özetleme yöntemlerinin karşılaştırılması

Comparison of automatic document summarization methods

  1. Tez No: 494121
  2. Yazar: YUNUS EMRE IŞIK
  3. Danışmanlar: DOÇ. DR. OĞUZ KAYNAR
  4. Tez Türü: Yüksek Lisans
  5. Konular: İşletme, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Cumhuriyet Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Yönetim Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 115

Özet

Günümüzde internetin gelişmesiyle beraber makale, haber, web sayfaları gibi bilgi içeren dokümanların tamamı dijital ortamda üretilip saklanmaktadır. Buna ek olarak kullanıcıların yeni içerik girdiği web 2.0 ortamlarındaki artışla birlikte internetteki bilgi içeren doküman miktarı inanılmaz seviyelere yükselmiştir. Çok büyük miktardaki dokümanlar arasından istenilen bilgiye ulaşım zaman alıcı olmasının yanı sıra aranan bilginin gözden kaçırılmasına da neden olabilmektedir. Bu probleme, dokümanın boyutunu düşürürken içerdiği konu ve fikir hakkında bilgiyi aktarabilecek özetleme sistemleri çözüm olabilir. Otomatik doküman özetleme, verilen bir dokümanın bilgisayar ve algoritmalar vasıtasıyla özetinin hızlı ve objektif şekilde oluşturulmasıdır. Bu işlem yorumlayıcı ve çıkarıcı olmak üzere 2 başlığa ayrılır. Yorumlayıcı özetleme dokümanın ana fikir ve konularının belirlenmesi, bu fikirler çerçevesinde özetin yeni cümlelerle ifade edilmesi sürecidir. Çıkarıcı özetleme ise mevcut doküman içerisinden konuyu iyi şekilde yansıtan cümlelerin belirlenerek özet olarak sunulmasıdır. Bu yüksek lisans tez çalışmasında literatürde kabul görmüş farklı çıkarıcı otomatik özetleme yaklaşımları detaylı şekilde ele alınmış ve karşılaştırmalı olarak değerlendirilmiştir. Veri seti olarak sadece bir dile bağımlı kalınmayıp dilin özetleme açısından etkileri incelenmiştir. Ayrıca gereksiz kelime temizliğinin ve kelimelerin köklerinin alınmasının özetleme başarısına etkileri farklı dillerde ortaya koyulmuştur. Yapılan uygulamalarda özet başarısını ölçmek için kabul gören Rouge değerlendirme paketi kullanılmıştır. Elde edilen deneysel sonuçlara göre beklenin aksine gereksiz kelimelerin temizlemenin tüm yaklaşımlarda özetleme başarısını olumsuz etkilediği belirlenmiştir. Ayrıca klasik yöntem olarak bilinen cümlelerin öznitelik toplamları, diğer tüm yöntemlerden daha başarılı özetler ortaya çıkartmıştır. Türkçe ve diğer dillerdeki dokümanlar 3 farklı tipte ele alınarak, araştırmacılar için ilginç olabilecek istatistiksel sonuçlar ortaya çıkarılmıştır. Bu tez çalışmasının özellikle Türkçe dilindeki gelecek otomatik doküman özetleme çalışmalarına katkıda bulunması amaç ve dileğimizdir.

Özet (Çeviri)

Today, with the development of the internet, all the documents containing information such as articles, news, web pages are produced and saved in digital environment. In addition, along with the increase in web 2.0 environments in which users post new content, the number of documents containing information on the Internet has increased to incredible levels. Accessing the desired information from this huge amount of documents can be time consuming and moreover resulting in more information being missed. Summarizing systems which can provide information about subject and idea of document besides reducing dimension of it would be the solution of this problem. Automatic document summarization is a quick and objective way of summarizing a given document through computers and algorithms. This process is basically divided into two headers, the interpreter and the extractor. Interpreter summarization is to determine the main ideas and topics of the document and to express the summary in new terms with the scope of these ideas. Extractor summarization is to dertermine and present sentences that reflect the topic best in the document. According to obtained experimental results, it was seen that cleaning the stop-words affect adversely to all dataset in different language. Besides that, conventional method that calculates the score of sentence by summing attribute scores acquired higher Rouge scores than others. Turkish and others documents were handled 3 different types and statistical results might be interesting were found out for researchers. We hope this thesis can contribute to next automatic document summarizing works specially in Turkish.

Benzer Tezler

  1. Multi-document summarization using dependency grammars

    Bağımsal dilbilgisi kullanarak çoklu doküman özetleme

    ŞAZİYE BETÜL BİLGİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  2. Automated query-biased and structure-preserving document summarization for web search tasks

    Arama motorları için bilgi isteğine ve metin yapısına dayalı olarak otomatik doküman özetlenmesi

    FATMA CANAN PEMBE

    Doktora

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUNGA GÜNGÖR

  3. Word2vec temsillerini kullanarak Türkçede soru sınıflandırmasında derin öğrenme analizi

    A deep learning analysis on Turkish question classification task using word2vec representations

    ŞEYHMUS YILMAZ

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SİNAN TOKLU

  4. Otomatik metin özetleme sistemi

    Automatic tex summarization system

    AYSUN GÜRAN

    Doktora

    Türkçe

    Türkçe

    2013

    MatematikYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  5. Extractive text summarization for Turkish using TF-IDF and pagerank algorithms

    TF-IDF ve pagerank algoritmaları kullanılarak Türkçe için text özetleme

    EMRE AKÜLKER

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ÇİĞDEM TURHAN