Geri Dön

Dokümanları çıkarımsal özetlemek için paragrafları öneme göre sıralama

Ordering paragraphs by importance for extractive summarization of documents

  1. Tez No: 527253
  2. Yazar: AHMET İLKAY KISAYOL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ METİN TURAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: İstanbul Ticaret Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Özetleme, bir bakıma metinleri kısaltma işlemidir. Bu kısaltma işlemi metinlerdeki önemli bilgileri içerecek şekilde olmalıdır. Bu çalışmanın amacı da İngilizce dilinde yazılmış makale, haber vs. gibi doküman paragraflarının içerdiği bilgi önemine göre seçilerek özetleme yapılmasıdır. Çalışmanın ilk aşamasında doküman kümesini temsil edecek önemli kelimeler belirlenmiştir. Bu aşamada tüm dokümanlarda geçen kelimeler kök geçiş sıklıklarına göre büyükten küçüğe göre sıralanır ve belirli sayıda seçilen en sık kelimeler ile paragraf vektörü temsil edilir. Bir sonraki aşamada, istenilen özet oranına göre paragraflar kümelere ayrıştırılır. Kümeleme algoritması olarak K-Means kullanılmıştır. Kümeler oluşturulurken başlangıç noktalarının belirlenmesi amacıyla iki farklı yöntem kullanılmıştır. İlk yöntemde, geçiş sıklıkları en yüksek ilk 10 kelimeden birinin en fazla görüldüğü paragraflar küme başlangıçları olarak seçilir. İkinci yöntemde, kullanıcının belirlediği özet oranına göre seçilecek anahtar kelime sayısı belirlenir. Daha sonra bu anahtar kelimelerin en çok geçtiği paragraflar başlangıç noktaları olarak belirlenir. Özet oluşturmada çıkarım yöntemi olarak, ayrıştırılan her bir küme içinden kümenin merkez noktasına Jaccard uzaklığı bakımından en yakın olan paragraf seçimi uygulanmıştır. Çıkan sonuçlar kontrol edildiğinde ikinci yöntemin daha başarılı bir sonuç verdiği gözlemlenmiştir. İkinci yönteme göre başarı oranları %20 özet oranı için %40 , %40 özet oranı için %50 ve %60 özet oranı için %71 elde edilmiştir.

Özet (Çeviri)

Summarization is means of process of the abbreviation of a text. This abbreviation should be such that it contains important information about the texts. The purpose of this study is selecting paragraphs according to the importance of the information contained in paragraphs of documents such as articles, news, etc. written in English. During the first phase of the study, important words that represents the document set were identified. At this stage, the words in all the documents are sorted according to the frequency of their stems in ascending order and paragraph vector are represented by a certain number of most frequently limited selected words. In the next step, the paragraphs are separated into clusters according to the desired summary ratio. K-Means was used as the clustering algorithm. Two different methods were used to determine the starting points when the clusters were constructed. In the first method, the paragraphs with the highest frequency of passage of one of the first 10 words are selected as the cluster starts. In the second method, the number of keywords to be selected is determined according to the summary ratio determined by the user. Then the paragraphs most often passed by these keywords are set as starting points. As an extraction method in the summarization, the paragraph selection which is closest to Jaccard distance to the central point of the cluster is applied for all clusters. When the results were checked, it was observed that the second method gave a more successful result. Success rates according to the second method were 40% for the 20% summary rate, 50% for the 40% summary rate and 71% for the summary rate.

Benzer Tezler

  1. Multi̇-document summarization using distortion-rate ratio

    Bozulum-hız oranına göre çoklu metin özetinin çıkarılması

    ULUKBEK ATTOKUROV

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  2. Özgün paragraf tabanlı çıkarım tekniği kullanarak otomatik çoklu doküman özetleme

    Automatic multi-document summarization using original paragraph based extraction technique

    METİN TURAN

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. AHMET COŞKUN SÖNMEZ

  3. Otomatik metin özetleme sistemi

    Automatic tex summarization system

    AYSUN GÜRAN

    Doktora

    Türkçe

    Türkçe

    2013

    MatematikYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  4. Yeni yapı-yer ilişkisinin anlamının deneyimler üzerinden çözümlenmesi

    Analyzing the meaning of the new building-place relationship through experiences

    EBRU HACIOĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    CoğrafyaYıldız Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ÇİĞDEM POLATOĞLU SERTER

  5. Ontoloji tabanlı bilgi haritalama yöntemi

    Ontology based knowledge mapping method

    NURGÜL YÜZBAŞIOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MEHMET SIDDIK AKTAŞ