Geri Dön

TR-SUM: A text summarizer for Turkish

TR-SUM: Türkçe için bir metin özetleyici

  1. Tez No: 716383
  2. Yazar: YİĞİT YÜKSEL
  3. Danışmanlar: PROF. DR. ‪YALÇIN ÇEBİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 90

Özet

Günümüzün büyük veri dünyasında, saklanan ve metinsel verilerden belirli ve faydalı bilgilerin izlenmesi ve elde edilmesi, özetlemenin en önemli zorluklarından biridir. Özetleme, temel olarak metni kısaltma işlemidir. Ancak, büyük metinlerden kısa bir özet veya yalnızca ilgili bilgileri almak zordur. Özet, metnin ana amacını, ana fikrini ve önemli bilgilerini içermelidir. Son zamanlarda çeşitli diller için hem çıkarımsal hem de soyutlayıcı metin özetleme modellerine yönelik çalışmalar artmaktadır. Ancak Türkçe dili için soyutlayıcı metin özetlemesi alanında daha az sayıda çalışma yapılmıştır. Ayrıca literatürde Türkçe için özetlenecek daha az sayıda veri seti bulunmaktadır. Dolayısıyla bu tezin katkısı iki yönlüdür. İlk olarak Türkçe dili için bir veri seti toplanmıştır. İkinci olarak, bu çalışmada üç adet soyutlayıcı derin sinir ağı modelinin Türkçe diline uyarlanması ve uygulanması önerilmektedir. Bu modeller, (i) Dikkat Tabanlı Sıradan Sıraya Yapay Sinir Ağı, (ii) Pointer Generator Sıradan Sıraya Yapay Sinir Ağı ve (iii) Sıradan Sıraya Yapay Sinir Ağı ile Güçlendirmeli Öğrenme'dir. Her üç model de hem ConceptNet-Numberbatch kelime gömme hem de fastText kelime gömme ile önceden işlenmiştir. Daha sonra bu modeller, ROUGE-1, ROUGE-2 ve ROUGE-L puanlarına dayalı olarak Türkçe için toplanan veri seti üzerinde değerlendirilmiştir. Hesaplama deneyine göre, fastText kelime gömme ile çalışılan her bir sinir ağı modelinin tüm ROUGE puanları iyi kaliteye sahiptir. En yüksek ROUGE puanları, Pointer Generator Sıradan Sıraya Yapay Sinir Ağı tarafından fastText kelime gömme ile elde edilir. Bu, Pointer Generator Sıradan Sıraya Yapay Sinir Ağı'nın iyi nitelikli metin özetleri üretebilen umut verici bir derin sinir ağı modeli olduğunu gösterir.

Özet (Çeviri)

In today's world of big data, the tracing and obtaining of specific and useful information from stored and textual data is one of the most significant challenge of summarization. Summarization is basically the process of shortening the text. However, retrieving a short summary or only relevant information from large texts is demanding. The summary should include the main purpose, main idea, and important information of the text. The studies for both the extractive and abstractive text summarization models are recently increasing for various languages. However, fewer studies have been carried out for the abstractive text summarization of Turkish language. In addition, there are less collected datasets to be summarized for Turkish language in the literature. Thus, the contribution of this thesis is in two-fold. Firstly, a news dataset is collected for Turkish language. Secondly, this thesis proposes the adaptation and implementation of three abstractive deep neural network models for the Turkish language. These models are (i) Attention Based Seq2Seq Neural Network, (ii) Pointer Generator Seq2Seq Neural Network and (iii) Reinforcement Learning with Seq2Seq Neural Network. All three models are preprocessed with both ConceptNet-Numberbatch word embedding and fastText word embedding. Then, these models are evaluated on the collected Turkish dataset based on the ROUGE-1, ROUGE-2, and ROUGE-L scores. According to the computation experimentation, All ROUGE scores of each neural network model that is studied with fastText word embedding have decent quality. The highest ROUGE scores are acquired by Pointer Generator Seq2Seq Neural with fastText word embedding. This indicates that Pointer Generator Seq2Seq Neural Network is a promising deep neural network model that may produce well-qualified text summaries.

Benzer Tezler

  1. Tek merkezden denetlenen çok PLC'li bir sistemin tekstil boyama prosesinin otomasyonunda kullanımı

    Application of a central controlled multi PLC system to the textile dyeing process

    MUVAFFAK AMASYA

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    DOÇ. DR. MEHMET BÜLENT ÖRENCİK

  2. Mikromobilite kavramının dil ve kullanımda anlamlandırılması:Elektrikli scooter üzerine bir çalışma

    Making sense of micromobility in language and in use: A study on electric scooters

    MİRAY HAMARAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Endüstri Ürünleri Tasarımıİstanbul Teknik Üniversitesi

    Endüstriyel Tasarım Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGE ÇELİKOĞLU

  3. Hocazâde Abdülaziz Efendi ve Ahlâk-ı Muhsinî tercümesi (inceleme- metin vr. 61a-165b)

    Hocazâde Abdülaziz Efendi ve Ahlâk-i Muhsinî translation (the text of studying vr. 61a-165b)

    OSMAN PEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Türk Dili ve EdebiyatıDumlupınar Üniversitesi

    Türk Dili ve Edebiyatı Ana Bilim Dalı

    YRD. DOÇ. DR. ATİLLA BATUR

  4. Metinlerarasılık bağlamında reklam-müzik ilişkisi

    The relationship between advertisement and music in the context of intertextuality

    BUKET GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    MüzikDokuz Eylül Üniversitesi

    Müzik Bilimleri Ana Bilim Dalı

    PROF. DR. AYHAN EROL

  5. L'art performance en Turquie à la lumière des théories post-structuralistes et féministes

    Postyapısalcı ve feminist teori ışığında Türkiye'de performans sanatı

    NURDAN DURMAZ

    Yüksek Lisans

    Fransızca

    Fransızca

    2019

    Sanat TarihiGalatasaray Üniversitesi

    Sosyoloji Ana Bilim Dalı

    PROF. DR. ALİ ERGUR