Geri Dön

Derin öğrenme yöntemleri ile Türkçe metinlerden anlamlı özet çıkarma

Abstractive summarization from Turkish texts using deep learning methods

  1. Tez No: 657634
  2. Yazar: MERVE NERGİZ AFATSUN
  3. Danışmanlar: DOÇ. DR. HACER YALIM KELEŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 88

Özet

Teknolojinin hızla gelişmesi ve herkesin hayatına daha kolay girmesi ile sanal ortamdaki veri miktarı oldukça artmıştır. Bu artış aynı zamanda bilgi fazlalığına neden olmuştur. İstenilen öz bilgiye ulaşmak güçleşmiştir. Metin özetleme ile istenilen öz bilgiye ulaşılması amaçlanmaktadır. Metnin içindeki ana bilginin korunarak daha kısa bir şekilde ifade edilmesi amaçlanmıştır. Bu çalışmada, önce Deutsche Welle haber sitesindeki metinler ve özetler kullanarak bir Türkçe haber veri seti (THV) toplanmıştır. Soyutlayıcı metin özetleme için sekanstan sekansa mimaride derin bir model geliştirilmiştir. Modelimiz, dikkat katmanlı kelime gömmeleri kullanarak eğitilmiş çift yönlü bir LSTM modelidir. Türkçe dilindeki modelimizin performansı hem Wikipedia hem de THV'deki kelimeler kullanılarak eğitilmiş kelime vektörleri ile ayrı ayrı değerlendirilmiştir. Modelimizin THV'deki ROUGE-1 metriğine göre performans puanı 40.90'dır. Modelimizi doğrulamak için, İngilizce metinleri özetlemede sıklıkla kullanılan GigaWord ve CNN/Daily Mail veri kümeleri ile ek deneyler yaptık. Bu veri setlerinde modern yöntemlerle kıyaslanabilir sonuçlar elde ettik. Veri setimiz yakında herkese açık hale gelecektir.

Özet (Çeviri)

With the rapid development in technologies that affect our daily lives amount of virtual data has increased considerably. This has also caused an excessive increase in useful information. Evidently this excessive increase has complicated the process of accessing this useful information. With text summarization these complications are aimed to be overcome. This study's intention is to preserve the core information and simplify the way this information is expressed. In this context, firstly a Turkish news dataset (TND) using the texts and their summaries in Deutsche Welle news web site are collected. A deep sequence to sequence generation model for abstract text summarization are developed. Our model is an attention based bidirectional LSTM model that we trained using word embeddings. The performance of this model in Turkish by training word vectors using the words from Wikipedia and TND are separately evaluated. The performance of our model with ROUGE-1 metric is 40.90 in TND. In order to verify our model, additional experiments with the GigaWord and CNN/Daily Mail datasets, which are frequently used datasets for summarizing texts in English language are conducted. Comparable results with the state-of-the-art methods in these datasets were obtained. Our dataset will be made publicly available soon.

Benzer Tezler

  1. Multilingual distributed word representation using deeplearning

    Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri

    GIHAD SOHSAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. ONUR GÜZEY

  2. Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması

    Relational document classification with deep learning methods

    HALİL İBRAHİM OKUR

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET SERTBAŞ

  3. Geleneksel makine öğrenimi ve derin öğrenme modelleri ile Türkçe metin sınıflandırmada kelime temsil yöntemlerinin etkisi

    The effect of word representation methods on Turkish text classification with traditional machine learning and deep learning models

    NİHAL DUMAN SUNA

    Doktora

    Türkçe

    Türkçe

    2024

    İstatistikSivas Cumhuriyet Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. OĞUZ KAYNAR

  4. Türkçe ürün yorumları verisi ile duygu analizi

    Sentiment analysis using Turkish product review data

    BUĞRA POLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BÜLENT TUĞRUL

  5. Çeviri dersinde yapılaşma (uygulama sorunları-yöntem önerileri)

    Strukturierung im übersetzungsunterricht (probleme der praxis-vorschlage zur methodik)

    A. TURGAY KURULTAY

    Doktora

    Türkçe

    Türkçe

    1989

    Eğitim ve Öğretimİstanbul Üniversitesi

    Alman Dili ve Edebiyatı Bilim Dalı

    PROF.DR. ŞARA SAYIN