Geri Dön

Derin öğrenme yöntemleri ile otomatik metin özetleme

Automatic text summarization with deep learning

  1. Tez No: 723213
  2. Yazar: NAZAN KEMALOĞLU ALAGÖZ
  3. Danışmanlar: PROF. DR. ECİR UĞUR KÜÇÜKSİLLE
  4. Tez Türü: Doktora
  5. Konular: Mühendislik Bilimleri, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 80

Özet

Günümüzde yaygınlaşan internet kullanımı, hızla artan bilgi ile birlikte büyük bir bilgi kirliliğini de beraberinde getirmiştir. İnternet kullanıcıları için bu büyük ve gürültülü veri içerisinden anlamlı olanı elde etmek ise büyük bir sorun haline gelmiştir. Otomatik metin özetleme kısaca; bilgisayara giriş olarak verilen bir metinden çıkış olarak özetinin elde edilmesi işlemi olarak adlandırılmaktadır. Genel olarak dijital ortamdan elde edilen metinler üzerinde kullanılan metin özetleme özellikle son yıllarda farklı alanlardaki bilimsel makalelerin özetlenmesi için de kullanılmaya başlanmıştır. Yapı olarak daha uzun ve karmaşık bir yapıya sahip olan bilimsel makalelerin alanlarına göre önemli bölümlerinin tespit edilerek bu alanlardan can alıcı verileri içeren cümlelerin seçilebilmesi büyük önem taşımaktadır. Bu tez çalışmasında, bilişim alanında yazılmış Türkçe makaleler üzerinde kullanılacak bir bilimsel metin özetleme çalışması gerçekleştirilmiştir. Türkçe olarak yayınlanan makaleler, Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) ve TR Dizin indeksine sahip dergilerden elde edilmiştir. Dergipark üzerinden toplanan bu makaleler ile geniş bir Türkçe Bilişim Literatür veri seti oluşturulmuştur. Bu veri seti üzerinde literatürde var olan metin ön-işlem çalışmalarına ek olarak bilimsel makale formatına uygun yeni bir özgün ön-işlem fonksiyonu geliştirilmiştir. Özetleme yapılırken, literatürde doğal dil işleme alanında giderek artan bir kullanım alanına sahip olan ve etiketsiz veriler üzerinde öznitelik çıkarmada büyük başarı gösteren Derin İnanç Ağları (DİA) kullanılmıştır. Tez için geliştirilen sistemin performans ölçümünü gerçekleştirebilmek için ise literatürde büyük başarı elde etmiş bir ön eğitimli doğal dil işleme modeli olan BERT modelinin özelleşmiş bir kolu olan BERT Çıkarımsal Özetleyici (BÇÖ) kullanılmıştır. Oluşturulan veri seti BERT Çıkarımsal Özetleyici ve Derin İnanç Ağları ile özetlendikten sonra, çıkarılan özetler yine BERT Modelin özelleşmiş bir karşılaştırma metriği olan BERTScore ile kıyaslanmıştır. Elde edilen sonuçlar tez için geliştirilen Türkçe Bilişim Literatür Özetleme Yönteminin %88 F-Skor değeri ile bir bilimsel makalenin özetini oluşturduğunu göstermiştir.

Özet (Çeviri)

The widespread use of the internet today, along with the rapidly increasing information, has brought along a great information pollution. For Internet users, it has become a big problem to get the meaningful one out of this big and noisy data. Automatic text summarization briefly; It is called the process of obtaining the summary as output from a text given as input to the computer. Text summarization, which is generally used on texts obtained from digital media, has also been used for summarizing scientific articles in different fields, especially in recent years. It is of great importance to determine the important parts of scientific articles, which have a longer and more complex structure in terms of their fields, and to select sentences containing crucial data from these fields. In this thesis, a scientific text summary study was carried out to be used on Turkish articles written in the field of informatics. Articles published in Turkish were obtained from journals with Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) and TR Index. A large Turkish Informatics Literature data set was created with these articles collected from Dergipark. In addition to the text pre-processing studies available in the literature on this data set, a new original pre-processing function has been developed in accordance with the scientific article format. While summarizing, Deep Belief Networks (DBN), which has an increasing use in the field of natural language processing in the literature and has shown great success in extracting features on unlabeled data, have been used. In order to measure the performance of the system developed for the thesis, the BERT Extractive Summarizer (BES), a specialized branch of the BERT model, which is a pre-trained natural language processing model that has achieved great success in the literature, was used. After the generated data set was summarized with BERT Inferential Summarizing and Deep Belief Networks, the extracted summaries were again compared with BERTScore, a specialized comparison metric of the BERT Model. The results showed that the Turkish Informatics Literature Summarization Method developed for the thesis constitutes a summary of a scientific article with an F-Score value of 88%.

Benzer Tezler

  1. Sağlık alanında yayınlanmış akademik çalışmaların doğal dil işleme ve derin öğrenme yöntemleri ile otomatik özetlenmesi

    Automatic summarization of academic studies published in the health field using natural language processing and deep learning methods

    ANIL KUŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. ÇİĞDEM ACI

  2. Makine öğrenmesi kullanarak metin özetleme

    Text summarization using machine learning

    GÜLNİHAL UYKUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARİF KOYUN

  3. Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi

    Generating news headline from Turkish news using deep learning methods

    ENİSE KARAKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU YILMAZ

  4. Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması

    Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning

    EBRU DUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce Üniversitesi

    Elektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. PAKİZE ERDOĞMUŞ

  5. Çıkarıcı Türkçe metin özetleme performansını iyileştirmek için yeni yöntemler

    New methods for improving the performance of extractive Turkish text summarization

    SALİH BAL

    Doktora

    Türkçe

    Türkçe

    2022

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EFNAN ŞORA GÜNAL