Derin öğrenme yöntemleri ile otomatik metin özetleme
Automatic text summarization with deep learning
- Tez No: 723213
- Danışmanlar: PROF. DR. ECİR UĞUR KÜÇÜKSİLLE
- Tez Türü: Doktora
- Konular: Mühendislik Bilimleri, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Günümüzde yaygınlaşan internet kullanımı, hızla artan bilgi ile birlikte büyük bir bilgi kirliliğini de beraberinde getirmiştir. İnternet kullanıcıları için bu büyük ve gürültülü veri içerisinden anlamlı olanı elde etmek ise büyük bir sorun haline gelmiştir. Otomatik metin özetleme kısaca; bilgisayara giriş olarak verilen bir metinden çıkış olarak özetinin elde edilmesi işlemi olarak adlandırılmaktadır. Genel olarak dijital ortamdan elde edilen metinler üzerinde kullanılan metin özetleme özellikle son yıllarda farklı alanlardaki bilimsel makalelerin özetlenmesi için de kullanılmaya başlanmıştır. Yapı olarak daha uzun ve karmaşık bir yapıya sahip olan bilimsel makalelerin alanlarına göre önemli bölümlerinin tespit edilerek bu alanlardan can alıcı verileri içeren cümlelerin seçilebilmesi büyük önem taşımaktadır. Bu tez çalışmasında, bilişim alanında yazılmış Türkçe makaleler üzerinde kullanılacak bir bilimsel metin özetleme çalışması gerçekleştirilmiştir. Türkçe olarak yayınlanan makaleler, Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) ve TR Dizin indeksine sahip dergilerden elde edilmiştir. Dergipark üzerinden toplanan bu makaleler ile geniş bir Türkçe Bilişim Literatür veri seti oluşturulmuştur. Bu veri seti üzerinde literatürde var olan metin ön-işlem çalışmalarına ek olarak bilimsel makale formatına uygun yeni bir özgün ön-işlem fonksiyonu geliştirilmiştir. Özetleme yapılırken, literatürde doğal dil işleme alanında giderek artan bir kullanım alanına sahip olan ve etiketsiz veriler üzerinde öznitelik çıkarmada büyük başarı gösteren Derin İnanç Ağları (DİA) kullanılmıştır. Tez için geliştirilen sistemin performans ölçümünü gerçekleştirebilmek için ise literatürde büyük başarı elde etmiş bir ön eğitimli doğal dil işleme modeli olan BERT modelinin özelleşmiş bir kolu olan BERT Çıkarımsal Özetleyici (BÇÖ) kullanılmıştır. Oluşturulan veri seti BERT Çıkarımsal Özetleyici ve Derin İnanç Ağları ile özetlendikten sonra, çıkarılan özetler yine BERT Modelin özelleşmiş bir karşılaştırma metriği olan BERTScore ile kıyaslanmıştır. Elde edilen sonuçlar tez için geliştirilen Türkçe Bilişim Literatür Özetleme Yönteminin %88 F-Skor değeri ile bir bilimsel makalenin özetini oluşturduğunu göstermiştir.
Özet (Çeviri)
The widespread use of the internet today, along with the rapidly increasing information, has brought along a great information pollution. For Internet users, it has become a big problem to get the meaningful one out of this big and noisy data. Automatic text summarization briefly; It is called the process of obtaining the summary as output from a text given as input to the computer. Text summarization, which is generally used on texts obtained from digital media, has also been used for summarizing scientific articles in different fields, especially in recent years. It is of great importance to determine the important parts of scientific articles, which have a longer and more complex structure in terms of their fields, and to select sentences containing crucial data from these fields. In this thesis, a scientific text summary study was carried out to be used on Turkish articles written in the field of informatics. Articles published in Turkish were obtained from journals with Emerging Sources Citation Index (ESCI), Science Citation Index Expanded (SCI-EXPANDED) and TR Index. A large Turkish Informatics Literature data set was created with these articles collected from Dergipark. In addition to the text pre-processing studies available in the literature on this data set, a new original pre-processing function has been developed in accordance with the scientific article format. While summarizing, Deep Belief Networks (DBN), which has an increasing use in the field of natural language processing in the literature and has shown great success in extracting features on unlabeled data, have been used. In order to measure the performance of the system developed for the thesis, the BERT Extractive Summarizer (BES), a specialized branch of the BERT model, which is a pre-trained natural language processing model that has achieved great success in the literature, was used. After the generated data set was summarized with BERT Inferential Summarizing and Deep Belief Networks, the extracted summaries were again compared with BERTScore, a specialized comparison metric of the BERT Model. The results showed that the Turkish Informatics Literature Summarization Method developed for the thesis constitutes a summary of a scientific article with an F-Score value of 88%.
Benzer Tezler
- Sağlık alanında yayınlanmış akademik çalışmaların doğal dil işleme ve derin öğrenme yöntemleri ile otomatik özetlenmesi
Automatic summarization of academic studies published in the health field using natural language processing and deep learning methods
ANIL KUŞ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ÇİĞDEM ACI
- Makine öğrenmesi kullanarak metin özetleme
Text summarization using machine learning
GÜLNİHAL UYKUN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARİF KOYUN
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ
- Gri kurt optimizasyon algoritması ile çıkarımsal metin özetleme ve özetlerin derin öğrenme ile sınıflandırılması
Extracti̇ve text summari̇zation by gray wolf optimization algorithm and classification of abstracts with deep learning
EBRU DUDAK
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDüzce ÜniversitesiElektrik-Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. PAKİZE ERDOĞMUŞ
- Çıkarıcı Türkçe metin özetleme performansını iyileştirmek için yeni yöntemler
New methods for improving the performance of extractive Turkish text summarization
SALİH BAL
Doktora
Türkçe
2022
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EFNAN ŞORA GÜNAL