Geri Dön

Makine öğrenmesi kullanarak metin özetleme

Text summarization using machine learning

  1. Tez No: 848752
  2. Yazar: GÜLNİHAL UYKUN
  3. Danışmanlar: DOÇ. DR. ARİF KOYUN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Bilgi kaynaklarının çokluğu ve bilgi içeren belgelerin büyüklüğü, metinden bilgi edinme işleminin oldukça fazla zaman almasına sebep olmaktadır. Bilişim teknolojilerindeki gelişmeler, metinden bilgiye erişmek için kullanılabilecek farklı yöntemlerin arayışını ortaya çıkarmıştır. Metinden bilgiye erişmek amacıyla, otomatik metin özetleme sistemleri geliştirilmiştir. Otomatik metin özetleme sistemleri bir belgeyi girdi olarak alır ve çıktı olarak belgenin önemli kısımlarını daha kısa, anlaşılabilir bir şekilde ortaya çıkarır. Otomatik metin özetleme işlemi, uzun metinlerden bilgiye erişim için harcanan zamanı kısaltır ve daha fazla dokümanın kısıtlı zaman aralığında incelenmesine olanak tanır. Doğal Dil İşleme bilim dalının çalışma alanlarından olan otomatik özetleme işlemi, 1958 yılından itibaren çeşitli istatistiksel ve derin öğrenme tabanlı yöntemler ile gerçekleştirilmektedir. Transformer mimarisinin doğal dil işleme çalışmalarında kullanılmasından sonra büyük dil modelleri ortaya çıkmıştır ve bu dil modellerinin metin özetleme işlemlerinde oldukça başarılı sonuçlar elde ettiği gözlemlenmiştir. Büyük dil modellerinin yeniden eğitilmesi için güçlü donanıma sahip bilgisayarlara ihtiyaç duyulmaktadır ve bu oldukça maliyetli bir işlemdir. Bu dil modellerinin sıradan kullanıcılar tarafından kullanılabilmesi transfer öğrenme yöntemleri ile mümkün olmaktadır. Bu tez çalışmasında Türkçe dilinde yoruma dayalı otomatik metin özetleme çalışması gerçekleştirilmiştir. Bu çalışma için, bilimsel dergileri çevrimiçi yayınlama aracı olan Dergipark üzerinden toplam 200 adet bilimsel makale toplanmıştır. Eğitim bilimleri, bilişim teknolojileri, iktisat ve işletme bilim alanlarında yayınlanmış olan dergilerden toplanan bu bilimsel makaleler ile Türkçe makale veri seti oluşturulmuştur. Veri setinde, bilimsel makalenin tüm metin içeriği, özeti, bilim alanı, makalenin adı ve anahtar kelimeleri bulunmaktadır. Büyük dil modellerinden İngilizce bir veri seti üzerinde ön eğitilmiş PEGASUS dil modeli, oluşturulan Türkçe makale veri seti ile ince ayarlama yapılarak yeni bir dil modeli elde edilmiştir. Elde edilen dil modeli ile Türkçe makale veri seti üzerinde yoruma dayalı metin özetleme çalışması gerçekleştirilmiştir. Otomatik metin özetleme işleminin gerçekleştirilebilmesi için metnin tokenlere ayrılması gerekmektedir. Bu çalışmada veri setine özgü tokenizer oluşturulmuş ve bu tokenizer yoruma dayalı metin özetleme işleminde kullanılmıştır. Oluşturulan özetler,dil modelinin kendi tokenizeri kullanılarak elde edilen özetler ile karşılaştırılmıştır. Karşılaştırma işlemi, makale yazarının yazmış olduğu özet referans olarak kabul edilerek otomatik metin özetleme sonrasında elde edilen özetler ile ROUGE metrikleri kullanılarak ve anlamsal bütünlüğü incelenerek gerçekleştirilmiştir. Veri setine özgü oluşturulan tokenizer ile yapılan özetleme çalışmasının ROUGE değerleri daha düşük olduğu halde makalenin içeriğine daha benzer sonuçlar elde edildiği gözlemlenmiştir. Ön eğitimi İngilizce veri seti üzerinde yapılmış olan PEGASUS dil modeli için Türkçe belirli bir amaca özgü veri seti ile ince ayarlama işlemine literatürde rastlanmamıştır. Bu sebeple elde edilen sonuçlar, farklı çalışmalar ile kıyaslanamamıştır. Bu çalışmanın PEGASUS dil modeli ile Türkçe dilinde daha sonra yapılacak çalışmalar için bir temel oluşturacağı düşünülmektedir.

Özet (Çeviri)

The abundance of information sources and the size of the documents containing information cause the process of obtaining information from the text to take a lot of time. Developments in information technologies have led to the search for different methods that can be used to access information from text. Automatic text summarization systems have been developed in order to access information from text. Automated text summarization systems take a document as input and output important parts of the document in a more concise, understandable way. Automatic text summarization reduces the time spent retrieving information from long texts and allows more documents to be examined in a limited time period. Automatic summarization, which is one of the fields of study of the Natural Language Processing branch of science, has been carried out with various statistical and deep learning-based methods since 1958. After the use of Transformer architecture in natural language processing studies, large language models have emerged and it has been observed that these language models achieve very successful results in text summarization processes. Computers with powerful hardware are needed to retrain large language models, and this is a very costly process. The ability to use these language models by ordinary users is possible with transfer learning methods. In this thesis study, a comment-based automatic text summarization study was carried out in Turkish. For this study, a total of 200 scientific articles were collected through Dergipark, an online publishing tool for scientific journals. A Turkish article data set was created with these scientific articles collected from journals published in the fields of educational sciences, information technologies, economics and business science. The data set includes the entire text content of the scientific article, its abstract, field of science, name of the article and keywords. A new language model was obtained by fine-tuning the PEGASUS language model, which was pre-trained on an English dataset from large language models, with the created Turkish article dataset. With the language model obtained, a comment-based text summarization study was carried out on the Turkish article data set. In order for automatic text summarization to be performed, the text must be divided into tokens. In this study, a tokenizer specific to the data set was created and this tokenizer was used in the comment-based text summarization process. The created summaries were compared with the summaries obtained using the language model'sown tokenizer. The comparison process was carried out by using the summaries obtained after automatic text summarization and ROUGE metrics, and by examining their semantic integrity, considering the summary written by the article author as the reference. It was observed that the summarization study conducted with the tokenizer created specifically for the data set yielded results more similar to the content of the article, although the ROUGE values were lower. For the PEGASUS language model, which was pre-trained on an English data set, fine-tuning with a Turkish data set specific to a specific purpose has not been found in the literature. For this reason, the obtained results could not be compared with different studies. It is thought that this study will form a basis for future studies in Turkish language with the PEGASUS language model.

Benzer Tezler

  1. Graph-based keyword extraction method for scientific publications

    Bilimsel yayınlar için grafik tabanlı anahtar kelime çıkartma yönetemi

    ABDIRAHMAN MOHAMED ALI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ARZU KAKIŞIM

  2. Machine learning based approach for text summarization

    Metin özetlemesi için makine öğrenmesi tabanlı yaklaşım

    HASSAN SHAHBAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    YRD. DOÇ. DR. ABDULLAHİ ABDU IBRAHIM

  3. Machine learning methods in natural language processing

    Doğal dil işlemede makine öğrenmesi yöntemleri

    BETÜL GÜVENÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    YRD. DOÇ. DR. FATİH ECEVİT

  4. Çizge tabanlı metin özetleme

    Graph based text summarization

    CAN YALKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Mühendislik BilimleriYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  5. Neural language modelling approaches for post-ocr text processing

    Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları

    AYŞE İREM TOPÇU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN