Abstractive text summarization for morphologically rich languages
Biçimbilimsel açıdan zengin dillerde soyutlamalı metin özetleme
- Tez No: 832218
- Danışmanlar: PROF. DR. TUNGA GÜNGÖR
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 151
Özet
İnternet ortamında bulunan belge sayısındaki yoğun artış, aranan bilgiye ulaşımı zorlu, sıkıcı ve zaman alıcı bir faaliyet haline getirmiştir. Bu doğrultuda otomatik metin özetleme, araştırmacıların büyük ilgisini çekerek önemli bir çalışma alanı haline gelmiştir. Derin öğrenme alanındaki son gelişmeler, metin özetleme alanındaki araştırmaları çıkarımsal yöntemlerden daha soyut yaklaşımlara doğru kaydırmıştır. Araştırmalar ve mevcut kaynaklar çoğunlukla İngilizce diliyle sınırlıdır, bu da özellikle biçim bilimsel açıdan zengin diller gibi yapısı ve özellikleri bakımından farklılık gösteren diğer dillerde ilerlemeyi engellemektedir. Bu tezde, ağırlıklı olarak Türkçe ve Macarca soyut metin özetleme üzerine odaklandık ve önemli zorluklarını inceledik. İlk olarak, Türkçe (TR-News) ve Macarca (HU-News) için metin özetleme alanında kullanımı amaçlayan, ancak konu sınıflandırması, başlık oluşturma ve anahtar kelime öbeği çıkarma gibi diğer görevler için de uygun olan iki büyük ölçekli veri kümesini oluşturarak kaynak kıtlığı sorununu ele aldık. Daha sonra, bu dillerin biçim bilimsel özelliklerini metin özetlemeye uyarlayarak mevcut modeller üzerine iyileştirmeler gerçekleştirdik. Bir sonraki aşamada, önden eğitilmiş çok dilli diziden diziye modellerden yararlanarak, soyut metin özetleme ve başlık oluşturma görevleri için son teknoloji modeller oluşturduk. Biçim bilimsel açıdan zengin diller için metin özetleme değerlendirmesi çalışmaları oldukça sınırlıdır. Bu nedenle, ön işlemenin değerlendirme sonuçlarını nasıl büyük ölçüde etkileyebileceğini Türkçe bir çalışmayla gösterdik. Son olarak, metin özetleme değerlendirmesi için morfosentaktik yöntemler önerip buna ek olarak bir insan yargısı veri kümesi derledik. Değerlendirme sırasında morfosentaktik yöntemlerin insan yargıları üzerindeki korelasyonu artırdığını gözlemledik. Tez kapsamında yapılan tüm çalışmalar ve veri kümeleri açık kaynak olarak kullanıma sunulmuştur.
Özet (Çeviri)
The exponential growth in the number of documents available on the Web has turned finding the relevant piece of information into a challenging, tedious, and time-consuming activity. Accordingly, automatic text summarization has become an important field of study by gaining significant attention from the researchers. Recent progress in deep learning shifted the research in text summarization from extractive methods towards more abstractive approaches. The research and the available resources are mostly limited to the English language, which prevents progress in other languages which especially differ in terms structure and characteristics such as the morphologically rich languages (MRLs). In this thesis, we mainly focus on abstractive text summarization on two MRLs, Turkish and Hungarian, and address their important challenges. Firstly, we tackle the resource scarcity problem by curating two large-scale datasets for Turkish (TR-News) and Hungarian (HU-News) aimed for text summarization, but are also suitable for other tasks such as topic classification, title generation, and key phrase extraction. Then, we utilize the morphological properties of these languages and adapt them to summarization where we show improvements upon the existing models. Later, we make use of pretrained multilingual sequence-to-sequence models and provide state-of-the-art models for abstractive text summarization and title generation tasks. Evaluation of text summarization for MRLs is very limited. Thus, we show how preprocessing can drastically influence the evaluation results through a case study in Turkish. Finally, morphosyntactic methods are proposed for text summarization evaluation and a human judgement dataset is curated. It is shown that morphosyntactic tokenization processes during evaluation increase correlation with human judgements. All the work and the curated datasets are made publicly available.
Benzer Tezler
- Abstractive legal text summarization using attention mechanisms
Dikkat mekanizmalarını kullanarak abstraktif hukuki metin özetleme
RAFAH ALOMAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT CAN GANİZ
- Analysis of word dependency relations and subword models in abstractive text summarization
Soyutlamalı metin özetlemede kelime bağlılık ilişkileri ve alt sözcük modelleri analizi
AHMET BEKA ÖZKAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Abstractive text summarization using deep learning
Soyutlayıcı metin özetlemesi derin öğrenme kullanarak
HANAN WAHHAB ABBAS ABBAS
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BEYTULLAH YILDIZ
- A faithfulness-aware pretraining strategy for abstractive text summarization
Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi
MOHANAD ALREFAAI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. DEVRİM AKGÜN
- Derin öğrenme yöntemleri kullanılarak Türkçe haber metinlerinden haber başlığı üretilmesi
Generating news headline from Turkish news using deep learning methods
ENİSE KARAKOÇ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU YILMAZ