Derin öğrenme yöntemleri ile Türkçe metinlerden anlamlı özet çıkarma
Abstractive summarization from Turkish texts using deep learning methods
- Tez No: 657634
- Danışmanlar: DOÇ. DR. HACER YALIM KELEŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: Türkçe
- Üniversite: Ankara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 88
Özet
Teknolojinin hızla gelişmesi ve herkesin hayatına daha kolay girmesi ile sanal ortamdaki veri miktarı oldukça artmıştır. Bu artış aynı zamanda bilgi fazlalığına neden olmuştur. İstenilen öz bilgiye ulaşmak güçleşmiştir. Metin özetleme ile istenilen öz bilgiye ulaşılması amaçlanmaktadır. Metnin içindeki ana bilginin korunarak daha kısa bir şekilde ifade edilmesi amaçlanmıştır. Bu çalışmada, önce Deutsche Welle haber sitesindeki metinler ve özetler kullanarak bir Türkçe haber veri seti (THV) toplanmıştır. Soyutlayıcı metin özetleme için sekanstan sekansa mimaride derin bir model geliştirilmiştir. Modelimiz, dikkat katmanlı kelime gömmeleri kullanarak eğitilmiş çift yönlü bir LSTM modelidir. Türkçe dilindeki modelimizin performansı hem Wikipedia hem de THV'deki kelimeler kullanılarak eğitilmiş kelime vektörleri ile ayrı ayrı değerlendirilmiştir. Modelimizin THV'deki ROUGE-1 metriğine göre performans puanı 40.90'dır. Modelimizi doğrulamak için, İngilizce metinleri özetlemede sıklıkla kullanılan GigaWord ve CNN/Daily Mail veri kümeleri ile ek deneyler yaptık. Bu veri setlerinde modern yöntemlerle kıyaslanabilir sonuçlar elde ettik. Veri setimiz yakında herkese açık hale gelecektir.
Özet (Çeviri)
With the rapid development in technologies that affect our daily lives amount of virtual data has increased considerably. This has also caused an excessive increase in useful information. Evidently this excessive increase has complicated the process of accessing this useful information. With text summarization these complications are aimed to be overcome. This study's intention is to preserve the core information and simplify the way this information is expressed. In this context, firstly a Turkish news dataset (TND) using the texts and their summaries in Deutsche Welle news web site are collected. A deep sequence to sequence generation model for abstract text summarization are developed. Our model is an attention based bidirectional LSTM model that we trained using word embeddings. The performance of this model in Turkish by training word vectors using the words from Wikipedia and TND are separately evaluated. The performance of our model with ROUGE-1 metric is 40.90 in TND. In order to verify our model, additional experiments with the GigaWord and CNN/Daily Mail datasets, which are frequently used datasets for summarizing texts in English language are conducted. Comparable results with the state-of-the-art methods in these datasets were obtained. Our dataset will be made publicly available soon.
Benzer Tezler
- Multilingual distributed word representation using deeplearning
Derin öğrenme ile çok dilli, dağıtılmış kelime temsilleri
GIHAD SOHSAH
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Şehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ONUR GÜZEY
- Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması
Relational document classification with deep learning methods
HALİL İBRAHİM OKUR
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
- Geleneksel makine öğrenimi ve derin öğrenme modelleri ile Türkçe metin sınıflandırmada kelime temsil yöntemlerinin etkisi
The effect of word representation methods on Turkish text classification with traditional machine learning and deep learning models
NİHAL DUMAN SUNA
- Türkçe ürün yorumları verisi ile duygu analizi
Sentiment analysis using Turkish product review data
BUĞRA POLAT
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BÜLENT TUĞRUL
- Çeviri dersinde yapılaşma (uygulama sorunları-yöntem önerileri)
Strukturierung im übersetzungsunterricht (probleme der praxis-vorschlage zur methodik)
A. TURGAY KURULTAY
Doktora
Türkçe
1989
Eğitim ve Öğretimİstanbul ÜniversitesiAlman Dili ve Edebiyatı Bilim Dalı
PROF.DR. ŞARA SAYIN