Derin öğrenme ile Türkçe haber metinlerine başlık üretme
Generating Turkish news headlines with deep learning
- Tez No: 665279
- Danışmanlar: DR. ÖĞR. ÜYESİ ÖZLEM AYDIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Trakya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 54
Özet
İnternet kavramı geçmişten günümüze büyük bir değişim göstermiştir. Özellikle günümüzde birçok insanın çok kolay ulaşabildiği ve insanların kolaylıkla bağımsız içerik oluşturabildiği bir ortam haline gelmiştir. Ancak sağladığı bu kolaylıkların yanı sıra üretilen ham veriden bilgi elde etmek daha zor hale gelmiş ve üretilen içeriklere verilen başlıklar daha yanıltıcı olmaya başlamıştır. İnternete servis edilen bilginin çok fazla miktarda olması ve yanıltıcı bilgi içermesi, kısıtlı zamanında aradığı bilgiye kısa zamanda ulaşmak isteyen insan için olumsuz bir durum oluşturmaktadır. İnsanların istediği bilgiye hızlı bir şekilde ulaşmasına yardımcı olacak en belirgin özelliklerden biri içeriklere ait başlıklardır. Çünkü insan, bu başlıklardan yola çıkarak içeriğe ait bir ön bilgiye sahip olabilecektir. Ancak yanıltıcı başlıklar söz konusu olduğunda bu bir dezavantaja dönüşüp, istenilen bilgiye ulaşmayı engelleyebilmektedir. Bu tür yanıltıcı başlıkların üretildiği içeriklerin en başında haber metinleri yer almaktadır. Bu çalışmada derin öğrenme yöntemi ile Türkçe haber metinlerine otomatik olarak başlık üreten bir uygulama geliştirilmiştir. Veri seti olarak SuDer haber derleminden özetleme görevi için uygun olabilecek haber metinleri ayıklanarak, bu ayıklanan haberler bir dizi ön işlemlerden geçirilerek kullanılmıştır. Eğitim öncesi sözel verilerin sayısallaştırılmasında ve kelime gömmelerinin oluşturulmasında, derin öğrenme kütüphanelerinden Keras kütüphanesi kullanılmıştır. Modelin eğitimi için ise günümüzde doğal dil çalışmalarında sıklıkla tercih edilen transformatör mimarisi ile soyut özetleme yöntemi kullanılarak, haber başlıklarının üretiminde daha insansı sonuçlar elde etmek istenmiştir. Modelin 20 ve 25 dönem eğitimden sonra sırasıyla yaklaşık %75 ve %85 oranında doğruluğa ulaşarak, haber metinlerindeki bağlamı ifade etmekte yetenekli başlıklar üretebildiği gözlemlenmiştir.
Özet (Çeviri)
The concept of internet has changed greatly from past to present. Especially today, it has become an environment where many people can easily access and people can easily create independent content. However, in addition to these facilities, it has become more difficult to obtain information from the raw data produced and the titles given to the content produced have become more misleading. The excessive amount of information presented on the internet and the fact that it contains misleading information creates a negative situation for people who want to reach the information they seek in a limited time they have in a short time. One of the most obvious things that will help people quickly find the information they want is the content titles. Because, based on these titles, people will be able to have a preliminary knowledge of the content. However, when it comes to misleading titles, this can turn into a disadvantage and prevent access to the desired information. News texts are at the top of the content in which such misleading headlines are produced. In this study, an application that automatically generates headlines for Turkish news texts with deep learning method was developed. As a data set, news texts that might be suitable for the summarizing task were extracted from the SuDer news collection, and these extracted news were used after a series of pre-processes. Keras library, one of the deep learning libraries, was used to digitize verbal data before education and to create word embedding. For the training of the model, it was aimed to obtain more humanoid results in the production of news headlines by using the transformer architecture, which is frequently preferred in natural language studies today and the abstract summarization method. The model achieved approximately 75% and 85% accuracy after 20 and 25 periods of training, respectively. The model succeeded in generating headlines that could express the context in news texts.
Benzer Tezler
- Geleneksel makine öğrenimi ve derin öğrenme modelleri ile Türkçe metin sınıflandırmada kelime temsil yöntemlerinin etkisi
The effect of word representation methods on Turkish text classification with traditional machine learning and deep learning models
NİHAL DUMAN SUNA
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- Derin öğrenme yöntemleri ile zaman serisi tahmini
Time series classification with deep learning methods
HAKAN GÜNDÜZ
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Türk dilinde derin öğrenme ile metin özetleme
Text summarization with deep learning in Turkish language
NEDA ALIPOUR
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtatürk ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SERDAR AYDIN
- Derin öğrenme yöntemleri ile ilişkisel doküman sınıflandırılması
Relational document classification with deep learning methods
HALİL İBRAHİM OKUR
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ