Makine öğrenmesi yöntemleri ile türkçe haberlerin özetlenmesi
Summarization of turkish news with machine learning
- Tez No: 684403
- Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Enformatik Ana Bilim Dalı
- Bilim Dalı: Enformatik Bilim Dalı
- Sayfa Sayısı: 70
Özet
İnternet'in yazılı basın sektörünü derinden etkileyip, dijital yayıncılığın önem kazanmasıyla birlikte elektronik ortamda gazete okuyan kişi sayısında büyük artış gözlemlenmiştir. Dijital ortamda artan rekabet, haber sitelerini insandan çok arama motoruna yönelik habercilik yapmaya yöneltmiş; zamanla yayınlanan bu haberler olması gerektiğinden daha uzun bir hâl almıştır. Öte yandan, bireylerin daha kısa sürede daha çok bilgiye ulaşabilmelerini sağlayabilecek sistemlere her zaman ihtiyaç duyulmuştur. Yoruma veya çıkarıma dayalı yöntemlerle gerçekleşen otomatik metin özetleme, metinlerdeki ana düşünce ve önemli bilgilerin korunması şartı ile metnin boyutunun küçültülmesidir. Bu tezde, Hint-Avrupa dil ailesindeki dillere göre daha farklı bir yapısı olan Türkçe dilinde üretilmiş haberler, doğal dil işleme yöntemleri ile özetlenmiş; yakın zamanda geliştirilmiş olan BERT ve Seq2Seq modellerinin performansları, metin özetleme için kullanılan geleneksel yöntemler olan tf-idf, gizli anlam analizi, TextRank ve LexRank ile karşılaştırılmıştır. Bu karşılaştırmanın sonucunda Türkçe haberlerden oluşan bir veri setinde ortalama 0,25 ROUGE-L skoruna sahip olan, performansı ve veri setinden bağımsız girdilerde de iyi sonuçlar üretebilmesi sebebiyle tercih edilen BERT modeli ile herkesin erişimine açık, Özetleyici adına sahip web tabanlı bir otomatik özetleyici geliştirilmiştir.
Özet (Çeviri)
Technological advancements in media led to digital platforms offering quicker access to real-time information. As a result, people prefer to read news from credible internet resources compared with print media. Innovative media organizations develop search engine-friendly content to stay competitive and prominent in digital journalism, thus having greater accessibility to consumers. This led to an increase in the search engine optimized contents of online news lengthier than traditional news. On the contrary, people in the digitalized world desire to interact with systems that provide more information within the shortest possible time. To cope with such challenges, automatic text summarization is a technique mainly utilized to shorten the text length without compromising the integrity of the information. Through this method, this thesis summarized news produced in the Turkish language with BERT and Seq2Seq models. These models' validity and overall performances compared with traditional summarization methods, tf-idf, LSA, TextRank, and LexRank. Ultimately, this research project led to a web-based automatic text summarizer named Özetleyici. The BERT model used in this summarizer scored an average ROUGE-L score of 0.25 in a data set consisting of Turkish news.
Benzer Tezler
- Identifying event nuggets in turkish news texts using natural language processing and machine learning methods
Doğal dil işlemesi ve makine öğrenmesi yöntemleri ile türkçe haberlerde olay göstergesi tespiti
MEHMET DURNA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Denetimli makine öğrenmesi algoritmaları ile Türkçe sahte haber tespiti için bir karar destek sistemi
A decision support system for fake news detection in Turkish language with supervised machine learning algorithms
YASİN ERDURAN
Yüksek Lisans
Türkçe
2022
Yönetim Bilişim SistemleriGazi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. CEVRİYE GENCER
- N-seviyeli gizli Dirichlet ayırımı desteği ile tür ve duygu sınıflandırma
Genre and emotion classification by support of N-stage latent Dirichlet allocation
ZEKERİYA ANIL GÜVEN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
- Twitterde haber difüzyon analizi
News diffusion analysis on twitter
DUYGU SAĞALTICI
Yüksek Lisans
Türkçe
2021
Elektrik ve Elektronik MühendisliğiHarran ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NAGEHAN İLHAN
- Yapay zekâ ve demokrasi
Artificial intelligence and democracy
AYŞE NUR YAZICILAR
Yüksek Lisans
Türkçe
2023
HukukGalatasaray ÜniversitesiKamu Hukuku Ana Bilim Dalı
PROF. DR. ŞULE ÖZSOY BOYUNSUZ