Geri Dön

Makine öğrenmesi yöntemleri ile türkçe haberlerin özetlenmesi

Summarization of turkish news with machine learning

  1. Tez No: 684403
  2. Yazar: BURAK ÖZDEMİR
  3. Danışmanlar: DOÇ. DR. ÇİĞDEM EROL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Enformatik Ana Bilim Dalı
  12. Bilim Dalı: Enformatik Bilim Dalı
  13. Sayfa Sayısı: 70

Özet

İnternet'in yazılı basın sektörünü derinden etkileyip, dijital yayıncılığın önem kazanmasıyla birlikte elektronik ortamda gazete okuyan kişi sayısında büyük artış gözlemlenmiştir. Dijital ortamda artan rekabet, haber sitelerini insandan çok arama motoruna yönelik habercilik yapmaya yöneltmiş; zamanla yayınlanan bu haberler olması gerektiğinden daha uzun bir hâl almıştır. Öte yandan, bireylerin daha kısa sürede daha çok bilgiye ulaşabilmelerini sağlayabilecek sistemlere her zaman ihtiyaç duyulmuştur. Yoruma veya çıkarıma dayalı yöntemlerle gerçekleşen otomatik metin özetleme, metinlerdeki ana düşünce ve önemli bilgilerin korunması şartı ile metnin boyutunun küçültülmesidir. Bu tezde, Hint-Avrupa dil ailesindeki dillere göre daha farklı bir yapısı olan Türkçe dilinde üretilmiş haberler, doğal dil işleme yöntemleri ile özetlenmiş; yakın zamanda geliştirilmiş olan BERT ve Seq2Seq modellerinin performansları, metin özetleme için kullanılan geleneksel yöntemler olan tf-idf, gizli anlam analizi, TextRank ve LexRank ile karşılaştırılmıştır. Bu karşılaştırmanın sonucunda Türkçe haberlerden oluşan bir veri setinde ortalama 0,25 ROUGE-L skoruna sahip olan, performansı ve veri setinden bağımsız girdilerde de iyi sonuçlar üretebilmesi sebebiyle tercih edilen BERT modeli ile herkesin erişimine açık, Özetleyici adına sahip web tabanlı bir otomatik özetleyici geliştirilmiştir.

Özet (Çeviri)

Technological advancements in media led to digital platforms offering quicker access to real-time information. As a result, people prefer to read news from credible internet resources compared with print media. Innovative media organizations develop search engine-friendly content to stay competitive and prominent in digital journalism, thus having greater accessibility to consumers. This led to an increase in the search engine optimized contents of online news lengthier than traditional news. On the contrary, people in the digitalized world desire to interact with systems that provide more information within the shortest possible time. To cope with such challenges, automatic text summarization is a technique mainly utilized to shorten the text length without compromising the integrity of the information. Through this method, this thesis summarized news produced in the Turkish language with BERT and Seq2Seq models. These models' validity and overall performances compared with traditional summarization methods, tf-idf, LSA, TextRank, and LexRank. Ultimately, this research project led to a web-based automatic text summarizer named Özetleyici. The BERT model used in this summarizer scored an average ROUGE-L score of 0.25 in a data set consisting of Turkish news.

Benzer Tezler

  1. Identifying event nuggets in turkish news texts using natural language processing and machine learning methods

    Doğal dil işlemesi ve makine öğrenmesi yöntemleri ile türkçe haberlerde olay göstergesi tespiti

    MEHMET DURNA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  2. Denetimli makine öğrenmesi algoritmaları ile Türkçe sahte haber tespiti için bir karar destek sistemi

    A decision support system for fake news detection in Turkish language with supervised machine learning algorithms

    YASİN ERDURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Yönetim Bilişim SistemleriGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. CEVRİYE GENCER

  3. N-seviyeli gizli Dirichlet ayırımı desteği ile tür ve duygu sınıflandırma

    Genre and emotion classification by support of N-stage latent Dirichlet allocation

    ZEKERİYA ANIL GÜVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BANU DİRİ

  4. Twitterde haber difüzyon analizi

    News diffusion analysis on twitter

    DUYGU SAĞALTICI

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiHarran Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NAGEHAN İLHAN

  5. Yapay zekâ ve demokrasi

    Artificial intelligence and democracy

    AYŞE NUR YAZICILAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. ŞULE ÖZSOY BOYUNSUZ