İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
- Tez No: 724944
- Danışmanlar: DR. ÖĞR. ÜYESİ TOLGA BERBER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Haber analizi, e-posta ve spam filtreleme, web sayfalarından konu çıkarımı, bloglar, film özetleri, şarkı sözleri gibi metin içeren her veri seti metin madenciliği için bir uygulama alanıdır. Bu birçok alandaki uygulamalar sayesinde büyük metin depolarından bilgi çıkarılmasına olanak sağlamaktadır. Konu modelleme ise bir belge koleksiyonunda metnin gizli anlamsal yapılarını keşfetmek için kullanılan doğal dil işleme tekniğidir. Bu tez kapsamında Türkiye ve Yunanistan'a yönelik haber metinlerini konularına göre ayırabilen otonom bir konu modellemesi gerçekleştirilmiştir. Bunun için NewsAPI haber veri sitesinden elde edilmiş olan İngilizce haber metinlerinden Gizli Dirichlet Tahsisi ve Negatif Olmayan Matris Faktorizasyonu yöntemleri kullanılmış ve bu iki yöntemin başarım karşılaştırılması yapılmıştır. Türkiye için yapılan analiz sonucundaki konular incelendiğinde dış ilişkiler ağırlıkta siyasi bir gündem olduğu görülmektedir. Yunanistan için olan analizlerde ise tek siyasi gündemin Türkiye ile aralarında yaşandığı tespit edilmiştir. Her iki algoritmanın sonuçlarında da pandeminin farklı yönlerinin çoğunluğu oluşturduğu belirlenmiştir. Böylelikle metin madenciliğinde büyük boyuttaki metin içerikli veri kaynaklarından, önceden bilinmeyen ve potansiyel olarak ihtiyaç duyulan bilginin çıkarılması sağlanmış olundu.
Özet (Çeviri)
Every dataset containing text such as text mining, news analysis, e-mail and spam filtering, topic extraction from web pages, blogs, movie summaries, and lyrics is an application field for text mining. This enables applications to be extracted from large text stores thanks to applications in many areas. Topic modeling is a natural language processing technique used to discover hidden semantic structures of text in a document collection. Within the scope of this thesis, automatic subject modeling has been made, where we can separate the news texts for Turkey and Greece according to their subjects. For this, English news texts obtained from NewsAPI news data site were automatically analyzed using Latent Dirichlet Allocation and Non-Negative Matrix Factorization methods. Also, comparison of the two methods is provided. When the issues as a result of the analysis for Turkey are examined, it is seen that foreign relations is a predominantly political agenda. In the analyzes for Greece, it has been determined that the only political agenda is between Greece and Turkey. In the results of both algorithms, it was determined that different aspects of the pandemic constitute the majority. Thus, in text mining, previously unknown and potentially needed information has been extracted from large text-containing data sources.
Benzer Tezler
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- Detecting subjectivity in the news texts in Turkish language
Türkçe haber metinlerinde taraflılık tespiti
DİCLE ÖZTÜRK
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ALBERT ALİ SALAH
- Linguistic difficulties encountered and methods used in translating news
Haber metinleri çevirisinde karşılaşılan güçlükler ve kullanılan yöntemler
NALAN DİRİK
Yüksek Lisans
İngilizce
2009
Mütercim-TercümanlıkHacettepe ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. AYFER ALTAY
- Makine öğrenmesi ile Türkçe haber metinlerinde anahtar ifade çıkarımı
Keyphrase extraction for Turkish news text with machine learning methods
MUSTAFA ÇETİNGÖZ
Yüksek Lisans
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERDEM UÇAR
- Representations of labor protests against privatization in turkish press: The cases of SEKA and TÜPRAŞ
Özelleştirmeye karşı gerçekleştirilen işçi eylemlerinin yazılı basında temsili: SEKA ve TÜPRAŞ örneği
CEYDA TIRMAN
Yüksek Lisans
İngilizce
2007
SosyolojiOrta Doğu Teknik ÜniversitesiMedya ve Kültürel Çalışmalar Ana Bilim Dalı
YRD. DOÇ. DR. NECMİ ERDOĞAN