Text clustering and topic modeling on Covid-19 vaccine tweets using machine learning, natural language processing, and deep learning
Makine öğrenimi, doğal dil işleme ve derin öğrenme kullanılarak Covıd-19 aşısı tweetlerinde metin kümeleme ve konu modelleme
- Tez No: 770639
- Danışmanlar: PROF. DR. MURAT KARABATAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Fırat Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 150
Özet
Korona virüs hastalığı (COVID-19), Aralık 2019'un sonlarında ortaya çıkmış ve dünya genelinde muazzam bir can kaybına neden olmuş, halk sağlığı, eğitim, sosyal yaşam, küresel ekonomiler ve iş yeri için çok büyük sorunlar ortaya çıkarmıştır. COVID-19 pandemisini sona erdirmek için güvenli ve etkili aşılara erişim gerekmektedir. Literatürde bulunan COVID-19 metin verilerini hızlı bir şekilde yorumlamak için kullanılan en iyi yaklaşımlar genellikle denetimsiz öğrenme yaklaşımları olmuştur. Bu tezinin amacı, korona virüs aşısı ile ilgili tweet'leri analiz etmek için metinlerin kümelemesi ve konuların modellemeyi kullanmaktır. Makine öğrenmesi ve derin öğrenme yöntem ve tekniklerini kullanarak, korona virüs (COVID-19) aşısı ile ilgili yaygın olan konular ve kümeler araştırılmıştır. Çalışma ayrıca, önerilen modellerin doğruluğunu artırmak, denetimsiz öğrenme yöntemlerini değerlendirmek ve başka bulgular elde etmek için kelime yerleştirmelerini kullanarak, keşifsel veri analizi yoluyla tweet'lerden çıkarılabilecek çeşitli sonuçları da incelemektedir. Tezde, metin kümeleme, k-means ve HDBSCAN gibi makine öğrenmesi kümeleme algoritmaları, derin öğrenme tabanlı kümeleme yöntemleri ve PCA, LDA, t-SNE ve UMAP gibi boyut azaltma algoritmaları kullanılmış ayrıca, LDA gibi konu modelleme algoritmaları ile GSDMM ve TopicBERT/ BERTopic yöntemleri, korona virüs aşısı ile ilgili sonuçları elde etmek için kullanılmıştır. Bu çalışmanın bulguları, GSDMM ve BERTopic'in COVID-19 ile ilgili önemli başlıkları elde ettiğini, derin öğrenme kümeleme yöntemlerinin metin kümelemede diğer makine öğrenmesi yöntemlerinden daha iyi performans gösterdiğini ortaya çıkarmıştır. K-ortalamalar yöntemi, çoklu değerlendirme kriterlerine dayalı olarak başarılı bir kümeleme gerçekleştirmiş ancak HDBSCAN yöntemi öğrenilen özelliklere dayalı olarak daha iyi kümeleme gerçekleştirdiği ortaya çıkmıştır.
Özet (Çeviri)
In late December 2019, the unique coronavirus disease (COVID-19) emerged, causing a tremendous loss of life throughout the globe and posing a previously unheard-of challenge to public health, education, social life, global economies, and the workplace. To end the COVID-19 pandemic, equitable access to safe and effective vaccinations is essential. The best approaches to quickly gain an understanding of COVID-19 text data presented in the literature are those that use unsupervised learning. The goal of this research thesis is to use text clustering and topic modeling to analyze coronavirus vaccine tweets. Using machine learning and deep learning methods and techniques, it investigates the optimal number of topics and clusters prevalent in the coronavirus (COVID-19) vaccine corpus. The study also looks into various insights that can be extracted from tweets through exploratory data analysis, using word embeddings to improve the accuracy of the proposed models, evaluate unsupervised learning methods, and gain other insights. Text clustering was performed using machine learning clustering techniques and algorithms like k-means and HDBSCAN, deep learning-based clustering methods, and dimensionality reduction algorithms such as PCA, LDA, t-SNE, and UMAP, while topic modeling algorithms such as LDA, GSDMM, and TopicBERT/ BERTopic were used to obtain relevant topics from the coronavirus vaccine corpora. The findings of this study demonstrated that GSDMM and BERTopic produced significant topics from the COVID-19 corpus, while deep learning clustering methods outperformed their machine learning counterparts in text clustering. K-means performed superior clustering based on multiple assessment criteria, but HDBSCAN performed better clustering based on features learned.
Benzer Tezler
- Analysis of the evolution of scientific topics using text mining techniques
Bilimsel konuların evriminin metin madenciliği yöntemleri ile analizi
BUSE AÇIKALIN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DOÇ. DR. TEVFİK AYTEKİN
- Büyük dil modelleri kullanılarak anahtar kelime üretimi ve konu modelleme : Müşteri geri bildirimlerinden içgörü edinimi
Keyword generation and topic modeling using large language models: Extracting insights from customer feedback
ALEYNA ER
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BANU DİRİ
- Konu modelleme yöntemlerinin belge sınıflandırma üzerine kullanımı
Use of topic modeling methods for document classification
SÜLEYMAN ÖZDEMİRCİ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ METİN TURAN
- Bir otomotiv firmasında konu modelleme yaklaşımı kullanılarak çalışan önerilerinin değerlendirilmesi
Evaluation of employee suggestions by using topic modeling approach in an automotive company
MİNE BOZAN
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiBursa Teknik ÜniversitesiAkıllı Sistemler Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KORAY ALTUN
- Çevrimiçi yorumların metin madenciliği ile analizi: İstanbul'daki alışveriş merkezleri üzerine bir çalışma
Analysis of online reviews with text mining: A study on shopping centers in Istanbul
NERGİZ SÖNMEZ
Yüksek Lisans
Türkçe
2017
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. BAŞAR ÖZTAYŞİ