Topic modelling and multiclass text classification methods for the online posts about people with diabetes
Diyabetli kişilerle ilgili çevrimiçi gönderiler kullanılarak konu modelleme ve çok sınıflı metin sınıflandırma yöntemleri
- Tez No: 929507
- Danışmanlar: DR. ÖĞR. ÜYESİ LAURA SBAFFİ
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: The University of Sheffield
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Veri Bilimi Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 55
Özet
Arka Plan: Çevrimiçi sağlık toplulukları daha yaygın hale gelmiş ve bu topluluklar tarafından üretilen bilgi miktarında kısa sürede büyük bir artış yaşanmıştır. Bu bilgiler gün geçtikçe birikmeye devam etmektedir. Bu nedenle, bu topluluklar sadece sağlık çalışmaları için değil, aynı zamanda metin madenciliği çalışmaları için de büyük miktarda veri sağlayabilecek potansiyel olarak önemli bir kaynak haline gelmiştir. Buna paralel olarak, bu toplulukların üyelerinin dilini anlamak, verilerin doğru ve uygun bir şekilde işlenmesi açısından da hayati öneme sahiptir. Amaçlar: Bu çalışmanın genel amacı, diyabet hastalarıyla ilgili çevrimiçi gönderilerdeki temaları belirlemek ve yeni gönderilerin kategorisini denetimli makine öğrenimi sınıflandırma algoritmaları kullanarak tespit etmektir. Ayrıca, İnternet aracılığıyla biriken verilerin akademik çalışmalarda nasıl kullanılabileceğine dair bazı alternatif yöntemleri göstermeyi amaçlamaktadır. Yöntemler: Temaları belirlemek için Gizli Anlamsal Analiz (LSA) ve Gizli Dirichlet Tahsisi (LDA) yöntemleri kullanılmıştır. Çok sınıflı sınıflandırma problemini çözmek için Destek Vektör Makineleri (SVM), Lojistik Regresyon (LR) ve multinomiyal Naive Bayes (NB) denetimli makine öğrenimi algoritmaları uygulanmıştır. Sonuçlar: LSA ve LDA modelleri, veri setinden anlamlı konular çıkarmada genel olarak başarılı olmuş ve çevrimiçi forumlarda diyabet hakkında yapılan tartışmalarla ilgili faydalı bilgiler sağlamıştır. Ancak, LSA modelini kullanırken yorumlama daha kolay olmuş ve anlamsal bütünlük daha yüksek olmuştur. Multinomiyal NB, LR ve SVM sırasıyla %74, %78 ve %80 doğruluk puanları elde etmiştir. Bununla birlikte, SVM'nin geri çağırma, doğruluk ve f-skor sonuçları, LR ve multinomiyal NB tarafından üretilen sonuçlardan daha iyi olmuştur.
Özet (Çeviri)
Background: Online health communities have become more common and there has been a massive growth in the amount of information generated by such communities in a short period of time, and this information continues to accumulate day by day. Hence, these communities have become a potentially important resource not only for health studies, but also because they can provide a massive amount of data for text mining studies. Correspondingly, it is also crucial to understand the language of the members of these communities in order to process the data accurately and effectively. Aims: The overall purpose of this study is to identify themes in online posts about diabetes patients and to determine the category of new posts by using supervised machine learning classification algorithms. The study also aims to demonstrate some of the alternative methods that can be employed to use the data accumulated via the Internet in academic studies. Methods: The Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) methods were used to identify themes. The Support Vector Machine (SVM), Logistic Regression (LR), and multinomial Naïve Bayes (NB) supervised machine learning algorithms were applied to solve the multiclass classification problem. Results: The LSA and LDA models were generally successful at extracting meaningful topics from the data set and they yielded beneficial information about the discussions about diabetes taking place in online forums. However, when using the LSA model, interpretation was easier and semantic integrity was higher. Multinomial NB, LR and SVM achieved good accuracy scores of 74%, 78%, and 80%, respectively. However, the recall, accuracy, and f-score results of the SVM were better than those produced by LR and multinomial NB.
Benzer Tezler
- Discovering market insights from online product reviews through sentiment analysis
Çevrimiçi müşteri yorumları ile duygu analizi ve pazar payı için bir içgörü aracı
MUHAMMET ALİ KADIOĞLU
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN IŞIKLI
- A framework for ranking and categorizing medical documents
Tibbi belgelerin kategorilendirilmeleri ve sıralanması için bir çerçeve
MOHAMMED GH. I. AL ZAMİL
Doktora
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilişim Sistemleri Bölümü
PROF. DR. NAZİFE BAYKAL
YRD. DOÇ. DR. AYSU BETİN CAN
- İnternet'te servis kalitesi
Quality of service on the Internet
NURAN VAROL
Yüksek Lisans
Türkçe
1999
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET BÜLENT ÖRENCİK
- Mental health prediction using a subjective well-being model based on the perceived stress scale
Öznel iyi oluş modelini kullanarak stress ölçeğine dayalı akıl sağlığı tahmini
AHMET KARAKUŞ
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri MühendisliğiGalatasaray ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SADETTİN EMRE ALPTEKİN
- Classifying subcellular protein patterns in human cells
İnsan hücrelerinde alt hücresel protein desenlerinin sınıflandırılması
MAHMUT MOL
Yüksek Lisans
İngilizce
2020
Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET KARAARSLAN