Geri Dön

Topic modelling and multiclass text classification methods for the online posts about people with diabetes

Diyabetli kişilerle ilgili çevrimiçi gönderiler kullanılarak konu modelleme ve çok sınıflı metin sınıflandırma yöntemleri

  1. Tez No: 929507
  2. Yazar: NURBANU AKSOY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ LAURA SBAFFİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: The University of Sheffield
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Veri Bilimi Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Arka Plan: Çevrimiçi sağlık toplulukları daha yaygın hale gelmiş ve bu topluluklar tarafından üretilen bilgi miktarında kısa sürede büyük bir artış yaşanmıştır. Bu bilgiler gün geçtikçe birikmeye devam etmektedir. Bu nedenle, bu topluluklar sadece sağlık çalışmaları için değil, aynı zamanda metin madenciliği çalışmaları için de büyük miktarda veri sağlayabilecek potansiyel olarak önemli bir kaynak haline gelmiştir. Buna paralel olarak, bu toplulukların üyelerinin dilini anlamak, verilerin doğru ve uygun bir şekilde işlenmesi açısından da hayati öneme sahiptir. Amaçlar: Bu çalışmanın genel amacı, diyabet hastalarıyla ilgili çevrimiçi gönderilerdeki temaları belirlemek ve yeni gönderilerin kategorisini denetimli makine öğrenimi sınıflandırma algoritmaları kullanarak tespit etmektir. Ayrıca, İnternet aracılığıyla biriken verilerin akademik çalışmalarda nasıl kullanılabileceğine dair bazı alternatif yöntemleri göstermeyi amaçlamaktadır. Yöntemler: Temaları belirlemek için Gizli Anlamsal Analiz (LSA) ve Gizli Dirichlet Tahsisi (LDA) yöntemleri kullanılmıştır. Çok sınıflı sınıflandırma problemini çözmek için Destek Vektör Makineleri (SVM), Lojistik Regresyon (LR) ve multinomiyal Naive Bayes (NB) denetimli makine öğrenimi algoritmaları uygulanmıştır. Sonuçlar: LSA ve LDA modelleri, veri setinden anlamlı konular çıkarmada genel olarak başarılı olmuş ve çevrimiçi forumlarda diyabet hakkında yapılan tartışmalarla ilgili faydalı bilgiler sağlamıştır. Ancak, LSA modelini kullanırken yorumlama daha kolay olmuş ve anlamsal bütünlük daha yüksek olmuştur. Multinomiyal NB, LR ve SVM sırasıyla %74, %78 ve %80 doğruluk puanları elde etmiştir. Bununla birlikte, SVM'nin geri çağırma, doğruluk ve f-skor sonuçları, LR ve multinomiyal NB tarafından üretilen sonuçlardan daha iyi olmuştur.

Özet (Çeviri)

Background: Online health communities have become more common and there has been a massive growth in the amount of information generated by such communities in a short period of time, and this information continues to accumulate day by day. Hence, these communities have become a potentially important resource not only for health studies, but also because they can provide a massive amount of data for text mining studies. Correspondingly, it is also crucial to understand the language of the members of these communities in order to process the data accurately and effectively. Aims: The overall purpose of this study is to identify themes in online posts about diabetes patients and to determine the category of new posts by using supervised machine learning classification algorithms. The study also aims to demonstrate some of the alternative methods that can be employed to use the data accumulated via the Internet in academic studies. Methods: The Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) methods were used to identify themes. The Support Vector Machine (SVM), Logistic Regression (LR), and multinomial Naïve Bayes (NB) supervised machine learning algorithms were applied to solve the multiclass classification problem. Results: The LSA and LDA models were generally successful at extracting meaningful topics from the data set and they yielded beneficial information about the discussions about diabetes taking place in online forums. However, when using the LSA model, interpretation was easier and semantic integrity was higher. Multinomial NB, LR and SVM achieved good accuracy scores of 74%, 78%, and 80%, respectively. However, the recall, accuracy, and f-score results of the SVM were better than those produced by LR and multinomial NB.

Benzer Tezler

  1. Discovering market insights from online product reviews through sentiment analysis

    Çevrimiçi müşteri yorumları ile duygu analizi ve pazar payı için bir içgörü aracı

    MUHAMMET ALİ KADIOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERKAN IŞIKLI

  2. A framework for ranking and categorizing medical documents

    Tibbi belgelerin kategorilendirilmeleri ve sıralanması için bir çerçeve

    MOHAMMED GH. I. AL ZAMİL

    Doktora

    İngilizce

    İngilizce

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişim Sistemleri Bölümü

    PROF. DR. NAZİFE BAYKAL

    YRD. DOÇ. DR. AYSU BETİN CAN

  3. İnternet'te servis kalitesi

    Quality of service on the Internet

    NURAN VAROL

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET BÜLENT ÖRENCİK

  4. Mental health prediction using a subjective well-being model based on the perceived stress scale

    Öznel iyi oluş modelini kullanarak stress ölçeğine dayalı akıl sağlığı tahmini

    AHMET KARAKUŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri MühendisliğiGalatasaray Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SADETTİN EMRE ALPTEKİN

  5. Classifying subcellular protein patterns in human cells

    İnsan hücrelerinde alt hücresel protein desenlerinin sınıflandırılması

    MAHMUT MOL

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET KARAARSLAN