Twitter verisi üzerinde Covid-19'a karşı etkili olan ilaçların doğal dil işleme kullanılarak analizi
Analysis of drugs effective against Covid-19 using natural language processing on Twitter data
- Tez No: 817434
- Danışmanlar: DR. ÖĞR. ÜYESİ SEFER BADAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
- Sayfa Sayısı: 55
Özet
Yeni Koronavirüs Hastalığı (COVID-19), ilk olarak Çin'in Hubei eyaletinin Vuhan şehrinde ortaya çıkıp solunum yolu belirtileri (ateş, öksürük, nefes darlığı) gösteren bir grup hastada yapılan araştırmalar sonucunda 13 Ocak 2020'de tanımlanan şiddetli akut solunum sendromu koronavirüsü 2 (SARS-CoV-2)'nin neden olduğu bir hastalıktır. Kişiden kişiye bulaşabilen bu virüsün bulaşma oranı 2020 Ocak ayında büyüme gösterdi. Dünya üzerinde çeşitli ülkelerde yaşanan virüs vakaları görülmeye başlandı ve 11 Mart 2020'de Dünya Sağlık Örgütü tarafından pandemi ilan edildi. 27 Mart 2022 itibarıyla toplam vaka sayısı 479 milyon, koronavirüs kaynaklı ölüm sayısı ise 6 milyon olmuştur. Koronavirüs tedavisi için aşı ve ilaç çalışmalarına kısa sürede başlanmış ve günümüzde aktif olarak geliştirilmeye devam etmektedir. 27 Mart 2022 itibarıyla dünya genelinde 11.2 milyar doz aşı uygulanmış olsa da an itibarıyla, COVID-19'a enfekte olan kişileri tedavi etmek için onaylanmış, güvenli ve etkili bir farmakolojik ajan bulunmamaktadır. COVID-19 tedavisinde etkili olduğu düşünülen ilaçlar insanlar tarafından kullanılmış ve kullanılmaya devam etmektedir. Etkili olup olmadığı halen tartışma konusu olan ve COVID-19 tedavisinde kullanılan ilaçlara yönelik insanların düşüncelerini tespit etmek amaçlanmış ve bu doğrultuda sosyal medya platformlarından birisi olan Twitter tercih edilmiştir. Twitter günümüzde en yaygın olarak kullanılan sosyal medya platformlarından birisi olup akademik çalışmalarda yaygın olarak kullanılmaktadır. Twitter'ın Uygulama Programlama Arayüzü sayesinde insanların paylaşmış olduğu gönderilere ulaşılabilmekte ve bu sayede veriler üzerinde akademik çalışmalar yapılabilmektedir. Bu çalışmada, IEEE'nin 20 Mart 2020'de COVID-19 ile alakalı paylaşılmış olan, içerisinde tweet numaralarının olduğu ve günlük olarak güncellenen veri seti kullanılmıştır. 2020 Mart ayı ile 2022 Şubat ayı arasındaki veriler çekilmiştir. Veri seti ilk olarak İstanbul Teknik Üniversitesi bünyesindeki yüksek başarımlı hesaplama ve veri depolama amacıyla kullanılan Ulusal Yüksek Başarımlı Hesaplama Merkezi (UHEM) platformuna aktarılmıştır. Veri seti günlük olarak yaklaşık 1-3 milyon arasında veri içerdiği için veriler parça parça aktarılmıştır. Veri seti içerisinde yalnızca tweetin numarası olduğu için tweet içeriği Twitter Uygulama Progralama Arayüzü aracılığı ile bir Python betiği kullanılarak çekilmiştir. Toplam 1.4 milyar tweet bu şekilde çekilip bir NoSQL veritabanı olan MongoDB'ye yazılmıştır. Veri seti oluştuktan sonra başka bir Python betiği aracılığıyla içerisinde COVID-19'a karşı etkili olduğu düşünülen hydroxychloroquine, chloroquine, remdesivir ve azithromycin ilaçları geçen tweetler yaklaşık dizgi eşleme metodu kullanılarak çekilmiştir. Yaklaşık dizgi eşleme metodu kullanılmasının sebebi bu metin arama metodunun ilaç isminin yanlış yazılması durumunda da eşleşme sağlamasıdır. İçerisinde ilaç ismi geçen tweetler yeni bir veri setine aktarılmıştır. Yeni oluşan bu veri seti 3.5 milyon tweetten oluşmaktadır. Daha sonra veri seti içerisindeki tweet metinleri için doğal dil işlemenin gerekli olan adımlarından birisi olan veri önişleme gerçekleştirilmiştir. Veri önişleme aşamasında tweet içerisindeki RT, kullanıcı ismi, linkler, hashtag'in başındaki # işareti ve boşluklar silinmiştir. Veri önişleme adımından sonra ise doğal dil işleme kütüphanelerinden Transformers, Vader ve TextBlob kullanılarak tweet metinleri üzerinde duygu analizi uygulanmıştır. Duygu analizi sonucunda metinin olumlu mu olumsuz mu olduğunu belirten bir duygu analizi skoru üretilmiştir. Duygu analizi skorları pozitif, nötr ve negatif olarak gruplanıp oranları aylık olarak veri görselleştirme teknikleri kullanılarak gösterilmiştir. Çalışmada bilim insanlarının ilaçlara olan düşüncelerini tespit edebilmek amacıyla da sadece bilim insanlarına yönelik duygu analizi oranları da gösterilmiştir. Çalışma sonucunda 2020 yılında ilaçlara karşı daha nötr ve negatif dağılımı az olan bir tablo görülürken 2021 Haziran ayından sonra negatif dağılımın arttığı ve insanların ilaçlara olan düşüncelerinin olumsuz yönde devam ettiği görülmüştür. Bilim insanlarına yönelik duygu analizi oranlarına bakıldığında ise bilim insanları haricindeki kitleye göre daha nötr bir tablo görülmektedir. Çalışmanın sonucu olarak halen geliştirilmeye devam eden ve pandeminin ortaya çıktığı günlerden beri COVID-19 tedavisine yönelik kullanılmaya devam eden ilaçlar hakkında insanların düşüncelerinin zamanla olumsuz yönde seyir ettiği tespit edilmiştir. Bu çalışmanın COVID-19'a etkili olan ilaçlar hakkında yapılacak olan akademik çalışmalara referans olacağı düşünülmektedir.
Özet (Çeviri)
The Novel Coronavirus Disease (COVID-19) is a disease that is caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) which was first identified in China's Wuhan City of Hubei province on January 13, 2020, as a result of research conducted on a group of patients who showed respiratory tract symptoms (fever, cough, breathing difficulties). The transmission rate of this virus, which can transmit human-to-human, increased in January 2020. Virus cases started to appear worldwide and pandemic was declared by The World Health Organization (WHO) on 11 March 2020. As of 27 March 2022, the pandemic had caused more than 479 million cases and 6 million confirmed deaths. Vaccine and drug studies for the treatment of coronavirus started in a short time and continue to be actively developed nowadays. Although as of 27 March 2022, 11.2 billion vaccine doses have been administered worldwide, at this time, there are no approved, safe, and effective pharmacologic agents to treat COVID-19-infected patients. The drugs believed effective in the treatment of COVID-19 were used by people and continue to be used. It was aimed to determine the opinions of people about the drugs used in the treatment of COVID-19, whose effectiveness is still a matter of debate, and in this direction, Twitter which is one of the social media platforms was preferred. The reason why Twitter is preferred is that it is one of the most widely used social media platforms today and is widely used in academic studies. The use of Twitter during the COVID-19 pandemic has been an important data source to detect people's feelings and thoughts against the coronavirus. Thanks to the Twitter's Application Programming Interface (API), the posts shared by people can be accessed and thus academic studies can be carried out on the data. Natural Language Processing techniques were used to detect people's thoughts about drugs that are effective against coronavirus. Natural Language Processing has been used in many studies in the processing of data on Twitter as an important research area under artificial intelligence and used in the processing of natural language produced by scientists. Sentiment analysis, one of the most active fields of Natural Language Processing, is a field of study that analyzes people's ideas, feelings, evaluations, and attitudes from written language. Sentiment analysis methods were applied to tweet texts. In this study, the dataset, which was shared by the IEEE about the COVID-19-related drugs on 20 March 2020, contains tweet ids and is updated every day, was used. In the creation of the dataset, a real-time Twitter feed was monitored for COVID-19-related tweets using more than 90 different keywords and commonly used hashtags referencing the pandemic. Data between March 2020 and February 2022 were fetched. The dataset was first extracted to the National Center for High Performance Computing (UHEM) platform, which is used for high-performance computation and data storage within the İstanbul Technical University. The dataset was extracted as batches because it contains approximately 1-3 million data per day. In the study, 700 CSV files were used totally. Because Twitter's policy restricts the sharing of Twitter data other than IDs, tweet content was not shared in the dataset. Thus, tweet content was fetched by using a Python script through Twitter's API. A total of 1.4 billion tweets were fetched and inserted into MongoDB. The reason why MongoDB is used as a database is that MongoDB is a document-oriented NoSQL database used for high volume data storage. After the dataset was created, tweets that contain hydroxychloroquine, chloroquine, remdesivir, and azithromycin, which are thought to be effective in the treatment of COVID-19, were fetched with another Python script by using an approximate string matching method. String matching is the problem of finding all occurrences of character patterns in a text. On the other hand, approximate string matching, or fuzzy search, is the technique of finding patterns that match approximately, rather than exactly, a pattern. The reason for using the approximate string matching method is that this text search method is matched when the drug name is misspelled. Python's fuzzy library was used to implement approximate string matching method in the study. Double-Metaphone and NYSIIS (New York State Identification and Intelligence System) phonetic algorithms included in the fuzzy library were used. The tweets containing drug names were extracted to a new dataset. This new dataset consists of 3.5 million tweets. Then, data preprocessing, which is one of the necessary steps in natural language processing, was applied to the tweet texts in the dataset. In the data preprocessing step, RT, username, links, # sign at the beginning of hashtags, and spaces were removed from tweets. After data preprocessing, sentiment analysis was performed on the tweet texts firstly by using Transformers. Transformers, a library of Hugging Face, provides pre-trained models to perform operations such as image, text, and speech. Using pre-trained models reduces computational cost and the time required to train the model from scratch. Secondly, sentiment analysis was performed on the tweet texts by using Vader. Vader is a dictionary and rule-based sentiment analysis tool. Vader dictionary distinguishes itself by being more sensitive to social media content than LIWC (Linguistic Inquiry and Word Count), one of the traditional emotion dictionaries. Vader calculates the polarity of the text and returns positive, negative, and neutral scores and a composite score which is their normalized version. Thirdly, sentiment analysis was performed by using TextBlob. TextBlob is a Python library for analyzing data in text format. It provides an API for natural language processing operations such as classification, sentiment analysis, and speech recognition and it works over Natural Language Toolkit framework. The API returns polarity and subjectivity scores. Polarity returns a score between -1 which indicates negative sentiment and +1 which indicates positive sentiment. Subjectivity returns a score between 0 and 1 which indicates that the statement is deemed as more opinion or fact-based. As a result of sentiment analysis, a sentiment score was generated that indicates whether the tweet is positive or not. Sentiment scores were grouped as positive, neutral, and negative and their rates were shown monthly by using data visualization techniques. In the study, sentiment scores for scientists were also shown in order to determine the scientists' opinions about drugs. While a picture with a more neutral and less negative distribution of the drugs was observed in 2020, after June 2021, it was observed that the negative distribution increased and people's opinions about the drugs continued in negatively. When the sentiment scores for scientists are examined, a more neutral Picture is seen compared to the audience excluding scientists. As a result of the study, it was determined that the people's opinions about the drugs that are still being developed and that have been used for the treatment of COVID-19 since the outbreak of the pandemic have a negative course over time. It is thought that this study will be a reference for academic studies about COVID-19-related drugs. The thesis consists of 4 main sections. In the introduction section, natural language processing and its applications, sentiment analysis, sentiment classification levels, aspect-based sentiment analysis, finding sentiments for aspects, and feature selection in sentiment classification were examined. Also, literature research was conducted in this section. In the second section, the dataset used in the study was explained. In the third and application section, extraction of the dataset and searching drug names by using approximate string matching method, approximate string matching method and its applications, data preprocessing, applying sentiment analysis by using Transformers, Vader, and TextBlob, and scientists' opinions about drugs were examined. In the last section, the conclusion and recommendations were explained. Additionally, Python scripts were shared in the appendix section.
Benzer Tezler
- Veri madenciliği ve doğal dil işleme teknikleri kullanılarak salgın hastalıklarda tutum, davranış ve bilgi kirliliğinin belirlenmesi
Identifying attitudes, behaviors and information pollution in epidemics using data mining and natural language processing techniques
MEHMET AZİZ ÇAKMAK
Yüksek Lisans
Türkçe
2023
Sağlık YönetimiDicle ÜniversitesiSağlık Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET EMİN KURT
- Proposal for a forecasting methodology to predict commercial real estate values in Istanbul using social big data
Sosyal büyük veri kullanımı ile İstanbul'daki ticari gayrimenkul değerlerini tahmin etmek için bir kestirim yöntemi önerisi
MARAL TAŞCILAR
Yüksek Lisans
İngilizce
2023
Ekonometriİstanbul Teknik ÜniversitesiGayrimenkul Geliştirme Ana Bilim Dalı
DOÇ. KEREM YAVUZ ARSLANLI
- Derin öğrenmede öznitelik seçim yaklaşımları kullanılarak metin verilerinden covıd-19 aşı karşıtlığı tespiti
Covid-19 anti-vaccination detection from text data using feature selection approaches in deep learning
SERDAR ERTEM
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERDAL ÖZBAY
- Mobil uygulama ağ trafiğinin derin öğrenme yöntemleri kullanılarak sınıflandırılması
Classification of mobile application network traffic using deep learning methods
İMREN DAŞDEMİR YAŞAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgi Güvenliği Mühendisliği Ana Bilim Dalı
PROF. DR. AYSUN COŞKUN
- Topluluk öğrenme yöntemini kullanarak twitter verisi üzerinde duygu algılama ve tanıma
Emotion detection and recognition on twitter using ensemble learning
SEBİLE TELLİ
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYBARS UĞUR