Machine learning of social media data on a spatio-temporal basis
Sosyal medya verilerinin zaman-mekansal temellere göre makine öğrenimi
- Tez No: 876437
- Danışmanlar: PROF. DR. TANKUT ACARMAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 85
Özet
Makine öğrenimi algoritmaları, son yıllarda çok miktarda sosyal medya verisini analiz etmek ve bu verilerden değerli bilgiler çıkarmak için kullanılan yöntemlerde büyük ölçüde devrim yarattı. Araştırmacılar, özellikle deprem gibi doğal afetlerde insan davranışlarını, tepkilerini ve duygularını daha iyi anlamak için bu algoritmalardan yararlanabilmektedirler. Sosyal medya verilerinin hem mekan hem de zaman açısından analiz edilmesi son derece önemlidir. Depremlerle ilgili sosyal medya verilerinde makine öğreniminin uzay-zamansal bir şekilde kullanılması, coğrafi etiketli gönderileri ve gerçek zamanlı tartışmaları değerlendirerek erken tespit ve hızlı müdahaleyi sağlayarak kaynakların tahsis edilmesine ve hızlı müdahale edilmesine olanak tanır. Ayrıca, bireyler veya gruplar arasındaki iletişimi geliştirir ve duyguların analizi, uzun vadeli iyileşme stratejileri ve coğrafi hasar kalıpları hakkında değerli ve önemli veriler sunarak doğal afetlere dayanmayı ve bu afetlerden kurtulmayı destekler. Bu çalışma, deprem sonrası acil durumlar ve ihtiyaçlar hakkında bilgi elde etmek için sosyal medya verileri aracılığıyla kitle kaynak kullanımından yararlanmaktadır. Yarı denetimli yöntem kullanılarak veriler, tespitte yüksek doğruluk seviyesine ulaşmak için kurtarma veya kurtarma dışı veriler olarak etiketlenmiştir. Deprem sonrası kurtarma durumları, gönderiler tarafından sağlanan konum ve zaman bilgileri ile mekansal ve zamansal olarak tespit edilmektedir. Türkiye'nin Güneydoğusu'nda 6 Şubat 2023 tarihinde 7,7 Mw ve 7,6 Mw büyüklüğünde iki yıkıcı deprem meydana gelmiş, 53.537 kişi ölmüş, 107.213 kişi yaralanmış, çok sayıda bina hasar görmüştü. 6 Şubat'tan 28 Şubat 2023'e kadar bu depremlerle ilgili toplam 2,5 milyon gönderi X platformu üzerinden toplanmıştır. Sınıflandırma amacıyla toplam 9 tane BERT dil modeli kullanılmıştır. Sınıflandırma işlemlerini gerçekleştirmek için Lojistik Regresyon, Destek Vektör Makineleri, Karar Ağacı, Multinomial Naïve Bayes ve XGBoost gibi denetimli öğrenme yöntemleri uygulanmıştır. Ayrıca veriseti Evrişimli Sinir Ağları, Derin Sinir Ağları ve Uzun Kısa-Süreli Bellek gibi derin öğrenme yöntemleriyle de işlenmiştir. Etkin çözümlerin zamanında ve doğru şekilde karşılanması ancak yardım, kurtarma ve acil durum taleplerinin zamanında ve doğru anlaşılması ile mümkündür. Bu nedenle, her bir veri kümesinin temel kelimeleri, acil malzemeleri zamanında ve açık bir şekilde belirlememize ve korumayı doğru zamanda kullanmamıza olanak sağlayacak şekilde, uzay-zamansal dinamiklerin kapsamlı bir şekilde incelenmesiyle belirlenmiştir. Kurtarma ve kurtarma dışı durumların tespitine yönelik verilerin doğruluğu karşılaştırılmış ve koordinasyon amaçlarına yönelik tehlike durumlarını ve acil durum ihtiyaçlarını belirlemek için afetin yarattığı yıkım ve tahribat ile ilgili anahtar kelimeler çıkarılmıştır. Kurtarma ve kurtarma dışı sınıfların tespitine yönelik derin öğrenme ve BERT modelleri, duyarlılıkta sırasıyla 0,8912 ve 0,9792 seviyelerine ulaşmıştır. Bu çalışma, özellikle doğal afetler gibi acil senaryolarda sosyal medya verilerinden değerli ve uygulanabilir bilgiler elde etmede makine öğrenimi, derin öğrenme ve doğal dil işleme konularının önemini vurgulamaktadır. Bunu, Türkiye'de deprem sonrasında meydana gelen değişen modellerin kapsamlı bir şekilde anlaşılmasını sağlayarak, hem mekansal hem de zamansal faktörleri analize dahil ederek sağlamaktadır. Sonuçlar, afetlerle bağlantılı verilerin sınıflandırılmasında modellerin etkinliğini göstermektedir.
Özet (Çeviri)
In recent years, machine learning algorithms have greatly revolutionized the methods used to analyze vast quantities of social media data and extract valuable insights from it. Researchers can leverage algorithms to enhance their understanding of human behaviors, reactions, and emotions, particularly in the context of natural disasters such as earthquakes. Analyzing social media data in terms of both space and time is extremely important. Utilizing machine learning on social media data related to earthquakes in a spatio-temporal manner allows for prompt interventions and allocation of resources, enabling early identification and rapid reaction by evaluating geo-tagged postings and real-time information sharing. It improves communication among individuals or groups involved and supports the ability to endure and recover from natural disasters by offering valuable and significant data on analyzing emotions, long-term strategies for recovery, and geographical patterns of damage. This study exploits crowdsourcing via social media data to extract information about emergency situations and needs after the earthquake. Using the semi-supervised method, the data has been labeled as either rescue or nonrescue to reach a high level of accuracy in detection. After the earthquake, rescue situations are detected on a spatial and temporal basis, along with location and time information provided by tweets. Two destructive earthquakes of magnitudes of Mw 7.7 and Mw 7.6 occurred on February 6, 2023, in the southeast of Turkiye. 53.537 people died, 107.213 people were injured, and several buildings were damaged. A total of 2.5 million tweets related to these earthquakes were collected from February 6 to February 28, 2023, through the X platform. For labeling purposes, nine BERT language models that are based on attention and transformers were used. Supervised learning methods, including logistic regression, support vector machines, decision trees, multinomial Naïve Bayes, and XGBoost, were applied to assess the precision of the labels and perform classification. Furthermore, the data set was processed with deep learning methods: convolutional neural networks, deep neural networks, and long short-term memory. A timely and proper response to delivering efficient solutions is possible only when the requests for assistance, rescue, and emergency are promptly and accurately understood. In this thesis, we determined the key terms of each data set through an extensive study of its spatio-temporal dynamics, allowing us to identify urgent supplies and use protection at the appropriate time quickly and clearly. The accuracy of data toward the detection of rescue and non-rescue situations is compared, and keywords on a spatio-temporal basis are extracted to determine hazard situations and emergency needs for coordination purposes. Deep learning and BERT models for detection of rescue and non-rescue classes reach a level of 0.8912 and 0.9792 in recall, respectively. This study highlights the vital importance of machine learning and deep learning in extracting valuable and applicable insights from social media data, especially in urgent scenarios like natural disasters. It achieves this by providing a thorough comprehension of the changing patterns that occur after the earthquake in Turkiye, incorporating both spatial and temporal factors into the analysis. The results demonstrate the effectiveness of the models in classifying microblogs connected to disasters.
Benzer Tezler
- İş zekası ve duygu analizi: Sakarya merkezli sosyal medya verilerinin doğal dil işleme yaklaşımlarıyla incelenmesi
Business intelligence and sentiment analysis: Examining Sakarya-centric social media data through natural language processing approaches
FURKAN SARAÇOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. İSMAİL HAKKI CEDİMOĞLU
- Ticari banka kredilerinin değerlendirilmesine yönelik bir karar destek modeli
A decision support model for the evaluation of commercial credits
SAİT GÜL
Doktora
Türkçe
2017
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZGÜR KABAK
PROF. DR. YUSUF İLKER TOPCU
- Twitter'daki (X) havayolu şirket verilerinden makine öğrenmesi ve derin öğrenme yöntemleri ile duygu analizi gerçekleştirilmesi
Performing sentiment analysis using machine learning and deep learning methods on airline company data on twitter (X)
ÖMER AYBERK ŞENCAN
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İSMAİL ATACAK
- The effect of social media analytics as a strategic tool on the marketing management
Stratejik bir araç olarak sosyal medya analitiğinin pazarlama stratejilerine etkisi
DİLAY KAYMAK ÇİMEN
Yüksek Lisans
İngilizce
2021
İşletmeİstanbul Bilgi Üniversitesiİşletme (İngilizce) Ana Bilim Dalı
PROF. BERİL DURMUŞ
- Sosyal medyadan elde edilen büyük veri baz alınarak sosyal olay analizi gerçekleme
Performing social events analysis based on big data derived from social media
MUHAMMED ŞEN
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. HACER KARACAN