Geri Dön

Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

Forecasting the spread of covid-19 using deep learning and big data analytics methods

  1. Tez No: 827860
  2. Yazar: CYLAS KIGANDA
  3. Danışmanlar: PROF. DR. MUHAMMET ALİ AKCAYOL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 120

Özet

1. GİRİŞ Koronavirüs salgını (COVID-19), 31 Aralık 2019'da Çin'in Hubei Eyaleti, Wuhan'da başlayan bir pandemidir. İlk başta, bir grup pnömoni hastası olduğu düşünülüyordu. Dünya Sağlık Örgütü (WHO), yayılmanın ciddiyetinin kapsamlı bir incelemesinden sonra 11 Mart 2020'de COVID-19'u pandemi olarak belirledi. SARS-CoV-2 virüsü, herkese bulaşabilen COVID-19'a neden olur. Çoğu durumda, bu hastalıktan muzdarip insanlar agresif tedaviye ihtiyaç duymadan iyileşirler. DSÖ'ye göre, bireylerin hafif ila orta arasında değişen semptomları olabilir. Kalıcı tıbbi durumları olan kişilerin, özellikle yaşlıların, ciddi rahatsızlıklara maruz kalma olasılığı çok daha yüksektir. Politika yapıcıların uygun planlamayı yapmalarına izin vermek için COVID-19 salgınının yayılmasını önceden tahmin etmeye büyük ihtiyaç vardır. Bunu yaparken, COVID-19 kümülatif pozitif vaka verileri göz önüne alındığında en iyi performans gösteren tahmin modelinin belirlenmesi de gerekmektedir. COVID-19'un yayılmasıyla ilgili en kritik ülkeleri belirlemek de gereklidir. Çeşitli tahmin tekniklerinden yararlanan çeşitli çalışmalar aşağıda kısaca açıklanmıştır; SEIR ve LSTM modelleri, Çin'de COVID-19'un yayılmasını tahmin etmek için Z. Yang ve ark. (2020) tarafından kullanılmıştır. Shahid ve ark. (2020), on ülke için COVID-19 vakalarını tahmin etmek için iki istatistiksel model ve üç derin öğrenme modeli uyguladı: Brezilya, Almanya, İtalya, İspanya, İngiltere, Çin, Hindistan, İsrail, Rusya ve ABD. İstatistiksel modeller ARIMA ve destek vektör makinesi modellerini içerirken, derin öğrenme modelleri LSTM, çift yönlü uzun kısa süreli bellek ve kapılı tekrarlayan ağ modellerinden oluşurken, istatistiksel modeller, ARIMA ve destek vektör makinesi ile en kötü performans gözlenmiştir. Huang ve ark. (2020), Çin'deki COVID-19 doğrulanmış vakaları tahmin etme görevini yerine getirmek için evrişimli bir sinir ağı modeli önerdi. Karşılaştırma amacıyla, LSTM, Kapı Tekrarlayan Birimi ve Çok Katmanlı Perceptron modelleri kullanılmıştır. Zeroual et al. (2020), İtalya, İspanya, Fransa, Çin, ABD ve Avustralya dahil olmak üzere altı ülkede yeni ve iyileşmiş COVID-19 vakalarını tahmin etmek için beş derin öğrenme tahmin modelinden oluşan karşılaştırmalı bir yaklaşım önermiştir. Önerilen modeller arasında basit tekrarlayan sinir ağı, uzun kısa süreli bellek, çift yönlü LSTM, kapılı tekrarlayan birimler ve varyasyonel otokodlayıcı modelleri vardı. Pal ve ark. (2020), LSTM modelini ve Bayes optimizasyonunu kullanarak COVID-19 risk kategorilerini belirlemiştir. Hiperparametreler elde edilmeden önce arama alanının kurulması gerekiyordu. Modele, ülkeye özgü tahminler sağlamak için yerel eğilim tahmini aşamasında kullandığı ideal hiperparametreler verildi. Bazı çalışmalarda, Gebretensae ve Asmelash (2021) tarafından kullanılan otokorelasyon fonksiyonu (ACF) ve kısmi otokorelasyon fonksiyonları (PACF) gibi optimizasyon istatistiksel optimizasyon stratejileri kullanılmaktadır. 2. TAHMİN YÖNTEMLERİ Bu çalışmada tahmin yöntemleri, istatistiksel ve derin öğrenme yöntemlerini içeren iki ana kategoride toplanmıştır. 2.1. İstatistiksel tahmin yöntemleri İstatistiksel yaklaşımlar, tahminlerde bulunmak için herhangi bir verideki kalıpları türetmek için büyük istatistiksel hesaplamalar kullanır. Bu yöntemler genel olarak doğrusal regresyon, doğrusal olmayan regresyon, üstel düzgünleştirme, ARIMA ve diğerleri gibi yaygın olarak kullanılan yaklaşımları içerir. 2.1.1. Basit Doğrusal regresyon tahmini Regresyon, bir veya daha fazla tahmin veya sınıflandırıcı değişken ile bir sonuç veya hedef değer arasındaki bağlantıları modellemek ve incelemek için istatistiksel bir yaklaşımdır. Bir regresyon analizi çalışmasının nihai sonucu, Montgomery et al. (2015) tarafından açıklandığı gibi, tahmincilerin değerlerine dayanarak bağımlı değişkenlerin potansiyel değerlerini tahmin etmek veya tahmin etmek için kullanılabilecek bir modelin oluşturulmasıdır. Hanck ve ark.'ya (2021) göre, bu sapmaların varlığının nedenleri, bağımlı değişkenin mutlak rastgeleliğinden, bağımlı değişkenin veya deneysel hataların anlaşılmasında önemli olan ek unsurların ihmal edilmesinden kaynaklanabileceği gerçeğine kadar değişmektedir. Doğrusal regresyon tahmini yaklaşımı, yaş demografisindeki ölüm oranlarını tahmin etmek için Lin ve Tsai (2015) tarafından uygulandığı gibi, verilen veri dağılımındaki eğilimlerin tahmininde önemli bir performans göstermiştir. Bu, uzun vadeli kararlar alırken ve planlama yaparken çok ihtiyaç duyulan sağlam bir tekniktir. 2.1.2. Çoklu doğrusal regresyon tahmini Doğrusal regresyon modellerini kullanarak bağımlı değişkenin tahminini gerçekleştirirken, bazı durumlarda, bağımlı değişkeni daha iyi tanımlayabilecek birkaç tahminci değişkenin dahil edilmesine ihtiyaç vardır. Bu durumda, başlangıçta açıklanan basit doğrusal regresyon yöntemi, yalnızca tek bir öngörücü değişkeni dikkate aldığı için kullanılamaz. Bu, bu durumlarda daha iyi sonuçlar için çoklu doğrusal regresyon yaklaşımlarının ihtiyacını ve kullanımını ortaya çıkarmaktadır. Çoklu doğrusal regresyon modelleri, T. Fang ve Lahdelma (2016) tarafından tanımlandığı gibi çeşitli öngörücü değişkenlerin modellenmesini perspektife alır. Bağımlı ve bağımsız değişkenler arasında anlamlı doğrusal bir ilişkinin bulunmadığı durumlarda, doğrusal regresyon modelleri, Choubin ve ark. (2016) tarafından yapılan bir çalışmada gözlemlendiği gibi, zayıf tahmin sonuçları göstermektedir. Doğrusal regresyon tahmin modellerinde katsayıların tahmini Bu bölümde, doğrusal regresyon tahmin modellerinde bilinmeyen parametreleri elde etmek için kullanılan stratejiler ayrıntılı olarak ele alınmıştır. Bu yaklaşımlar, sıradan en küçük kareler, ağırlıklı en küçük kareler ve maksimum olasılık tahmini gibi yaygın olarak uygulanan yöntemleri içerir. Weisberg'e (2013) göre, sıradan en küçük kareler tahmin yöntemi, model katsayılarının karelerin artık toplamını azaltacak şekilde seçilmesini içerir. Basit doğrusal regresyon modelleriyle uğraşırken, en küçük kareler için gereken hesaplamalar sadece parametrelerin araçlarına ve karelerin toplamına ve çapraz ürünlerin toplamına dayanır. Bu normalde karelemeden veya çapraz ürünler yapmadan önce sayıların her birinden ortalamanın çıkarılmasıyla elde edilir (Weisberg, 2013). 2.1.3. Doğrusal olmayan regresyon tahmini Doğrusal regresyon modelleri bazı durumlarda etkili olsa da, doğrusal olmayan fonksiyonel formlar diğerlerinde daha uygundur. Bir regresyon modelini değerlendirmeden önce logaritmik dönüşüm gibi yaklaşımları kullanarak tahmin değişkenini ve / veya tahminci değişkeni dönüştürmek, Hanck et al. (2021) ve Hyndman and Athanasopoulos'a (2022) göre, doğrusal olmayan bir bağlantıyı modellemek için en kolay tekniktir. Logaritmik dönüşüm Logaritmik dönüşüm sırasında, değişken değerlerinden çıkarılan dalgalanmalar logaritma kullanılarak yüzde dalgalanmalarına dönüştürülür. Bu logaritmalar, Hanck ve ark. (2021) tarafından yürütülen çalışmada açıklandığı gibi üç formatı dikkate almaktadır. İlk durum, bağımlı değişkeni dönüştürmeden bağımsız değişkenin logaritmik dönüşümü ile ilgilidir. Öte yandan, ikinci senaryo, logaritmik dönüşümün bağımsız değişken üzerinde değil, bağımlı değişken üzerinde gerçekleştirildiği ilk senaryonun tam tersidir. Son olarak, üçüncü durum hem bağımlı hem de bağımsız değişkenlerin logaritmik dönüşümünü içerir. Analoglar yöntemi ile salgınların tahmin edilmesi Varyasyonel sistemler teorisi çerçevesinde, analogların metodolojisi ilk olarak doğrusal olmayan bir öngörücü araç olarak tanıtılmıştır (Moore & Little, 2014). Yöntem, doğrusal olmayan işlevi türetmek üzere yerel tahminle bir özellik uzayındaki zaman serilerini kapsüllemek için gecikme koordinatlarını kullanır. Algoritmanın katsayılarını hesaplamak için eğitim veri kümesini kullanmak yerine tahmine dayalı değişkenler olarak kullanılacak örnekler için incelenmiştir. Bu model, normal serilerle ilişkili önceki serileri kullanır ve önceki değerlerini kullanarak bir tahmin yapar (Moore & Little, 2014). 2.1.4. Üstel yumuşatma tahmini Geniş anlamda, yumuşatma işlemleri, Montgomery et al. (2015) tarafından yürütülen bir çalışmada açıklandığı gibi, sinyal ve gürültü elemanlarını belirli bir veri dağılımından izole etmek için teknikler içerir. Sinyal bileşeni, bu verilerin elde edildiği doğal doğa nedeniyle mevcut olabilecek verilerdeki mevcut kalıpları belirtir. Frost'a (2021) göre, üstel yumuşatma, önceki verilerin ağırlıklı ortalamalarına dayanan projeksiyonlar üreten ve önceki veri değerlerinin ağırlıkları katlanarak azalan bir tahmin yaklaşımıdır. İlgili literatürde, üstel düzgünleştirme yaklaşımlarından bazıları şunlardır: basit üstel düzgünleştirme (N, N), Holt'un doğrusal yöntemi (A, N), Eklemeli sönümleme eğilimi yöntemi (A d, N), Eklemeli Holt-Winters yöntemi (A, A), Çarpma Holt-Winters yöntemi (A, M) ve Holt-Winters'ın sönümleme yöntemi (Ad, M), R. J. Hyndman ve Athanasopoulos (2022), Majid ve Mir (2018) ve R. Hyndman ve ark. (2008) tarafından gösterildiği gibi. 2.1.5. Otoregresif Hareketli Ortalama tahmini Otoregresif Hareketli Ortalama (ARMA) modeli, önceki geçmiş zaman serisi verilerindeki özelliklerin potansiyel sonuçları tahmin etmek için kullanılabileceği fikrine dayanmaktadır. Bu algoritma kısa sürede yüksek doğrulukta bir sonuç üretir (Meenal ve ark., 2022). Daha önce gözlemlenen verilerin doğrusal bir dönüşümü olarak, bu model belirli bir zaman serisinin gelecekteki değerinin yaklaşmasını sağlar (Gomes & Castro, 2012). Çok yönlülüğü ve uygun istatistiksel özellikleri nedeniyle, ARMA modeli, zaman serisi modelleme ve tahmininde sıklıkla kullanılmaktadır (Meenal ve ark., 2022). Basit ve seyrek bir yapı, ARMA modelini doğrusal regresyon modelleri gibi yaygın olarak bilinen diğer istatistiksel modellerden ayırır (de Oliveira ve ark., 2022). Bir parametreyi kendi gecikmeli faktörleri üzerinde gerileyen Autoregressive (AR) modelini tümleştirir. Öte yandan, Hareketli Ortalamalar (MA) bileşeni, parametrenin kendi gecikmeli faktörlerinin doğrusal dönüşümünü göz önünde bulundurarak standart hataları tanımlar (de Oliveira ve ark., 2022). 2.1.6. Otoregresif Entegre Hareketli Ortalama tahmini Otoregresif entegre hareketli ortalama (ARIMA), Ediger ve Akar (2007) tarafından açıkça açıklandığı gibi, zaman serisi tahmini ve bu tür dizilerdeki olası veri noktalarının tahmini sırasında yaygın olarak kullanılan tahmine dayalı bir analiz modelidir. ARIMA modeli üç bölüme ayrılmıştır: Bu bileşenler“AR”,“I”ve“MA”yı içerir. otoregresyon bileşenini, sırasıyla sayısını ve hareketli ortalamasını ifade eder. ARIMA(p,d,q), temel ARIMA modelinin () ortak kısaltmasıdır. Abdulmajeed et al'a (2020) göre, p,d,q, ve terimler sırasıyla, otoregresif, fark kayıt ve hareketli ortalama parametrelerini yansıtmaktadır. ARIMA modelinin p ve q faktörleri, kısmi otokorelasyon fonksiyonu (PACF) ve otokorelasyon fonksiyonu (ACF) grafikleri kullanılarak elde edilebilir. ACF grafiği, çeşitli zaman gecikme dönemlerinde bir zaman serisindeki veriler ile önceki değerler arasındaki ortalama korelasyonu gösterir. Noureen et al. (2019) 'a göre, ikisi arasındaki temel fark, PACF'nin daha kısa bir gecikme süresine sahip ilişkileri tanımlamasıdır. 2.1.7. Genelleştirilmiş otoregresif koşullu heteroscedastisite tahmini Genelleştirilmiş otoregresif koşullu heteroscedastisite (GARCH) istatistiksel algoritması, zaman serilerini tahmin ederken ortaya çıkan dinamik volatilite fenomenosunu çözmek için önerilen otoregresif koşullu heteroscedastisite (ARCH) modelinin genel bir uzantısıdır (Petropoulos ve ark., 2022). GARCH modeli bunu, değişmeyen volatilite faktörünü içeren karmaşık bir yapı ile gerçekleştirir (Petropoulos ve ark., 2022). 2.1.8. Deterministik kompartmanlı modellerle salgın tahmini Bu bölümde, salgın tahmininde en sık uygulanan deterministik kompartman modelleri ayrıntılı olarak tartışılmıştır. Bu modeller, Alenezi ve ark. (2021) tarafından tanımlandığı gibi doğrusal olmayan bir problem alanını göz önünde bulundurarak salgının yayılımını analiz eder. Bu salgın modelleme ve tahmin modellerinin ana kavramı, belirli bir popülasyonu bölmelere ayıran ilkeye dayanmaktadır (Brauer ve ark., 2008). Bu analoji, bir salgının bir bölmeden diğerine bulaşma hızı arasındaki korelasyonu göz önünde bulundurur. Duyarlı-Enfekte Olmuş-İyileşmiş (SIR) Modeli HIV ve Ebola gibi çeşitli enfeksiyonlar deterministik model kullanılarak tahmin edilmiştir. Duyarlı (S), Enfekte (I) ve Geri Kazanılmış ( R ), SIR'nin genel popülasyonu ( R ) hesaplamak için kullandığı üç değişkendir (Alenezi ve ark., 2021). Hassas, daha sağlıklı ancak enfeksiyon riski altında olan tüm popülasyonu ifade eder. Orta veya ciddi derecede hasta olan kişilerin sayısı“enfekte olmuş”olarak adlandırılır. Ölenler de dahil olmak üzere salgından iyileşmiş ve bağışıklık kazanmış bireylerin toplam sayısı, Alenezi ve ark. (2021) tarafından tanımlandığı gibi iyileşmiş olarak adlandırılır. Duyarlı-Maruz Kalan-Enfekte Olmuş-İyileşmiş (SEIR) Modeli SEIR modeli en temel epidemiyolojik kompartmanlı modeller arasındadır ve SIR modelinin değiştirilmiş bir versiyonu ve uzantısıdır (Alenezi ve ark., 2021) (Efimov & Ushirobira, 2021). Genellikle çeşitli bağlamlarda yaygın olarak kabul gören bir modeldir. SEIR modeli, Efimov ve Ushirobira (2021) tarafından tanımlandığı gibi sabit boyutlu bir popülasyondaki dört tip insanın göreceli oranlarının evrimini göstermektedir. Bunlar, bulaşıcı olurken enfeksiyon kapabilen duyarlı insanları, maruz kalanları ve semptomatik bulaşıcıları, hastalığı duyarlı insanlara daha fazla geçirebilen duyarlı insanları içerir. Öte yandan, son bölme kurtarılmış İyileşme veya ölümden sonra tamamen yenilmez olan. Ölüm oranları özellikle önemliyse, genellikle bir bölüm daha eklenir (Efimov & Ushirobira, 2021)SEIRD. Duyarlı, Enfekte Olmuş, Teşhis Edilmiş, Hasta, Tanınmış, Tehdit Altında, İyileşmiş ve Soyu Tükenmiş (SIDARTHE) model Bu model, COVID-19 salgınını tahmin etmek için Giordano ve ark. (2020) tarafından önerilmiştir. Salgın yolla bulaşma açısından popülasyonu 8 ayrı bölmeye ayırır. Bu bölmeler hassas, enfekte olmuş, teşhis edilmiş, hastalanmış, tanınmış, tehdit edilmiş, iyileşmiş ve soyu tükenmiş bireysel birimlerden oluşur. Sosyal mesafe stratejileri gibi alınan önlemlerin bu parametreleri değiştirebileceğini belirtmekte fayda var. Bu parametreler hesaplanırken alınan bir diğer varsayım, uygun YBÜ'lerde tedavi edilen savunmasız bireylerden kaynaklanan bulaşma riskinin minimum olduğu düşünülmektedir (Giordano ve ark., 2020). 2.2. Derin öğrenme tahmin yöntemleri Bu bölümde tahmin problemlerinde yaygın olarak uygulanan derin öğrenme yaklaşımları ayrıntılı olarak ele alınmaktadır. Bu derin öğrenme yöntemleri, sınıflandırma ve kümeleme sorunları gibi çok çeşitli problemlerde kullanılan geniş makine öğrenimi yaklaşımları grubunun bir parçasıdır. Derin öğrenme yöntemleri, verilerden içgörüler veya kalıplar öğrenmede kullanılan çok temsili bir bakış açısına sahip yapay sinir ağlarına büyük ölçüde bağımlı olmaları bakımından benzersizdir. 2.2.1. Convolütional sinir ağı Ek olarak, bir Convolütional sinir ağı(CNN) üç katmandan oluşur: bir giriş katmanı, birçok gizli katman ve bir çıktı katmanı. Düzeltilmiş doğrusal birimler gibi aktivasyon fonksiyonları her katmana dahil edilebilir. Evrişimli katmanların yanı sıra havuzlama içeren tam bağlantılı katmanlar ve işlemciler yaygın gizli katmanlardır. Havuzlamanın amacı, özellik alanının karmaşıklığını azaltırken daha küçük yerel sapmalara değişmezlik sağlamaktır (Han ve ark., 2021). Birleştirilmiş evrişim ve havuzlama işlemleri, kapsamlı veri toplamak için ağda sıklıkla tekrarlanır. Evrişimli çözüm, tamamen bağlı bir ağdan çok daha az değişken kümesi sağlar ve Han ve ark. (2021) tarafından açıklandığı gibi daha gelişmiş eğitim ve tahmine izin verir. CNN mimarisi, girdileri analiz eden ve bir çıktı sağlayan çok sayıda katmandan oluşur. Evrişimli katman, CNN sinir ağlarının önemli bir bileşenidir, çünkü bilgiyi verimli bir şekilde öğrenmelerini ve işlemelerini sağlar. 2.2.2. Çok katmanlı algılayıcı ağı Çok katmanlı algılayıcı (MLP) modeli, giriş ve çıkış birimleri arasında bulunan bir veya birkaç katmandan oluşan bir ileri besleme sinir ağı biçimidir.“İleri besleme”terimi, kaynaktan hedef birime tek bir yolda akan verileri ifade eder. Victor Devadoss ve Antony Alphonse Ligori (2013) tarafından açıklandığı gibi, MLP üç ana bölümden oluşur: bir giriş birimi, gizli bir birim ve bir çıkış birimi. Gelen veriler, giriş ünitesinin nöronlarına aktarılır ve bu nöronlar belirli hesaplama ağırlıklarına göre işlenir. Elde edilen sonuçlar daha sonra gizli birime ve son olarak çıkış birimine iletilir (Feng ve ark., 2020). 2.2.3. Otomatik Enkoder modeli Bu, tahmin problemlerinde kullanılan sinir ağı işlevselliğine dayanan derin bir öğrenme yöntemidir (L. Wang ve ark., 2017). Otomatik kodlayıcı algoritması, genel mimariye bir kodlama ve kod çözme bölmesi ekleyerek hedeflerini arşivler. Otomatik kodlayıcı, aktivasyon fonksiyonlarından oluşan kompakt bir gizli birimler kümesi kullanarak giriş vektörlerini gizli temsil vektörü adı verilen başka bir vektöre kodlama görevini yerine getirir (L. Wang ve ark., 2017). Stokastik gradyan iniş yöntemi veya geri yayılma teknikleri kullanılarak, otokodlayıcı modelinin parametreleri, çıktı vektör değerlerinin yeniden yapılandırılması gerçekleştirilirken gözlenen hata faktörünün toplam azaltılmasına odaklanarak etkili bir şekilde belirlenebilir (Han ve ark., 2021), (L. Wang ve ark., 2017). 2.2.4. Kısıtlı Boltzmann makinesi Kısıtlı Boltzmann makinesi (RBM), gizli ve görünür birimleri ağın tüm yapısına dahil etmeyerek temel Boltzmann makine modelinden farklı olan farklı bir Boltzmann makine modeli türüdür. Boltzmann makine algoritması, Zhang et al. (2015) tarafından açıklandığı gibi, sinir ağının gizli ve görünür birimlerini dahil ederek girdileri boyunca olasılıksal bir model oluşturabilen stokastik bir üretken derin öğrenme yöntemidir. Burada, bir RBM modelinde aynı seviyedeki nöronlar arasında çift yönlü ve simetrik ara bağlantılar yoktur, ancak H. Wang ve ark. (2016) tarafından tanımlandığı gibi nöronlar arasında ayrı seviyelerde tam çift yönlü ve simetrik ara bağlantılar meydana gelir. 2.2.5. Derin inanç ağı Derin inanç ağının (DBN) ana yapısını RBM modelini oluşturur. DBN modelleri, Hamel ve Eck (2010) ve H. Wang ve ark. (2016) tarafından açıklandığı gibi RBM modellerinin hiyerarşik olarak istiflenmesiyle oluşturulur. Özellikle ilk seviye, girdiler için eğitim verileri kullanılarak ayrı bir RBM olarak önceden eğitilmiştir. Alttaki seviyede bulunan katmanın çıktısı, ilk gizli katmanın özelliklerine ihtiyaç duyulduğunda genellikle gizli birimlere girdi olarak kullanılır (P. Zhang ve Ci, 2020). Bu nedenle bu 2 gizli seviye yeni bir RBM olarak kabul edilir ve buna göre eğitilir. Son olarak, DBN sistemini dağıtmak için, geleneksel bir sınıflandırıcı, yani lojistik regresyon, en dış katmanlara tanıtılır ve H. Wang ve ark. (2016) tarafından açıklandığı gibi denetlenen bir ortamda eğitilir. 2.2.6. Üretici Düşman Ağlar (GAN) GAN, karmaşık verileri sezgisel olarak modelleyerek çalışan güçlü bir üretici modeller grubudur. Ana fikri, her iki oyuncunun da genel getirilerinin sıfır olduğu ve daha sonra her bir kişinin kazançlarının veya değer kayıplarının başka bir oyuncunun değer kayıpları ve kazançları ile mükemmel bir şekilde dengelendiği iki oyunculu sıfır toplamlı sisteme dayanmaktadır (K. Wang ve ark., 2017). GAN'lar genellikle aynı anda eğitilmiş bir jeneratör ve bir ayrımcıdan oluşur. Jeneratör, orijinal numunelerin olası dağılımını yakalamaya çalışırken benzersiz veriler oluşturur. İkili bir sınıflandırıcı sıklıkla ayrımcı olarak kullanılır ve orijinal örnekleri oluşturulan örneklerden mümkün olduğunca kesin olarak ayırır (Y. Wang ve ark., 2020). GAN'lar, jeneratörün K. Wang et al. (2017) tarafından açıklandığı gibi gerçek örneklerin modeline yaklaştığı düşünüldüğünde, Nash dengesine ulaşmak amacıyla bir minimax oyun optimizasyon yöntemi kullanılmaktadır. 2.2.7. Derin İstifleme Ağı Derin İstifleme Ağı (DSN), önemli model parametre katsayılarını çıkarmak için paralel olarak eğitilebilen genişletilebilir bir derin öğrenme modelidir (Hutchinson ve ark., 2013). Birçok sinir ağında olduğu gibi, tüm birimlerde stokastik gradyan inişine gerek kalmadan, denetimli bir sistemin bağlamını, blok blok bir şekilde kullanarak öğrenir (Han ve ark., 2021). DSN blokları, her biri temel bir bileşenden oluşan tüm derin öğrenme modelini oluşturmak için katmanlıdır. Her DSN bloğu, ayarlanmış tek bir gizli seviyeye sahip bir algı birimidir (Hutchinson ve ark., 2013). Ayrıca, etiket sınıfı yaklaşım vektörünün sürekli olarak ağırlıklandırıldığı ve her blok içindeki gizli birimlerin ağırlıklı bir toplamı olarak hesaplandığı da belirtilmelidir. Çıkış vektörü, DSN'nin alt bloklarındaki DSN'nin sonraki üst birimine iletmek için giriş alanı matrisi ile birleştirmek için kullanılmaktadır (Hutchinson ve ark., 2013). 2.2.8. Ekstrem Öğrenme Makinesi Ekstrem Öğrenme Makinesi(ELM), keyfi olarak oluşturulmuş giriş ağırlıkları ve önyargıları ve ampirik olarak belirlenmiş çıkış ağırlıkları olan tek gizli katmanlı bir besleme ağıdır (SLFN) (Wan ve ark., 2014). ELM'nin altında yatan temel kavram, ideal ağırlık kümesini, gizli düğüm önyargılarını ve çıkış ağırlıklarını belirlemek gibi zorlu doğrusal olmayan optimizasyon problemlerini, uygun çıkış ağırlıklarını tanımlamanın basit bir en küçük kare problemine indirgemektir (X. Chen ve ark., 2012. Sağlanan giriş ağırlıklarına bağlı olarak, ELM eğitimi hala en büyük sonuçları sunabilir. Basit matris hesaplaması nedeniyle, eğitim oranı son derece hızlıdır. (Wan ve ark., 2014) . 2.2.9. Peygamber modeli Peygamber modeli, S. J. Taylor ve Letham'a (2017) göre, doğrusal parametrenin yumuşatma işlemlerine bağlı olduğu doğrusal bir regresyon stratejisi olan üretken bir katkı modelinin (GAM) genel tanımına dayanmaktadır. Peygamber yaklaşımı, S. J. Taylor ve Letham (2017) tarafından yürütülen bir çalışmada belirtildiği gibi, eğilim, mevsimsellik ve tatil unsurlarını kapsayan üç bakış açısıyla bir zaman serisi zorluğunu değerlendirir. Eğilim yönü, zaman serisi verilerinin zamanla artmasının veya azalmasının muhtemel olup olmadığını dikkate alır. Öte yandan mevsimsellik, kısa bir süre boyunca veri varyasyonlarını inceler. Peygamber modelinin trend unsuru ayrıca iki ana bölüme ayrılabilir. S. J. Taylor ve Letham'a (2017) göre bu bileşenler, derecelendirme büyüme modeli ve parça doğrusal modelinden oluşmaktadır. Büyüme modeli doyurularak, lojistik büyüme kriterleri kullanılır. Öte yandan, büyüme hızındaki ayarlamalar, büyüme hızındaki dalgalanmalara izin verilen bir dizi değişken yaratılarak ele alınmaktadır. 3. DERIN ÖĞRENME VE BÜYÜK VERI ANALITIĞI YÖNTEMLERINI KULLANARAK COVID-19'UN YAYILMASINI TAHMIN ETME Bu çalışmada, Afrika ülkelerindeki COVID-19 pandemisinin tahminini bölgesel bazda gerçekleştirmek için hem istatistiksel hem de derin öğrenme modelleri seçilmiştir. İstatistiksel modeller arasında en basit doğrusal regresyon modellerinden GARCH ve ARIMA modelleri gibi gelişmiş otoregresif modellere kadar değişen modeller bulunmaktadır. Tahmin problemlerinde kullanılan diğer istatistiksel modeller doğrusal olmayan regresyon ve üstel düzgünleştirme modellerini içerir. Yaygın olarak uygulanan derin öğrenme yöntemleri arasında LSTM ve kapılı tekrarlayan birimler (GRU'lar) modelleri gibi tekrarlayan sinir ağları bulunmaktadır. 3.1. Tekrarlayan sinir ağları (RNN'ler) RNN'lerin arkasındaki birincil fikir, sonucu oluştururken önceki verilerin etkisini dikkate almaktır (Salehinejad ve ark., 2017). Bunu başarmak için, geçmiş verilere dayanarak sonucu etkileyen kapıları temsil eden birimler sonuca yerleştirilir (Zeroual ve ark., 2020). RNN yapısı, RNN'lerin geçmişten gelen karmaşık verileri daha uzun zaman dilimlerinde tutmasına, hatırlamasına ve analiz etmesine olanak tanır (Salehinejad ve ark., 2017). RNN modelinin temel yapısı 3 çekirdek katmandan oluşur. Bu katmanlar giriş, tekrarlayan gizli ve çıkış katmanlarını içerir. Bir dizi birime sahip belirli bir giriş katmanı için, giriş veri birimleri, giriş katmanına giriş birimleri olarak hizmet veren bir dizi vektörden oluşur. Giriş katmanı birimleri, çıkış katmanına da bağlı olan gizli katmana doğrudan bağlanmaktadır. 3.2. Kapılı tekrarlayan birimler (GRU'lar) GRU modeli, yapısındaki güncelleme kapısı ve sıfırlama kapısından oluşan sadece iki ana kapıdan oluşur (Zeroual ve ark., 2020) (Shen ve ark., 2018). Güncelleme kapısı, önceki hesaplamalar için kararlı miktarda bellek sağlama rolünü üstlenir. Öte yandan, sıfırlama kapısı yeni kaynak veriler ile önceki bellek arasında var olan bağlantıyı korur (Zeroual ve ark., 2020). Sıfırlama kapısı, bellek hücrelerinden gelen çıktının zamanın önceki bir noktasından mevcut veri değeri üzerindeki etkisini yönetir (Shen ve ark., 2018). Bu değerin çok alakalı olmadığı bir durumda, belleğin çıkış değerinin geçerli değer üzerindeki etkisinin geçersiz kılınmasını sağlamak için sıfırlama kapısı açılır. Güncelleme kapısı GRU modelinde önemli bir rol oynar. Mevcut verilerin ihmal edilip edilmeyeceğinin belirlenmesi görevi ile ilgilenir. Güncelleme kapısının çalışma mekanizması, çoğu sinir ağı modelinde karşılaşılan gradyan kaybolma zorluğunu önemli ölçüde azaltma avantajına da sahiptir (Shen ve ark., 2018. 3.3. Uzun kısa süreli bellek (LSTM) Zoabi ve ark. (2021) tarafından yapılan bir araştırmaya göre, LSTM modeli, tekrarlayan sinir ağı çerçevesine dayanan derin bir öğrenme algoritmasıdır. LSTM modeli, daha az hesaplama gücü kullanarak yanlışlıkları azaltırken, zaman gecikmesi boşluklarını köprüleyerek geleneksel tekrarlayan sinir ağının sınırlamalarını ele almayı amaçlıyordu. LSTM ağını üç temel unsur oluşturur: Unutma, giriş ve çıkış kapıları bunlar arasındadır (Shastri ve ark., 2020). Unutma kapısı, tarihten ne kadar bilginin kaybolduğunu belirler. Giriş kapısı, hücrenin iç durumuna beslenen sinyalleri alır. Unutma kapıları, her birimin iç durumunu yenilemek için kullanılır. LSTM modeli, bir hücre tarafından bir giriş sinyali alındığında çalışmaya başlar ve daha sonra belirli bir zaman diliminde bir çıktı oluşturmak için hesaplanır. Unutma algoritması sonucu kabul eder ve verilerin saklanıp saklanmayacağına veya sıfırlanacağına karar verir. Sigmoid fonksiyonu, belirli bir hücredeki verilerin tutulması gerekip gerekmediğini gösteren bir sayı üretmek üzere hesaplanır ve bunun üzerine nihai sonuç elde edilir. 3.4. Tez Bu bölümde, bu çalışmada kullanılan veri kaynakları, yöntemler ve araçlar açıklanmıştır. 3.4.1. Veri kaynağı Bu çalışmada, Afrika kıtasının beş ana bölgesinden ülkeler incelenmiştir. Bu bölgeler Kuzey, Güney, Orta, Doğu ve Batı bölgelerini içeriyordu. Kullanılan COVID-19 veri kümesi, İnsani Veri Değişimi açık kaynak sitesinden (Afrika: Covid-19 Enfeksiyonları (Ulusal)-İnsani Veri Değişimi, 2021) elde edilmiştir. Bu veriler, tüm Afrika ülkeleri için COVID-19 kümülatif vakalarından gruplanmamış bir biçimde oluşur. Bu veriler beş Afrika bölgesine göre gruplandırılmıştır. 5 bölgeden çeşitli ülkelerin nüfusuna ilişkin veriler, açık kaynaklı worldometer çevrimiçi platformundan (Nüfusa Göre Afrika Ülkeleri (2021) - Worldometer, 2021) elde edilmiştir. Bu kaynak, Birleşmiş Milletler gibi bir dizi uluslararası kuruluş tarafından açıklanan nüfus demografik verilerini derlemektedir. 3.4.2. Afrika'nın coğrafi bölgeleri ve nüfusları Afrika kıtasının 5 ana bölgesinden uluslar bu araştırma boyunca vaka çalışmaları olarak kullanılmıştır. Afrika kıtasının Kuzey, Doğu, Güney, Orta ve Batı bölümleri. Mısır, Kuzey Afrika bölgesindeki en yoğun nüfuslu ülkedir. Buna karşılık, Moritanya en küçük toplam nüfusa sahiptir. Mısır dışındaki beş ülkenin her birinde nüfus yoğunluğu 60 milyonun biraz altındadır. 10 Güney Afrika ülkesi araştırıldı ve Güney Afrika bu bölgedeki en yüksek nüfus yoğunluğuna sahipken, Eswatini en düşük nüfus yoğunluğuna sahip. Eyaletlerin% 50'sinden fazlasının nüfusu 20 milyonun altındadır. Doğu bölgesinde yaklaşık 100 milyon nüfuslu Etiyopya gerçekten de en kalabalık ülkedir. Etiyopya hariç, ulusların geri kalanı oldukça yerleşiktir ve nüfusları 60 milyondan önemli ölçüde düşüktür. Batı bölgesinde , Nijerya hariç, tüm eyaletler 50 milyondan az nüfusa sahiptir. Nijerya, yaklaşık 200 milyon nüfusuyla bölgedeki diğer ülkelerden çok daha büyük bir nüfusa sahiptir. COVID-19 salgınının bu ülkedeki durumunun, bölgeye yayılması üzerinde önemli bir etkisi olması bekleniyor. Orta Afrika bölgesindeki en kalabalık ülke olan Kamerun, 30 binden az nüfusa sahiptir. Bu bölgedeki en az nüfuslu ulusun São Tomé ve Príncipe olduğu görülmektedir. 3.4.3. Uygulanan modellerin gerekçesi. LSTM LSTM modeli, Yu ve ark. (2021) tarafından yürütülen bir çalışmada belirtildiği gibi, belirli bir girdi dizisinde var olan doğal kalıpları, mevsimleri ve eğilimleri yakalayarak klasik modellerin eksikliklerini ortadan kaldırmayı amaçlayan RNN modellerinin bir alt kümesidir. LSTM algoritması, çoğunlukla son ve geçmiş veri parçaları arasında bağlantılar olarak çalışan bellek birimleri içerdiğinden, tercih edilen sonuçları sağlayabilir. Önemli hedefli gözlemlere sahip temel bilgi birimleri korunurken, daha düşük ağırlıklara sahip bilgi parçaları uzun kısa süreli hafıza modelinin unutma bileşeni ile atılır. Unutma işlevi, algoritmayı belirli bir girdi kümesinde ortaya çıkan bağımlılıkları yakalamaya odaklanacak şekilde kolaylaştırır ve bu adım sırasında öğrenilen bilgilerden gürültülü öğeleri kaldırarak genel doğruluğu artırır. ARIMA Bu model, hem otomatik regresyon hem de hareketli ortalama yaklaşımlarının avantajlarını birleştirerek tahmin görevleri için güvenilir bir seçenek haline getirir. Hem tarihsel hem de güncel bir perspektiften bir dizi arasındaki farklılıkları dikkate aldığından ve Abdulmajeed et al. (2020) tarafından ayrıntılı olarak açıklandığı gibi, durağan olmayan verileri yalnızca daha az sayıda giriş değişkeniyle barındırmasına ve hesaplamasına izin verdiği için kullanmak için çok yönlü bir modeldir. Ek olarak, Gebretensae ve Asmelash (2021) tarafından yapılan bir araştırma çalışmasında belirtildiği gibi, diğerlerinin yanı sıra PACF ve ACF grafikleri gibi ayarlama yaklaşımlarının mevcudiyeti, ARIMA modelinin en iyi yapılandırma katsayılarını tanımlamayı kolaylaştırmaktadır. Ayrıca, Akaike bilgi kriterleri ve Bayes bilgi kriterleri gibi kriterler, bir ARIMA tahmininin belirli bir hiperparametre katsayıları kümesiyle ne kadar verimli olduğunu değerlendirmek için kullanılabilir, bu da tahmine dayalı performansı optimize etmeyi kolaylaştırır. Peygamber Peygamber algoritmasının, Y. Wang ve ark. (2012) tarafından açıklandığı gibi, eksik veri öğeleri ve aykırı değerler içeren diziler üzerinde etkili bir şekilde performans gösterdiği kanıtlanmıştır. Bu nedenle, bu, bu faktörleri içeren COVID-19 verilerinin işlenmesi ve tahmin edilmesi için uygun bir alternatif olmasını sağlar. Letham ve Taylor (2017) tarafından gösterildiği gibi Peygamber modeli, doğal sınıra ulaşıldığında doğrusal olmayan eğrileri yöneten öngörücü desteği ve tarihsel dönemlerden etkilenen mükemmel bir eşleşme yapmak için verilerdeki mevsimsellik faktörlerini tanımlayan ve hesaplayan yetenekleri yumuşatma gibi teknikleri içeren optimizasyondaki çok yönlülüğü modellemiştir. Hz. Peygamber modeli ile tatil gibi faaliyetlerin etkilerini seri verilerde toplamak ve türetmek çok basittir (Letham, Taylor, 2017). 3.4.4 Araştırma mimarisi Bu çalışması'nın önemli aşamaları, önceden derlenmiş COVID-19 kümülatif vaka verilerinin yüzde 80 eğitime ve kalan yüzde 20'sinin test veri kümeleri olarak bölünmesini içerir. Algoritmalar daha sonra eğitim verileri kullanılarak takıldı. Modellerin tahmine dayalı doğruluğu, yedi performans kriteri metriği kullanılarak belirlendi. Son olarak, COVID-19 vakalarını 61 gün önceden tahmin etmek için en iyi işleyen ve verimli algoritma seçildi. 3.4.5. Model performans metrikleri Bu çalışmada, modellerin tahmine dayalı performansını değerlendirmek için yedi metrik benimsenmiştir. Bu ölçümler arasında Tepe Sinyal-Gürültü Oranı (PSNR), Ortalama Kare Hatası (MSE), Kök Ortalama Kare Hatası (RMSE), Simetrik Ortalama Mutlak Yüzde Hatası (SMAPE), Ortalama Mutlak Yüzde Hatası (MAPE), Normalleştirilmiş Kök Ortalama Kare Hatası (NRMSE) ve R2 puanı bulunur. 4. SONUÇLAR VE TARTIŞMA Bu araştırmada Afrika kıtasından uluslar kullanılmıştır. Bu uluslar, daha önceki bölümlerde gösterildiği gibi beş kategoriye ayrılmıştır. ARIMA, LSTM ve Peygamber algoritmaları kullanılan tahmin yöntemleri arasındaydı. Bu algoritmalardan üretilen model performans doğruluğu değerleri, her Afrika bölgesinin bu bölümünde sunulmaktadır. 4.1. Model eğitimi ve değerlendirmesi 4.1.1. Kuzey Afrika Bu bölümde, COVID-19 kümülatif vakaları karşılaştırmalı olarak incelenmiş ve bu bölgenin altı ülkesindeki model performansı ayrıntılı olarak tartışılmıştır. PSNR ve R metriklerine dayanan en iyi sonuç, algoritmanın nispeten daha iyi sonuçlar elde ettiğini gösteren daha büyük değerlerle gözlemlendi. Moritanya'da, LSTM algoritması en büyük PSNR ve R puanlarını üretti. -1.0514 ve 0.9962 buna karşılık elde edilen puanlardı. PSNR ve R puanları hariç, kalan değerlendirme metrikleri için en iyi sonuçlar daha düşük sayılarla görülür. Moritanya'da, LSTM modeli 287.8118'in en küçük RMSE'sini üretti. 2.0052–25.0037 ve 16.7849–26.4318 MAPE değerleri ARIMA ve Prophet algoritmaları kullanılarak elde edilmiştir. LSTM algoritması, aksine, en küçük MAPE'ye (0.7551-5.7408) sahipti. LSTM algoritmasının maksimum MAPE puanı, ARIMA ve Prophet algoritmalarının en düşük MAPE puanlarından önemli ölçüde daha azdır. Kuzey Afrika bölgesinde, LSTM algoritması COVID-19 vakalarını yansıtmak için en iyi yöntemdir. Moritanya bu bölgedeki en yüksek tahmin doğruluğuna sahipken, Fas en az tahmine sahipti ve bir Peygamber algoritması 280882.9106 RMSE puanına ulaştı. 4.1.2. Orta Afrika Çad'daki LSTM algoritması en küçük RMSE puanı 13.2742 verirken, Kamerun'daki Prophet algoritması 26508.4573 ile en büyük RMSE puanını sağladı. Hem Prophet hem de LSTM algoritmaları, buna karşılık, Kamerun ve São Tomé ve Príncipe için 40.3369 ve 16.3165'lik en küçük ve en büyük PSNR puanlarını bildirdi. LSTM algoritması, 0.2212-7.4279'luk en büyük MAPE aralığına sahipti ve buna karşılık 0.7272-1.1389 ve 4.7480-28.8557 ile ARIMA ve Prophet algoritmalarından önce geldi. LSTM algoritması en yüksek öngörücü doğruluğa sahipken, Peygamber algoritması en düşük orana sahipti. 4.1.3. Güney Afrika Güney Afrika bölgesinde en iyi tahmin modellerini oluşturmak için kullanılan değerlendirme kriterleri, LSTM algoritmasının Zambiya'da 0.9970'lik en büyük R değerini elde ettiğini, ARIMA algoritmasının ise Namibya'da -168.8737'lik en düşük R değerini elde etiğini göstermektedir. ARIMA algoritması, aksine, Güney Afrika'da -68.6754'lük en düşük PSNR değerini kaydederken, LSTM algoritması Zambiya'da -6.7122'lik en büyük PSNR değerini elde etti. LSTM algoritması, PSNR ve R kriterlerine göre bu bölgede tahmin yapan en iyi algoritma olarak ortaya çıkarken, ARIMA en kötü performansı gösteriyor. 552.2662 - 24818.6368, 685.6982 - 692322.2002 ve 3041.7034 - 657882.1667 RMSE metrik aralıkları sırasıyla LSTM, ARIMA ve LSTM modelleri tarafından elde edilmiştir. Bu metrikten, en iyi RMSE serisinin, diğer modellere kıyasla LSTM modeli tarafından elde edildiği de açıktır. Zambiya'dan 0,2252 MAPE metriğinin en küçük değeri ile Güney Afrika bölgesindeki genel olarak en iyi performans gösteren modelin LSTM modeli olduğu, en kötü performans gösteren modelin ise Namibya'dan 57,0550 ile en büyük MAPE ile ARIMA modeli olduğu gözlemlenmektedir. 4.1.4.Batı Afrika Bu bölgede R ölçüsü ayrıca Mali'deki LSTM algoritmasının 0.9965 ile en yüksek puanı verdiğini, Liberya'daki ARIMA algoritmasının ise minimum -558.9784 puan ürettiğini göstermiştir. Sierra Leone'deki aynı algoritma tarafından üretilen en küçük RMSE puanı olan 19.0642 bu gerçeği desteklerken, Nijerya'daki ARIMA algoritması 24.298.1514 puanla bu istatistikle en düşük performansa sahiptir. Her üç algoritmadaki MAPE istatistik değerleri karşılaştırılırsa, LSTM modeli, 1.9840–72.6324 aralığındaki ARIMA algoritması ve 0.9659–30.8797 aralığındaki Prophet algoritmasından önce gelen 0.1375–8.7542 arasındaki en iyi aralığı sunar. LSTM algoritması, bu performans metriklerine göre Batı bölgesinde olağanüstü bir sonuca sahiptir. 4.1.5. Doğu Afrika Bu bölgede on iki ülke araştırılmıştır. LSTM algoritması, Komorlar'danPSNR istatistiğine göre 18.6599 ile en büyük puanı elde etti. Aynı önlemleri kullanarak, ARIMA modelinin Etiyopya'da en kötü sonucu aldığı ve en düşük PSNR değerinin -45.0386 olduğu açıktır. Bu, ARIMA modelinin tahmin edilen verilerinin önemli ölçüde daha fazla gürültü içerdiğini ve bunun da doğrudan düşük performansa dönüştüğünü gösterir. Bu aynı zamanda ARIMA projeksiyonlarının gerçek verilerden daha fazla saptı. Peygamber, -1882.7825 R değeri ile Madagaskar'daki en düşük R değerine sahiptir. RMSE değerleri sıralandığında, LSTM algoritması 29.7540–13506.4698 arasında en iyi sonuca sahiptir, bundan önce 97.0829–44463.6562 arasında değişen değerlere sahip Prophet algoritması ve 185.4063–45548.2859 aralığına sahip ARIMA algoritması gelir. Bu bölgede, LSTM algoritmasının en güvenilir tahmine dayalı model olduğu açıktır. 4.2. İleri 61 gün için tahmin Bu araştırmanın ikinci önemli bileşeni, en iyi modelin belirlenmesi üzerine 61 günlük bir süre boyunca her ülke için en iyi algoritma tarafından kümülatif pozitif vakaların tahmin edilmesini içeriyordu. Her ülke için tüm alanlarda teyit edilen olayların son tarihi, bu araştırmada kullanılan ana veri kaynağına erişim sırasında 2021-11-1 idi. Afrika kıtasının bölgelerindeki her ülke için, COVID-19 vakaları kaynak veri kümesindeki son tarihten 2022-01-02 tarihine kadar tahmin edilmiştir. 4.2.1.Kuzey Afrika COVID-19 vakalarını kaydeden Kuzey Afrika ülkelerinin her birinin, tahmin edilen zaman diliminin sonuçlanmasıyla bir artış olacağı tahmin edilmektedir. COVID-19 vakalarının 206452'dan 208009'a, 37320'den 38250'ye, 712747'dan 716835'a, 331017'den 370164'a, 357338'ye ve Cezayir, Moritanya, Tunus, Mısır, Libya ve Fas'taki 369986 946145 947226 artması bekleniyor. Mısır, bu bölgede COVID-19 vakalarında öngörülen en yüksek artışa sahip ülkedir ve tahmin zaman çizelgesinin sonunda toplam COVID-19 vakası sayısının yüzde 11,83'ü oranında artmıştır. 4.2.2.Orta Afrika Kamerun'da, COVID-19 olaylarının sayısının, tahmin edilen dönemin sonuna kadar 102499'den 102129'ye düşeceği tahmin edilmektedir. Kamerun, Orta Afrika'da vaka sayısının azalacağı tahmin edilen tek ülke. Ülkenin geri kalanının da vaka sayısında bir artış görmesi bekleniyor. Gabon, Çad, Ekvator Ginesi ve São Tomé ve Príncipe'de COVID-19 vakalarının buna paralel olarak 35525'ten 36522'ye, 5069'dan 5072'ye, 13368'den 13508'e ve 3714'ten 3717'ye yükseleceği tahmin edilmektedir. Gabon'un yüzde 2,81'lik bir artışla bu bölgedeki vaka sayılarındaki en büyük artışı göreceği tahmin edilmektedir. 4.2.3.Güney Afrika Sadece Mozambik'in COVID-19 kümülatif vakalarının, bu bölgedeki ülkeler arasındaki tahmin zaman çizelgesinin sonunda 151292'den 151051'ye düşeceği tahmin edilmektedir. Kalan ülkelerde vaka sayısının artacağı tahmin ediliyor. COVID-19 olaylarının sayısının 64433'ten 76655'e, 186594 193024'a, 61796'dan 63201'e, 128886'ye 129401, 209734'a 210955, 46421'den 46874'e, 21635'ten 24334'e, 132977'ye ve 133267 in Angola, Botswana, Malavi, Namibya, Zambiya, Eswatini, Lesoto, Zimbabve ve Güney Afrika'ya 2922116 2993349 tahmin edilmektedir . Bu bölgedeki en büyük yüzde artış, yüzde 18,97 ile Angola'dan gelmektedir. 4.2.4.Doğu Afrika Cibuti'deki örneklerin tahmin zaman çizelgesinin sonunda sabit kalacağı tahmin edilmektedir. Orijinal veri kümesindeki COVID-19 vakalarının ilk sayısı 13478 idi. Cibuti tahmininin sonunda bu tahmin edildi ve aynı kalması bekleniyordu. Eritre'de, 6834'ten 6820'ye mütevazı bir azalma öngörülüyor. Bununla birlikte, tahmin zaman çizelgesinin sonunda, kalan ülkelerde bir artış öngörülmektedir. Uganda, Sudan, Madagaskar, Kenya, Güney Sudan, Somali, Ruanda, Mauritius, Etiyopya ve Komorlar'ın 126236'dan 127628'a, 40433'ten 40598'e, 43626'dan 44150'ye, 253310'dan 253901'e, 12410'dan 12761'e, 21998'den 24356'ya, 99698'den 102205'a, 17812'den 18297'ye, 365167'den 377935'ya ve 4259'dan 4472'ye yükselmesi bekleniyor. Vakalarda öngörülen yüzde 10,72'lik artışla Somali, beklenen en büyük artışa sahip ülke konumunda. 4.2.5. Batı Afrika Gambiya'da beklenen COVID-19 olaylarının sayısının, tahmin zaman çizelgesinin tamamlanmasıyla bir miktar düşeceği tahmin edilmektedir. Bu ülkede vakaların 9967'den 9964'e düşmesi bekleniyor. Gambiya hariç, Batı bölgesindeki diğer ülkelerin enfeksiyon sayısında bir artış görmesi bekleniyor. Nijer, Gine-Bissau, Gine, Burkina Faso, Togo, Sierra Leone, Senegal, Nijerya, Mali, Liberya ve Gana gibi ülkelerde, COVID-19 vakalarının 6366'dan 6565'e, 6134'ten 6151'e, 30653'ten 30909'a, 14793'ten 14848'e, 26079'dan 26195'e, 6398'den 6408'e, 73917'den 74171'e, 211961'den 214433'ye, 16074'ten 19521'e, 5815'ten 5838'e ve 130077'den 131344'e yükseleceği tahmin edilmektedir. orrespondinging. Bu istatistiklere göre, Mali'nin yüzde 22,77 ile en yüksek yukarı yönlü yüzde büyümesini yaşayacağı tahmin edilmektedir. 5. SONUÇ VE ÖNERI Bu araştırma, ARIMA, Peygamber ve LSTM modellerinden oluşan üç tahmin modeli ile hedeflerine ulaşmak için hem istatistiksel hem de derin öğrenme metodolojilerini kullandı. Bu 3 algoritmanın etkinliğinin karşılaştırılmasında yedi performans göstergesi kullanılmıştır. MSE, RMSE, MAPE, SMAPE, R2 skoru, NRMSE ve PSNR bunlar arasındaydı. Bu nedenle, 61 günlük bir süre için gelecekteki COVID-19 vakalarını tahmin etmek için en iyi öngörücü model seçildi. LSTM modeli bu araştırmada en iyi performans gösteren model olurken, Peygamber algoritması en düşük performans gösteren modeldi. Mali'nin yüzde 22,77 ile Batı Afrika bölgesindeki vakalarda en büyük artışa sahip olacağı tahmin ediliyor. Aksine, Güney bölgesinde bir ülke olan Angola'da öngörülen en büyük büyüme yüzde 18,97'dir. Mısır'ın yüzde 11,83'lük artışla en fazla artışın kuzey bölgesinden gelmesi bekleniyor. Somali'nin doğu bölgesindeki yüzde 10,72'lik vakalarda en büyük artışa sahip olması bekleniyor. Son olarak, Gabon, yüzde 2,81 ile Orta Afrika bölgesindeki vakalarda öngörülen en büyük artışa sahip. Bu çalışmada karşılaşılan başlıca zorluklar, COVID-19 pandemisi hakkında modelleri, özellikle de önemli miktarda eğitim verisi talep eden istatistiksel algoritmaları eğitmek için hala çok fazla bulgu bilinmediği gerçeği göz önüne alındığında, yeterli veri eksikliğinden kaynaklanmaktadır. Daha doğru sonuçlar vermek için sınırlı veri kümeleri üzerinde dinamik bir eğitim formatı kullanan yöntemler de dahil olmak üzere daha ileri çalışmalara ihtiyaç vardır. Ayrıca, virüsün coğrafi yönlerini ve virüsün mutasyon oranları ve farklı varyantların etkisi gibi diğer parametreleri dikkate almak için modellerin modellenmesinde daha küresel bir bakış açısı göz önünde bulunduran daha ileri çalışmalara ihtiyaç vardır.

Özet (Çeviri)

Cutting-edge measures that maximize the usage of available artificial intelligence tools are needed to combat the spread of the COVID-19 global epidemic. The focus of this research is to forecast COVID-19 incidences and determine the most vulnerable nations in the 5 main African regions. The suggested technique combined statistical and deep learning techniques, such as the seasonal autoregressive integrated moving average (ARIMA), long short-term memory (LSTM), and the prophet algorithm. The Mean Squared Error, Root Mean-Square Error, Mean Absolute Percentage Error, Symmetric Mean Absolute Percentage Error, Peak Signal-to-Noise Ratio, Normalized Root Mean-Square Error, and R2 score were among the performance measurements. The long short-term memory model was found to be the most successful in this research. Mali, Angola, Egypt, Somalia, and Gabon, all from the Western, Southern, Northern, Eastern, and Central African regions, had the greatest expected increases in the number of COVID-19 cases by the end of the 61- day forecast timeline, with increases of 22.77 percent, 18.97 percent, 11.83 percent, 10.72 percent, and 2.81 percent, respectively.

Benzer Tezler

  1. Derin öğrenme ve büyük veri yaklaşımları ile metin analizi

    Text analysis with deep learning and big data approaches

    BETÜL AY KARAKUŞ

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GALİP AYDIN

  2. Predicting stock prices in bist: A reinforcement learning and sentimental analysis approach

    Pekiştirmeli derin öğrenme ve duyarlılık analizi yaklaşımı ile bıstteki hisselerin fiyatlarının tahmin edilmesi

    ŞEYMA EĞE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Büyük Veri ve Veri Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

  3. Borsada işlem gören hisse senetlerinin zaman serisi analitiği

    Time series analytics of the stocks traded on the stock exchange

    HÜSEYİN AKKAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMersin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HAMZA EROL

  4. Sentiment analysis model proposal with deep learning techniques on big data: Portfolio selection with the help of industry indicators

    Büyük veri üzerinde derin öğrenme teknikleri ile duygu analizi model önerisi: Sektör göstergeleri yardımıyla portföy seçimi

    MAHMUT SAMİ SİVRİ

    Doktora

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ALP ÜSTÜNDAĞ

  5. Applying machine learning and deep learning in the voice biometrics technology

    Ses biyometri teknolojisinde makine öğrenmesini ve derin öğrenmeyi uygulamak

    YOUSEF EL-BAYOUMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mühendislik BilimleriBahçeşehir Üniversitesi

    Büyük Veri Analitiği ve Yönetimi Ana Bilim Dalı

    DOÇ. YÜCEL BATU SALMAN