Detecting the anomalies on number of website sessions with machine learning algorithms
Makine öğrenmesi yöntemleri ile internet sitesi oturum sayılarında anomali tespiti
- Tez No: 857615
- Danışmanlar: DR. ÖĞR. ÜYESİ ERHAN ÇENE
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 50
Özet
İnternet analitiği, iş zekası, internet sitesi kıyaslama, çevrimiçi reklamcılık ve pazarlama gibi alanlar için önemli bir kavramdır. Şirketler, çeşitli bilgiler elde etmek ve uygun kararlar alabilmek için internet sitesi trafiklerini izler ve analiz ederler. İnternet sitesi trafiğinin izlenmesi ve analiz edilmesi, işletmelerin hızlı tepki verebilmesi, müşteri deneyimini iyileştirebilmesi ve istenmeyen durumları önleyebilmesi için internet sitesindeki son geliştirmelerin etkilerini gözlemlemesine veya performans ölçütlerinin nasıl ilerlediğini anlamasına yardımcı olabilir. Bu nedenle internet sitesindeki oturum sayısındaki anormal düzeni tespit edecek bir mekanizmaya sahip olmak, işletmelerin verimli çalışması açısından büyük önem taşımaktadır. Bu çalışmada makine öğrenmesi algoritmaları geliştirilerek ve istatistiksel yöntemler kullanılarak bu konuya çözüm üretilmesi hedeflenmektedir. Bir firmanın internet sitesine ait beşer dakikalık aralıklara bölünmüş zaman serisi verileri Karar Ağacı, XGBoost ve Prophet algoritmaları kullanılarak modellenmiştir. Modellerin performansını ölçümlemede ana ölçüt olarak Kök Ortalama Karesel Yüzde Hata (RMSPE) metriği kullanılmış, XGBoost algoritması %19,85 puanla en başarılı model olmuştur. Tahmin edilen ve gözlemlenen değerler arasındaki fark normal bir dağılıma uydurulmuş ve z-puanı yöntemi kullanılarak ±3σ dışındaki terimler anomali olarak etiketlenmiştir. Ayrıca belirli bir süre için modelin zaman dışı performansı ölçülmüş ve o süre kapsamında modelin yeniden eğitilmesi gerekip gerekmediğine karar verilmiştir. Performans ölçütü ve anormallik oluşma oranı göz önünde bulundurulduğunda, istatistiksel yaklaşımlar kullanılarak bu tür ihtiyaçlara sahip işletmeler için uygulanabilir sonuçların elde edilebileceği gösterilmiştir. Bazı internet sitesi oturumlarının kaynakları tahminlenebilir bir düzene sahip olmadığı için, belirli bir miktarda hatanın kaçınılmaz olduğu görülmektedir. İleride bu tür verilerin modelden çıkarılmasıyla daha düşük hataların elde edilmesi muhtemeldir. Gerçek oturum verilerinin uzmanlar tarafından etiketlenmesi ve tahmin edilen veri noktalarının gerçekten anomali olup olmadığını test etmek için bir sınıflandırma algoritması oluşturmak da mümkündür.
Özet (Çeviri)
Web analytics is an important concept for areas such as business intelligence, website benchmarking, online advertising and marketing. Companies monitor and analyze their website traffic in order to obtain various information and make convenient decisions. Monitoring and analyzing the website traffic can help businesses to observe the effects of recent website developments or understand how the performance metrics progress in order to be able to react rapidly, increase customer experience, and prevent undesirable instances. Therefore, having a mechanism which detects the abnormal pattern in the number of sessions on the website is crucial for businesses to operate efficiently. In this study, it is aimed to create solutions for this matter by developing machine learning algorithms and using statistical methods. The time series data belong to a company's website which divided into five-minute intervals is modeled by using Decision Tree, XGBoost, and Prophet algorithms. The performance of the models is measured mainly by Root Mean Squared Percentage Error (RMSPE) metric and XGBoost algorithm became the most successful model with a score of 19.85%. The difference between the predicted and the observed values are fitted to a normal distribution and by using z-score method terms outside ±3σ are labeled as anomalies. Additionally, the out-of-time performance of the model is measured for a specific amount of time and it is decided that if there is a need for retraining the model for that period of time. Considering the performance metric and the anomaly occurrence rate it is shown that using statistical approaches applicable results can be obtained for businesses with such need. Since some source medium of website sessions have no predictable patterns it is seen that some of the error is inevitable. It is likely to obtain lower errors by excluding this type of the data from the model for the future. It is also possible to label the actual session data by the professional and build a classification algorithm in order to test whether the predicted data points are truly anomalies.
Benzer Tezler
- Oto-kodlayıcı mimarisi kullanarak mermer yüzey anomali tespiti
Marble surface anomaly detection using autoencoder architecture
MUHAMMAD YAHYA ABDULLAH
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. CEMİL ÖZ
- Machine learning for network anomaly detection
Başlık çevirisi yok
RUSUL TAREQ KHUDHAIR
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ABDULLAHİ ABDU IBRAHIM
- Prematür over yetmezliği olgularında genomik kopya sayısı değişikliklerinin array CGH yöntemi ile değerlendirilmesi
Assessing copy number variations by array CGH in cases with premature ovarian failure
HALİME KÜÇÜK
Doktora
Türkçe
2015
GenetikEskişehir Osmangazi ÜniversitesiTıbbi Genetik Ana Bilim Dalı
PROF. DR. SEVİLHAN ARTAN
- İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti
Anomaly detection with machine learning on air conditioning systems
REFİK KİBAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR
- Etkin piyasa hipotezi ve zayıf formda piyasa etkinliğinin test edilmesi: Türkiye'deki sektör endeksleri üzerinde bir çalışma
Efficient market hypothesis and testing the weak form market efficiency: A study on the sector indices of Turkey
ÇAĞATAY GEZER
Yüksek Lisans
Türkçe
2021
İşletmeTürk Hava Kurumu Üniversitesiİşletme Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CEYDA AKTAN