Geri Dön

Veri merkezleri için makine öğrenmesi temelli izleme sistemi tasarımı

Machine learning based monitoring system design for data centers

  1. Tez No: 928263
  2. Yazar: METEHAN HAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ABDULLAH SEVİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Sakarya Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Bugün, hızla büyüyen ve giderek daha karmaşık hale gelen veri merkezleri, modern işletmelerin ve teknolojik altyapıların merkezinde yer almaktadır. Bu büyüme ve karmaşıklık, sistemlerin yönetimi ve operasyonel verimliliklerinin sağlanması için yeni zorluklar ortaya çıkarmaktadır. Bu bağlamda, veri merkezlerinde yer alan sistemlerin sürekli izlenmesi, performanslarının takip edilmesi ve üretilen büyük miktardaki verinin anlamlandırılması kritik bir gereklilik haline gelmiştir. Geleneksel izleme yaklaşımları, belirli sınırlamaları beraberinde getirirken, bu yöntemler, büyük veri hacimleri ve karmaşık altyapılar karşısında yetersiz kalabilmektedir. Bu nedenle, izleme süreçlerinde yenilikçi teknolojiler kullanılarak daha akıllı ve etkin çözümler geliştirilmesi büyük bir önem taşımaktadır. Makine öğrenmesi tabanlı izleme sistemleri, geleneksel yöntemlere kıyasla çok daha hızlı ve doğru bir şekilde verileri analiz edebilmekte, öngörüsel analizler yaparak potansiyel sorunları henüz ortaya çıkmadan tespit edebilmektedir. Bu sistemler, otomasyon sayesinde insan müdahalesine olan gereksinimi azaltarak operasyonel maliyetleri düşürmekte ve insan hatalarından kaynaklanan riskleri minimize etmektedir. Bu da proaktif bakım ve müdahale imkânlarını artırarak sistemlerin sürekliliğini ve performansını en üst düzeye çıkarmaktadır. Erişilebilirlik ve kontrol süreçlerinin kolaylaştırılması, yönetimsel yükü azaltırken, izleme sistemlerinin daha kapsamlı ve derinlemesine analiz yeteneklerine sahip olması, karar alma süreçlerinde büyük katkılar sağlamaktadır. Sonuç olarak, veri merkezlerinin izlenmesinde daha analiz odaklı bir yapı oluşturulması, sadece mevcut sistem performansının iyileştirilmesini değil, aynı zamanda gelecek stratejilerinin planlanmasında da önemli bir rol oynamaktadır. Bu çalışma da Zabbix açık kaynak izleme aracı ve makine öğrenmesi kullanılarak sistemler tasarlanmış ve uygulanmıştır. Her iki izleme yöntemine ait veri toplama yapıları oluşturulmuş, bir sunucu üzerinde Zabbix agent yöntemi ile CPU, memory, disk ve I/O trafiğinin izlenmesi sağlanmıştır. Bu veriler üzerinde hem geleneksel izleme hem de makine öğrenmesi yöntemleri kullanılarak analizler sağlanmış geçmişe ve geleceğe yönelik tahminlemelerde bulunulmuştur. Bu çıktılar sonucunda yansıyan alarmlar ve tutulan verilere göre grafiksel olarak karşılaştırılmış her iki sistemin de avantajları ve dezavantajları ölçümlenmiştir. Geleneksel izlemede sabit formüller yer alırken ve eşik değerler ile sistem izlenirken; makine öğrenmesi ile izleme de geleceğe yönelik tahminleme, baseline oluşturma, doluluk tahminleri gibi analiz edilen, verilerin belirli filtre ve işlemlerden geçirilmesi ile modellemeler yapılmakta ve bu çıktılar sistemin efektif ve proaktif olarak izlenmesine imkân sunmaktadır. Geleneksel bir CPU kullanım alarmı gelirken, geçmişe yönelik baseline değerlendirmeleri ile alarmın yansımadığı olağan olduğu testlerde görülmüştür. Ayrıca geleneksel izleme sistemlerinde genellikle bir eşik değerin aşılması değerlendirilirken makine öğrenmesi ile izlemelerde düşüşlerinde false-positive alarmlar oluşmadan değerlendirilebilmesine imkan vermektedir. Bu da sistemlerde anlık dalgalanmaları sadece yukarı yönlü değil aşağı yönlüde takip edebilmeyi ve nokta atışı sorunları tespit edebilmeyi sağlamaktadır. Bunun yanı sıra özellikle disk doluluk ve aşım tespitlerinde tahminlemelerin yapılnması ve disk, storage gibi yapıların ne zaman dolabileceğinin izlenmesi de kritik öneme sahiptir. Bu bilgi sadece bir alarm olarak kalmamakta ve operasyon planlamalarına destek sağlamakta ve olası kesintilerin önüne geçilmesine imkân tanımaktadır. Veri merkezlerindeki adam-gün işlerininde planlanmasına destek olmaktadır. Çalışma da çıktılar değerlendirildiğinde reaktif yakaşımlar yerine proaktif yaklaşımların ne gibi faydalar sağlayacağı tasarlamış olduğumuz sistem üzerinde analiz edilerek ve izlemeleri sağlanarak örneklendirilmiş ve detayları incelenmiştir. Geleceğe bakış olarak makine öğrenmesi sistemlerininde tepesinde bulunan yapay zeka sistemlerininde ne kadar önemli olduğu literatür araştırmalarında görülmüştür. Yeni nesil ve ilerleyen zamanlarda reaktif yapıların yerini makine öğrenmesi ve bir sonraki adımda ise yapay zekanın alabileceği bu çalışma da gözlemlenmiştir.

Özet (Çeviri)

With today's rapidly developing technological infrastructure, data centers play a critical role. These centers form the backbone of modern businesses and evolve into a constantly growing and complex structure. With the acceleration of digital transformation, the importance of data centers is increasing day by day, which brings with it new management challenges. Continuous monitoring of system performance, analysis and interpretation of large data volumes have become a necessity. While traditional monitoring approaches are inadequate in the face of increasing data volumes and complex infrastructures, the use of innovative technologies has become inevitable. In recent years in particular, the size and complexity of data centers has increased exponentially, making manual monitoring and management processes impractical. Modern data centers host hundreds or even thousands of servers, network devices and storage units, each of which constitutes complex systems that must be constantly monitored and managed. Considering the dependence of businesses on digital infrastructure today, it is clear that even a one-hour system outage can lead to serious financial losses. Interruptions in data center operations can directly cause loss of revenue, customer dissatisfaction, and reputation loss. Monitoring systems, which are critical for business continuity, detect potential problems before they occur and allow the necessary precautions to be taken. Machine learning methods include supervised and unsupervised learning approaches. While supervised learning trains models using labeled data, unsupervised learning aims to discover hidden structures in data by working with unlabeled data. In supervised learning, the model learns the correct outputs together with the input data and makes predictions that can be applied to new data. For example, supervised learning can be used to predict the future performance of a server using past performance data. Unsupervised learning, on the other hand, is used to discover the natural structure of the data. In this method, hidden patterns and relationships in the dataset are revealed. For example, anomaly detection in large data sets such as server logs can be performed using unsupervised learning techniques. Deep learning is an approach that can make more sophisticated predictions and analyses by creating deeper and multi-layered structures in complex data sets. Deep learning can make higher accuracy predictions in large data sets using neural networks. This method achieves successful results especially in complex structured data such as image and audio data. In data center monitoring systems, more complex and variable system behaviors can be analyzed using deep learning techniques and future abnormal situations can be predicted more accurately. Threshold-based approaches, which form the basis of traditional monitoring systems, are insufficient in the face of today's dynamic workloads. Variable resource usage of modern applications, microservice architectures and cloud infrastructures require more sophisticated monitoring and analysis methods. In this context, machine learning-based approaches offer smarter and adaptive monitoring solutions by learning the behavioral patterns of systems. In this study, both traditional and machine learning-based monitoring systems were designed and implemented using the Zabbix open source monitoring tool. The development of data center monitoring systems has followed a journey starting from simple ping checks to today's complex artificial intelligence-supported systems. During this evolution process, monitoring systems have transformed from tools that only check the status of systems to proactive management and decision support systems. The main reasons for preferring the Zabbix platform are its large user community, rich plugin ecosystem and easy integration with different systems. In the tests conducted, server behaviors, especially under high load, were examined and the performance differences between traditional and machine learning-based monitoring systems were analyzed in detail. Test scenarios were designed to simulate real-world conditions, and different load levels and usage scenarios were evaluated. Various loads were applied during the testing process and the behavior of the system under different load conditions was examined. The study demonstrates the critical importance of machine learning-based estimations, especially in disk occupancy and overflow detection. In large data centers, management of storage systems and capacity planning are of critical importance. While traditional approaches generally use simple linear projection methods to estimate capacity, machine learning-based systems can provide more accurate predictions by taking into account usage patterns, seasonal changes, and trend analysis. Thanks to these predictions, occupancy processes of structures such as disks and storage can be predicted in advance, which supports operational planning and allows possible system outages to be prevented. Thanks to the learning ability of the system, disk usage characteristics of different applications can be analyzed, which allows more accurate capacity planning. These predictions also provide great benefits in planning man-day work in data centers. For example, predicting that a storage system will be full within a certain period of time gives IT teams the opportunity to prepare for the necessary capacity increase. This proactive approach minimizes emergency interventions and allows for planned and controlled system updates. In the analyses conducted, it has been observed that machine learning-based prediction systems can make more accurate capacity estimates than traditional methods. This prevents unnecessary capacity increases and minimizes interruptions due to capacity insufficiency. The functions in the Zabbix platform are powerful tools that support machine learning and forecasting processes. For example, the baselinewma function is used to determine the baseline of data sets using moving averages. This method is effective in determining the value considered normal in data sets and allows the detection of abnormal deviations. The TrendSTL function parses time series data for seasonal trend analysis. This function helps to evaluate system performance more accurately by analyzing seasonal changes and long-term trends in data sets. The Forecast function uses statistical models to forecast future data points. This function is used to predict future resource usage and performance trends. The TimeLeft function estimates how long a resource will be sufficient based on current data and trends. These estimates help system administrators make more informed decisions and optimize their operational planning. Performance tests and analyses have shown that machine learning-based systems can provide earlier warnings and reduce false-positive alarm rates compared to traditional approaches. These improvements increase operational efficiency while significantly reducing the workload of IT teams. As a result of performance tests and analyses, it has been observed that machine learning-based systems, whose role in data center operations is clearly demonstrated, can adapt to changing system behaviors with their adaptive capabilities. This adaptive feature ensures that the system operates effectively even in the face of dynamic workloads and changing usage patterns. In the tests conducted within the scope of the study, the superiority of machine learning-based systems, especially in the analysis of complex system behaviors, has been clearly demonstrated. For example, complex service interactions in microservice architectures and their effects on system performance are among the situations that are difficult to detect with traditional monitoring methods. Machine learning-based systems can learn such complex interactions and detect abnormal behaviors. In addition, significant advantages are provided in terms of system security. For example, abnormal system behaviors that may be caused by cyber attacks can be quickly detected by machine learning models. In the future, it is expected that such systems will develop further and evolve into fully automatic and self-healing data center management systems. These systems will not only detect potential problems, but will also be able to automatically produce and implement solutions. This development will increase the efficiency of IT operations, minimize human-related errors and maximize system reliability. The results of the study demonstrate the benefits of proactive approaches instead of reactive approaches with concrete examples. Especially in large-scale data centers, it seems inevitable that automated, intelligent systems will replace manual control and interventions. Literature research emphasizes the future importance of artificial intelligence systems, which are the upper level of machine learning systems. Artificial intelligence systems will not only detect and predict anomalies, but will also have automatic problem-solving and self-healing capacity. In the future, it is predicted that reactive structures will be replaced first by machine learning, and then by artificial intelligence systems. This transition process marks the beginning of a new era in data center management. It is predicted that artificial intelligence and machine learning technologies will play an even more central role in the future of data center operations. Especially with the widespread use of edge computing and IoT devices, the complexity of monitoring systems and the amount of data that needs to be managed will increase. In this case, the importance of intelligent monitoring systems will increase even more and will play a critical role in the sustainability of data center operations. In addition, with the widespread use of the green data center concept, the optimization of energy consumption is also gaining importance. Machine learning-based systems can contribute to reducing the carbon footprint of data centers by optimizing energy consumption. As a result, the analyses conducted and the results obtained within the scope of this study clearly reveal the advantages of using machine learning technologies in data center monitoring systems. It seems inevitable that traditional monitoring approaches will be replaced by more intelligent and proactive systems. In this transition process, it is of great importance for organizations to adapt to new technologies and manage the necessary transformation processes. In future studies, it is recommended that the role of artificial intelligence technologies and machine learning in data center management be examined in more detail and new usage scenarios be developed. Artificial intelligence and machine learning are among the most critical technologies shaping the future of data centers. The advanced analysis and prediction capabilities offered by these technologies enable system administrators to make more conscious and proactive decisions. In this context, the adoption and integration of these innovative technologies is of great importance for the effective management of data centers.

Benzer Tezler

  1. A comparative analysis of LSTM and lıghtgbm models in short-term electricity load forecasting: a case study from türkiye

    Kısa dönemli yük tahmininde LSTM ve lightgbm modellerinin karşılaştırmalı analizi: Türkiye'den bir vaka çalışması

    MUHAMMET FURKAN BAYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN

  2. Sağlık turizminde makine öğrenmesi kullanılarak Chatbot aracılığıyla başvuran hastaların tedavi olma kararının tahmin edilmesi

    Estimating the decision to treat patients who application through Chatbot using machine learning in health tourism

    SENANUR SEYHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Sağlık Yönetimiİstanbul Medipol Üniversitesi

    Sağlık Yönetimi Ana Bilim Dalı

    DR. İLKER KÖSE

  3. Siber saldırıların çizge görselleştirmesinde geometrik derin öğrenme temelli yeni yaklaşımların geliştirilmesi

    Development of novel approaches based on geometric deep learning for graph visualization of cyber attacks

    MÜCAHİT SOYLU

    Doktora

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. RESUL DAŞ

  4. Approximate spectral clustering ensemble methods for clustering of large data sets

    Büyük veri kümelerinin sınıflandırılmasında yaklaşık spektral öbekleme birleşimi yöntemleri

    YASER MOAZZEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İSA YILDIRIM

    DOÇ. DR. KADİM TAŞDEMİR

  5. Yapay zeka kullanılarak klinik tanının öngörülmesinde biyokimyasal test sonuçlarının rolünün araştırılması

    Investigation of the role of biochemical test results in prediction of clinical diagnosis using artificial intelligence

    YUSUF YEŞİL

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Tıbbi Biyokimya Ana Bilim Dalı

    PROF. DR. EVİN ADEMOĞLU

    DOÇ. DR. ALPAY MEDETALİBEYOĞLU