Nosql veritabanı sistemlerinin performans karşılaştırılması ve analizi
Comparison and analysis of the performance of nosql database systems
- Tez No: 902004
- Danışmanlar: DR. ÖĞR. ÜYESİ ABDULLAH SEVİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Sakarya Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 131
Özet
Günümüzde veri miktarlarının hızla artması, geleneksel ilişkisel veritabanlarının performans ve ölçeklenebilirlik konusunda bazı zorluklarla yüzleşmesine neden olmuştur. Bu sorunların üstesinden gelmek amacıyla NoSQL veritabanı sistemleri yaygın olarak benimsenmiştir. Ancak, farklı NoSQL veritabanı sistemlerinin performansı, kullanım senaryolarına, veri modeline ve dağıtım mimarisine bağlı olarak büyük ölçüde değişiklik gösterebilmektedir.“NoSQL Veritabanı Sistemlerinin Performans Karşılaştırması ve Analizi”başlıklı bu çalışma, çeşitli NoSQL veritabanı sistemlerinin belirli kullanım senaryolarında gösterdiği donanım performansını değerlendirmeyi amaçlamaktadır. Bu çalışma, karşılaştırmalı bir perspektif sunarak, kurum ve kuruluşların veritabanı altyapısı seçiminde daha bilinçli kararlar almasına yardımcı olmayı hedeflemektedir. Çalışmada, piyasada yaygın olarak kullanılan Cassandra, MongoDB, Couchbase ve HBase veritabanı sistemlerinin aynı donanım üzerinde gösterdiği performanslar, alan bilgisine dayalı yöntemlerle ele alınmıştır. Performans analizi için iş çıktısı oranı, gecikme süresi, işlemci kullanımı, bellek kullanımı ve iş parçacığı kullanımı gibi kritik metriklere odaklanılmıştır. Analizlerin yapılabilmesi için her bir veritabanı sistemi minimum sistem gereksinimleri ile aynı donanım konfigürasyonu üzerinde kurulmuş ve test platformları oluşturulmuştur. Test platformları oluşturulduktan sonra her bir veritabanı üzerinde sanal sunucular oluşturularak belirlenen iş yükü senaryolarına göre test planları uygulanmıştır. İş yükü senaryoları; %50 okuma %50 güncelleme, %95 okuma %5 güncelleme, %100 okuma, %75 okuma %25 ekleme, %75 ekleme %25 güncelleme ve %50 okuma %50 okuma-güncelleme-yazma şeklinde belirlenmiştir. Performans değerlendirme araçları kullanılarak gerçekleştirilen testler sonucunda elde edilen veriler bir tabloda kayıt altına alınmış ve her bir performans kriterine göre başarım sıralaması yapılmıştır. Test sonuçlarına göre aynı donanım konfigürasyonunda iş çıktısı oranı, gecikme süresi, işlemci kullanımı ve bellek kullanımı açısından en iyi performansı Cassandra göstermiştir. Başarım sıralamasında MongoDB ikinci, Couchbase üçüncü ve HBase dördüncü olmuştur. Bu çalışma, farklı veritabanı yönetim sistemlerinin performansını karşılaştırmalı olarak analiz ederek bilişim altyapısı seçiminde rehberlik sağlamaktadır. Elde edilen bulgular, kurum ve kuruluşların ihtiyaçlarına en uygun veritabanı sistemini seçmelerine yardımcı olacaktır. Gelecek çalışmalarda, daha geniş veri setleri kullanılarak NoSQL veritabanlarının performansının daha kapsamlı bir şekilde incelenmesi önerilmektedir. Farklı iş yükü senaryoları ve kullanıcı davranışları dikkate alınarak performans testlerinin tekrarlanması, veritabanlarının çeşitli kullanım senaryolarında nasıl davrandığını anlamak açısından önemlidir. Ayrıca, farklı iş parçacığı sayıları ve paralel işlem kapasitelerinin detaylı olarak analiz edilmesi, sistemlerin yüksek işlem yükleri altındaki performanslarının daha iyi anlaşılmasına yardımcı olabilir. Aynı testlerin farklı donanım konfigürasyonları üzerinde tekrarlanması, donanımın veritabanı performansı üzerindeki etkilerini belirlemek açısından faydalı olabilir. Veritabanı sistemlerinin güncel versiyonları ve yeni özellikleri dikkate alınarak performans testlerinin tekrarlanması, yazılım güncellemelerinin performans üzerindeki etkilerini değerlendirmek açısından önemlidir. Bu öneriler, NoSQL veritabanı sistemlerinin performansının daha kapsamlı ve detaylı bir şekilde incelenmesine olanak sağlayarak, gelecekte yapılacak çalışmalara önemli katkılar sunabilir.
Özet (Çeviri)
The increasing data volumes generated by modern applications have posed significant challenges for traditional relational database management systems (RDBMS). While RDBMS have long served as a robust solution for structured data storage and retrieval, they often struggle with performance and scalability when confronted with the diverse and large-scale data requirements of today's digital environments. Traditional RDBMS architectures, with their rigid schema designs and reliance on complex join operations, are not always equipped to handle the flexible data models and real-time processing demands that are now commonplace. As the Internet of Things (IoT), social media platforms, and big data analytics continue to generate massive amounts of varied data, the limitations of RDBMS have become more evident, leading to the emergence of alternative database solutions. NoSQL (Not Only SQL) databases have gained prominence as a flexible and scalable alternative to traditional RDBMS, addressing many of their inherent limitations. NoSQL databases offer a range of data models, such as key-value pairs, documents, wide-column stores, and graph structures, enabling them to manage unstructured and semi-structured data efficiently. This flexibility allows them to excel in applications that require rapid data ingestion, low-latency queries, and dynamic data structures. Industries such as e-commerce, social networking, and real-time analytics have widely adopted NoSQL databases due to their ability to manage large and varied datasets while maintaining high performance. These databases can scale horizontally across distributed systems, making them particularly suited for environments where the need for scalability and availability is paramount. However, the performance characteristics of NoSQL databases can vary significantly based on usage scenarios, data models, and underlying distribution architectures. Understanding these differences is crucial for organizations aiming to select the right database system that aligns with their specific needs. This study, titled“Performance Comparison and Analysis of NoSQL Database Systems,”provides a detailed evaluation of four widely used NoSQL databases: Cassandra, MongoDB, Couchbase, and HBase. The focus is on assessing their hardware performance across specific usage scenarios to help organizations make informed decisions regarding their database infrastructure. By analyzing key metrics such as throughput, latency, CPU usage, and memory usage, the study offers insights into how each database handles various workloads, aiding in the selection process for database solutions that meet specific operational requirements. To ensure consistency and reliability in the results, each NoSQL database system was tested on identical hardware configurations, thereby eliminating hardware variability as a factor in performance differences. Virtual servers were deployed for each database, and the tests covered a range of scenarios, including balanced operations like 50% read and 50% update, predominantly read-heavy operations (95% read and 5% update), and scenarios focused entirely on read operations (100% read). Additional tests included scenarios with high data insertion rates, such as 75% read with 25% insert and 75% insert with 25% update, as well as mixed read, update, and write operations. These scenarios represent common use cases found in various industries, from high-frequency transaction processing to real-time data analytics and content management systems. The performance metrics measured in this study provide a comprehensive view of each database's capabilities. Throughput, measured in operations per second, indicates the ability of a database to manage large volumes of transactions efficiently, making it an essential metric for applications requiring high data flow. Latency, or response time, measures how quickly a database can process individual transactions, which is critical for user-facing applications where response speed directly impacts user experience. CPU and memory usage were also monitored to assess how each database utilizes system resources under different workloads, offering insights into the efficiency and scalability of each system. Additionally, thread usage was analyzed to determine how well each database can handle concurrent processing, which is particularly important for maintaining performance under high-load conditions. The results of the comparative analysis revealed distinct strengths and weaknesses for each NoSQL database system. Cassandra emerged as a top performer in terms of throughput and maintaining low latency, particularly excelling in read-heavy and balanced scenarios. Its architecture, designed for high write throughput and horizontal scalability, enables it to manage large transaction volumes with minimal performance loss. However, Cassandra's memory usage was relatively high, suggesting that while it is effective in managing CPU resources, it may require further optimization for memory-intensive applications. This makes Cassandra a suitable choice for environments where high transaction throughput is crucial, but memory optimization can be managed through configuration tuning. Couchbase, on the other hand, showed strong performance in scenarios that involved frequent data insertion, benefiting from its built-in caching mechanisms. These features allow Couchbase to achieve high-speed data ingestion and retrieval, making it effective for real-time applications that require rapid access to newly stored data. However, Couchbase exhibited variability in memory consumption across different scenarios, which indicates a need for careful management of resource allocation to maintain consistent performance. This suggests that Couchbase is particularly well-suited for environments where balanced read-write operations and quick data access are needed, though it may require additional fine-tuning for optimal resource use. MongoDB demonstrated competitive performance, especially in mixed workload environments that involved a balance of read, update, and write operations. Its document-oriented model facilitates efficient querying and indexing, making it ideal for applications with dynamic data structures and varying query patterns. MongoDB's stability in CPU and memory usage across different workloads highlights its reliability in maintaining consistent performance. However, it faced challenges with latency in specific scenarios, particularly those with very high read or write demands, suggesting that while MongoDB is versatile, it may require performance optimization under extreme conditions. HBase, while generally outperformed by the other systems in terms of throughput and latency, proved effective for specific use cases like batch processing and large-scale data analytics. Its strengths lie in handling extensive datasets with a need for consistent data storage and retrieval over time, making it suitable for analytical applications that prioritize data consistency over speed. HBase's performance in environments where high volumes of data are processed over longer periods makes it a potential choice for organizations with specialized analytical needs, despite its limitations in scenarios that require low latency and high transaction throughput. These findings underscore the importance of selecting a database system that aligns with the specific characteristics of the workload and application requirements. For applications that prioritize high write throughput and scalability, Cassandra may offer the most advantages. In contrast, MongoDB's querying capabilities make it suitable for read-heavy or dynamic data environments. Couchbase's efficiency in managing quick data ingestion and retrieval positions it as a good choice for balanced operations, while HBase is best suited for environments where batch processing and large-scale data storage are key considerations. Each database system has unique strengths that can be leveraged based on the specific needs of an organization. The study also highlights the potential for optimizing infrastructure costs by understanding the resource consumption patterns of each database system. Databases with efficient CPU and memory usage, such as Cassandra, can reduce operational expenses while maintaining high performance levels. Fine-tuning configurations and indexing strategies based on the workload can further enhance performance, ensuring that the database infrastructure is optimized for the demands of the application. For organizations looking to maximize their investment in NoSQL technologies, such adjustments can provide significant long-term benefits in terms of both performance and cost efficiency. Future research could expand this study by testing these databases with larger datasets and exploring the effects of hardware variations on performance outcomes. Including newer versions of these databases, as well as traditional RDBMS for comparison, could provide a more comprehensive view of the trade-offs between different database models. Such research would contribute to a deeper understanding of how NoSQL databases evolve over time and how they can be best applied in varying operational contexts. This study serves as a foundation for making informed decisions about database selection, helping organizations align their data management strategies with the specific performance requirements of their applications. The detailed analysis of Cassandra, MongoDB, Couchbase, and HBase provides practical guidance for organizations in choosing the right NoSQL database system. By understanding the specific capabilities of each database, organizations can make more strategic decisions about their infrastructure, ensuring that their database solutions are optimized for the unique demands of their data-driven applications. This approach not only improves the performance of current systems but also allows organizations to adapt to future data growth and technological advancements.
Benzer Tezler
- A comparison of NoSQL database systems: A study on MongoDB, apache HBase, and apache Cassandra
NoSQL veritabanı sistemlerinin karşılaştırılması: MongoDB, apache HBase, and apache Cassandra üzerine bir çalışma
ALI HUSSEIN HAMMOOD HAMMOOD
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAN
- YCSB platformu ile yeni nesil bulut veri depolama sistemlerinin karşılaştırılması
Comparison of new generation cloud data storage systems withYCSB framework
BURAK CEM KARA
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİskenderun Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAŞAR DAŞDEMİR
- A comprehensive comparison of NOSQL and relational database management systems
NOSQL ve ilişkisel veritabanı yönetim sistemlerinin kapsamlı karşılaştırılması
IHSAN AHMED TAHA
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiMatematik Bilgisayar Ana Bilim Dalı
YRD. DOÇ. DR. MURAT SARAN
- En çok kullanılan İlişkisel ve NoSQL veritabanı yönetim sistemlerinin performans karşılaştırması
Performance comparison of most used Relational and NoSQL database management systems
BERNA DUMANLI
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALTAN MESUT
- Exploring the possibilities of geospatial big data manipulation using NoSQL
NoSQL kullanarak mekansal büyük veri işleme olanaklarının araştırılması
EZGİ ERGİN
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
DOÇ. DR. AHMET ÖZGÜR DOĞRU