Development of a smart connected application for performance tuning on HPC
Yüksek performanslı bilgisayarların kullanımındaperformans ayarlaması için akıllı bağlantılı uygulama geliştirmesi
- Tez No: 582660
- Danışmanlar: DOÇ. DR. BURCU TUNGA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Kimya Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Matematik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 97
Özet
Veri bilimi, karmaşık problemleri analitik olarak anlamak ve çözümlemek için istatistik, matematik ve bilgisayar bilimlerini bir arada kullanan çok disiplinli bir alandır. Veri biliminden tamamen bağımsız olduğunu söyleyemesek de, yüksek performanslı bilgi işlem de karmaşık sistemlerin hesaplanması, modellenmesi ve simülasyonu ve büyük miktarlarda ölçülen verilerin işlenmesi için kullanılan bir araç olarak günümüzde hızla önem kazanmaktadır. Bilimsel yüksek performanslı bilgi işlem kısaca performans geliştirmek için kullanılır. Amaç, mümkün olan en iyi kaynak ve destekle yüksek performanslı bilgi işlem gerektiren araştırma projeleri sağlamaktır. Burada vurgulanan araştırma, yüksek performanslı bilgisayarların kullanımı ve simülasyon sonuçlarından iç görü elde etmek ve performans ölçümlerini kolaylaştırmak için yapılmaktadır. Bu yüksek lisans tezinde, Lichtenberg yüksek performanslı bilgisayarlar kümesinde bulunan yüksek performanslı bilgisayarların tahsis ve kullanım yönetimini iyileştirmek amacıyla yapılan uygulama geliştirme projesi sunulmaktadır. Lichtenberg HPC kümesindeki bilgisayarları projelerinde kullanmak üzere alan ve kaynak talebinte bulunan kulanıcılar, araştırmacılar, öğrenciler veya firmalar olabilir. Proje sahipleri, projelerinin onaylanmasıyla birlikte, projeleri için çalıştıracakları programların HPC bilgisayarlarından hangisi veya hangileri tahsis edildi ise onlarda çalıştırılması için ne kadar kaynak talep ettiklerini, iş talebi (job request) adı altında, projenin yürütülmesi için kaynaklardan sağlanacak olan gereksinimleri belirterek programlarını calıştırmaya başlarlar. Projelerin başlangıcından bitişine kadar geçen süreçte her bir proje ve bu projeleri oluşturuan alt programların çalıştırılması için ne kadar yüksek performanslı bilgisayar, CPU ve hafıza tahsis edildiği bilgisi sistemde bulunmaktadır. Bu bilgiler kullanıcının projeyi yürütmek için sistemden talep ettiği kaynak verileri olup, bu verilere ek olarak sistemde projelerin kullandığı kaynak bilgisi de xxii bulunmaktadır. Bu kümenin tahsis yönetiminde, öncelikle haftalik olarak projelerin harcadiklari hafıza, bilgisayar sayısı gibi kaynak ölçümü yapılır ve analiz edilir. Bu yönetim için verilerle gerekli hesaplamaların yapılması, en çok kaynak kullanan projelerin belirlenmesi ve analizler sonucunda bu projelerin sahipleri ile iletişime geçilmesi şeklinde ilerleyen bir süreç yürütülmektedir. Bu süreç sayesinde projelerde iyileştirmeye gidilmesi için yukarıda belirtilen işlemleri, kullanıcıya destek verilmesi ve/veya proje kaynaklarının yönetilmesi gibi adımlar takip eder. Ancak bu yüksek lisans tezi kapsamında, sürecin en başında veri tabanı düzeyinde gerçekleştirilen hesaplamalar, hespalamaların sonucunda oluşturulan histogramlar, raporlar ve istatistiklerin programatik yönetim sürecinin iyileştirilmesi ele alınmıştır. Bu değerlendirme sürecinin en kolay ve pratik şekilde yapılması için sistemin önceden sahip olduğu dosya yapısının derlenmesi, programların otomatize edilmesi ve tüm işlemlerin uygulama düzeyinden veri tabanı düzeyine indirgenmesi, bununla beraber zamandan ve enerjiden kâr edilmesi gerekmektedir. Bu uygulamanın, kullanıcılar adına zamandan ve enerjiden kâr etmek, HPC kümesinin kullanımı adına ise kaynak yonetimini yapmak amacıyla geliştirilmesi ve geliştirmenin tamamlanması ile yapılan pratik ve teorik karşılaştırmalarda uygulamadan beklenen verimin alınması hedeflenmiştir. Lichtenberg yüksek performanslı bilgisayar kümelerinde yapılan bu çalışmanın tamamı, bu yüksek lisans tezine konu olmaktadır. Bu yüksek lisans tez çalışmasına başlanmasının sebebi, sistemdeki eski yapının yeterli düzeyde otomatize olmaması, eski uygulamada yapılan işlemlerin, uygulamanın hedeflenen ve başarıyla uygulanan yeni yapınn tamamının kapsadığı işlemleri, kullanıcı gücüyle birden cok kez farklı parametrelerle çalıştırılması ile yapılması, uygulamanın başlamasından bitmesine kadar geçen sürenin çok uzun olması ve bunun kullanıcı için olumsuz bir etken olması, bu bağlamda kullanıcıya pahalıya mâl olmasıdır. Bu aşamada işlemleri C++ kod tabanından çıkarıp, veritabanı seviyesinde tamamlamak üzere SQL yapısına entegre etmek ve uygulama aşamasında yalnızca SQL yardımı ile işlenmiş ve üretilmiş olan verileri veritabanından alarak, programın çalışma süresinde onların yalnızca sunumu ve raporlanması ile zamandan, enerjiden ve donanımsal kaynaktan kazanarak kullanıcıya kolaylık sağlamak olmuştur. Bu bağlamda, veri tabanında çalışma bilgileri bulunan tüm programların çalıştırılma detayları ile gerekli hesaplamaların yapılması, veri dönüşümlerinin gerçekleşmesi ve böylece analizlerin kullanıcının anlamlandırabilmesi için uygun, mantıklı ve kullanışlı xxiii hale getirilmesi gerekmiştir. Analizlerin yapılması ile birlikte bazı hesaplamalı işlemler sonucunda yeni veriler üretilmiş ve bu üretilen verilerin de yönetilmesi ve yorumlanması gerekmiştir. Üretilen verilerde kaynakların nasıl değerlendirileceği çalışma süresince kararlaştırılmıştır. Bu açıdan sisteme en çok maliyet oluşturan projelerin sıralanması ve derecelendirilmesi sonucunda en çok kaynak kullanan ve verimli kullanim açısından kendisine tahsis edilen kaynağı en kullanışsız şekilde kullandığı belirlenen projeler, bu projelere ait alt görevler ve asıl hedef olan kullanıcılar belirlenmektedir. Kullanıcıların belirlenmesi ile bu kullanıcıların çalıştırdığı diğer projeler ve alt görevleri de belirlenir. Ayrıca bu kullanıcıların diğer projelerinin yanı sıra, bu projelerde görev alan, bu kullanıcılar dışındaki diğer yan kullanıcılar da belirlenir. Bu sureci programatik olarak, analizinin yapılması istenen periyotlarla programın çalıştırılması oluşturur. Bu islemlerin en başında sistemdeki verilen işlenmesi ile veri madenciliği yapılmaktadır ve bu işlemlerin tamamı veri tabanında gerçekleşir. Veri tabanında üretilen sonuçların kullanıcıya sunulması, histogramlar ve raporlar yardımıyla yapılır. Bu sonuçların değerlendirilmesi süreci sistem sahibi tarafından sistem dışında manuel olarak ilerlemektedir. Sistemde yapılan veri analizi sonucunda belirlenen kullanıcıların nasıl ve neye göre tespit edildiği, yapılan analizlerin hangi etkenler ve standartlar baz alınarak yapıldığı, karar aşamaları ve alınan bağlantılı aksiyonların tamamı; yaklaşımlar ve beklentiler bazında bu tez çalışmasında sunulmuştur. Bu uygulamanın geliştirilmesi ile, periyodik olarak yapılan analizler için harcanan süre ve programın çalıştırılması için harcanan kaynak gözle görülür bir şekilde azalmış olup, HPC yönetim sürecinde ise performans ve kaynak tahsis düzenlemesi adına tüm işlemsel adımları tek seferde tamamlayarak kullanıcıya büyük oranda kolaylık sağlamıştır. Bu tez çalışması, tercih edilen sistem kullanım analiz yaklaşımı, performans yönetiminde hangi mevcut yazılımsal fonksiyonlardan ve donanımsal kaynaklardan yararlanılacağını, iyileştirmedeki beklenti aralığını, HPC kümelerinin tahsisinde alınan yanlış kararların tespitini, performans ve hafıza kullanım sorunlarının değerlendirilmesini, veri analizi süreçlerini, uygulamanın sisteme entegre edilmesini ve yapılan çalışmalar sonucu sistemde yer alan yeni uygulamanın eski yapıya göre ne kadar daha kârlı olduğunu gösteren genel aşamalar barındırmaktadır.
Özet (Çeviri)
Data science is a multidisciplinary field that uses statistics, mathematics and computer science to analytically understand and solve complex problems. Although we cannot say that it is completely independent of data science, high-performance computing (HPC) is rapidly gaining importance as a tool for calculating, modeling and simulating complex systems and processing large amounts of measured data. Briefly, scientific high-performance computing is used to improve performance. The aim is to provide research projects that require high performance computing with the best possible resources and support. The research highlighted here is done to get insight from the use of high-performance computers and simulation results and to facilitate performance measurements. At this stage, the main task that should be fulfilled for the techniques to determine the dual program similarity after the study is to make the necessary analysis in the computer cluster we work in first. In order to fulfill this condition, it is necessary to make the data-level operations related to the execution details of all programs with runtime information in the database, to make the data transformations and thus to make the analyzes meaningful, logical and useful to the end user. With the analysis done, the projects that use the most resources as the result of the ranking, the sub-tasks of these projects and the users with their executives are determined. By identifying users, other projects and sub-tasks of these users are also determined. In addition to other projects of these users, other users who are working on the same project with these users are also determined. This determination process is being done in the database with data analysis studies. The study for the determination and analysis process and the results of the analysis and the results of this analysis is the content of this master thesis. xx In this thesis, how and what the users were determined, what factors were done based on the analysis, decision stages and related actions are presented. With this research, it is inevitable to have a clear suggestion on how to improve performance by presenting the results obtained to the relevant people. In this thesis, which is studied in Lichtenberg Cluster specially, the structural development of the application, which is a smart connection to the database of the projects, is mentioned with its infrastructural features. This structural development is accomplished in order to reach the users in Lichtenberg HPC cluster, who are identified by analyzing their project data according to the conditions of data and system usage determined earlier, take into account the other components mentioned above from the user list obtained with real reasons for maintenance and support the improvement of the projects. From this point of view, this thesis includes basic and general stages such as determining performance and memory usage problems in HPC field, performing data analysis, problem identification, tool development and offering solution suggestions
Benzer Tezler
- Düşük maliyetli ve kaynakları verimli kullanabilen sürekli öğrenebilen akıllı cihaz çekirdeği
Low-cost and resource-aware intelligent device: A core of thing
ONUR AKDEMİR
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. DENİZ TURGAY ALTILAR
- Akıllı şebekelerde makine öğrenmesi teknikleriyle kısa dönem rüzgâr hızı tahmini: Kocaeli-Türkiye örneği
Short–term wind speed forecasting in smart grids with machine learning techniques: A case study in Kocaeli-Türkiye
MAYSA GAIDOUM AHMED GAIDOUM
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiSakarya ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. YILMAZ UYAROĞLU
- Random forest yöntemi kullanarak polimer elektrolit membran (PEM) yakıt hücrelerinin ömrünün belirlenmesi
Determining life span in polymer electrolyte membrane (PEM) fuel cell using random forest method
HAVVA NUR SAĞDIÇ
Yüksek Lisans
Türkçe
2024
Kimya Mühendisliğiİstanbul Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. HANZADE AÇMA
PROF. DR. SERDAR YAMAN
DOÇ. DR. HALİT EREN FİGEN
- Elektrokimyasal yöntemle borlanan DIN 1.3343 yüksek hız çeliğinin tribolojisi
Tribology of DIN 1.3343 high speed steel boronized by electrochemical method
FATİH SANLI
Yüksek Lisans
Türkçe
2023
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CANAN GAMZE GÜLERYÜZ PARASIZ
- İletişim kurmada insan bedeninin işlevi: Pina Bausch üzerinden inceleme
The function of the human body in communication: An analysis on Pina Bausch
YELIZ PIRANA
Yüksek Lisans
Türkçe
2022
Radyo-Televizyonİstanbul Aydın ÜniversitesiTelevizyon ve Sinema Ana Bilim Dalı
PROF. SEFA ÇELİKSAP