GPU-centric communication schemes: When CPUs take a back seat

GPU-odaklı haberleşme sistemleri: CPU'ların arka koltuğa geçtiği zamanlar

PDF İndir

Tez No: 824547
Yazar: ISMAYIL ISMAYILOV
Danışmanlar: DOÇ. DR. DİDEM UNAT ERTEN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Koç Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 84

Özet

Son yıllarda GPU'lar, modern yüksek performanslı sistemlerde önde gelen hızlandırıcı haline gelmiştir ve bu nedenle HPC hesaplama gücünün büyük bir kısmı GPU kümelemelerine odaklanmıştır. Çoklu GPU hızlandırma kullanımı, birçok HPC ve Makine Öğrenmesi uygulamasına büyük hesaplama avantajları getirmiştir. Ancak GPU'lar arasında, hem düğümler içinde hem de aralarında iletişim kurma ihtiyacı, uygulama ölçeklendirmesini engelleyen bir darboğaz haline gelebilir. Bunun önemli bir nedeni, geleneksel olarak iletişimin ana bilgisayar üzerinden yönetilmesidir. Tipik bir çoklu GPU uygulamasında ana bilgisayar, çekirdekleri başlatarak, iletişim çağrıları yaparak ve cihazlar için bir senkronizasyon sağlayarak yürütümü yönetir. Bu, yürütümün kritik yolunda CPU'nun dahil olması, gereksiz bir iş yükü oluşturur ve çoklu GPU iletişimi içeren uygulamalarda performansı artırmak için cihazlara tamamen devredilebilir. İlk olarak, tek düğümlü çoklu GPU uygulamaları için tamamen otonom bir yürütüm modeli sunuyoruz, bu da başlangıçta çekirdek başlatma dışında CPU'nun dahil edilmediği anlamına gelir. Önerilen CPU'suz yürütüm modelinde, mevcut teknikleri, kalıcı çekirdekler, iş parça özelleştirme, cihaz tarafından başlatılan bariyerler ve cihaz tarafından başlatılan haberleşme çağrıları gibi teknikleri kullanarak tamamen otonom çoklu GPU kodu yazmak ve iletişim üzerinde önemli ölçüde azaltılmış bir iş yükü sağlamak için kullanıyoruz. Önerilen modelimizi, geniş kullanıma sahip iki farklı türe sahip Conjugate Gradient (CG) çözücüsünün, Standart CG ve Pipelined CG'nin üzerinde gösteriyoruz. CPU tarafından kontrol edilen yöntemlerle karşılaştırıl\-dığında, CPU'suz model, 8 NVIDIA A100 GPU'sunda Standart CG ve Pipelined CG için sırasıyla 1.54x ve 1.63x hızlanma sağlar. Tezin ikinci kısmında, geleneksel çoklu GPU iletişim modellerinin eksikliklerine yanıt olarak önerilen GPU-odaklı iletişimi kapsamlı bir şekilde incelemekteyiz. Genel olarak, bu ilerlemeler, yürütümün kritik yolundaki CPU'nun dahilini azaltmakta, GPU'ya iletişimi başlatma ve senkronize etme konusunda daha fazla özerklik sağlamakta ve çoklu GPU iletişimi ile hesaplama arasındaki anlamsal uyumsuzluğu gidermektedir. Bu tezde GPU-odaklı iletişimi sınıflandırıyor, temel yöntemleri özetliyor ve faydaları ve zorlukları da içeren en önemli özellikleri üzerinde duruyoruz.

Özet (Çeviri)

In recent years, GPUs have become the leading accelerator in modern high-performance systems such that much of HPC computational capability has concentrated in clusters of GPUs. Using multi-GPU acceleration has brought great computational benefits to many HPC and ML applications. However, the need to communicate between GPUs, both within and across nodes, can quickly become a bottleneck that hinders application scaling. A significant reason for this is that traditionally communication has been mediated through the host. In a typical multi-GPU application, the host orchestrates execution by launching kernels, issuing communication calls, and acting as a synchronizer for devices. This CPU involvement in the critical path of execution causes undue overhead and can be delegated entirely to devices to improve performance in applications that involve multi-GPU communication. We first present a fully autonomous execution model for single-node multi-GPU applications that completely excludes the involvement of the CPU beyond the initial kernel launch. For the proposed CPU-free} execution model, we leverage existing techniques such as persistent kernels, thread block specialization, device-side barriers, and device-initiated communication routines to write fully autonomous multi-GPU code and achieve significantly reduced communication overheads. We demonstrate our proposed model on two variants of the broadly used Conjugate Gradient (CG) solver, Standard CG, and Pipelined CG. Compared to the CPU-controlled baselines, the CPU-free model provides a 1.54x and 1.63x speedup for Standard and Pipelined CG, respectively, on 8 NVIDIA A100 GPUs. In the second part of the thesis, we conduct an extensive survey of GPU-centric communication, communication mechanisms proposed in response to the deficiencies of traditional multi-GPU communication models. At a high level, these advancements reduce the CPU's involvement in the critical path of execution, give the GPU more autonomy in initiating and synchronizing communication and fix the semantic mismatch between multi-GPU communication and computation. We chart out the landscape of GPU-centric communication, summarize the main methods and expound on their most salient features, including associated benefits and challenges.

Benzer Tezler

Tez No
835632
Autonomous execution for multi-GPU systems: CPU-free blueprint and compiler support
Çoklu GPU sistemleri için otonom yürütme: CPU'suz tasarım ve derleyici desteği
JAVID BAYDAMIRLI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. DİDEM UNAT ERTEN
Tez No
426861
Accelerator design for graph analytics
Çizge analitiği için hızlandırıcı tasarımı
ŞERİF YEŞİL
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZCAN ÖZTÜRK
Tez No
877537
Optimizing multiple object tracking with graph neural networks on a graphcore IPU
Graphcore IPU üzerinde grafik sinir ağları ile çoklu nesne takibini optimize etme
MUSTAFA ORKUN ACAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Koç Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. DİDEM UNAT ERTEN
Tez No
958874
Building energy efficiency: A data-driven machine learning approach for energy optimization
Bina enerji verimliliği: Enerji optimizasyonu için veriye dayalı makine öğrenmesi yaklaşımı
AHMAD REZA DARABI
Yüksek Lisans
İngilizce
2025
Enerji İstanbul Teknik Üniversitesi
Enerji Bilim ve Teknoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN
Tez No
416480
GPU accelerated high-order discontinuous galerkin level set methods for incompressible multiphase flows
Çok fazlı akışlar için yüksek başarımlı yüksek seviyeli süreksiz Galerkin metodları
ALİ KARAKUŞ
Doktora
İngilizce
2015
Makine Mühendisliği Orta Doğu Teknik Üniversitesi
Makine Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALUK AKSEL
YRD. DOÇ. DR. CÜNEYT SERT

Geri Dön