GPU-centric communication schemes: When CPUs take a back seat
GPU-odaklı haberleşme sistemleri: CPU'ların arka koltuğa geçtiği zamanlar
- Tez No: 824547
- Danışmanlar: DOÇ. DR. DİDEM UNAT ERTEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Son yıllarda GPU'lar, modern yüksek performanslı sistemlerde önde gelen hızlandırıcı haline gelmiştir ve bu nedenle HPC hesaplama gücünün büyük bir kısmı GPU kümelemelerine odaklanmıştır. Çoklu GPU hızlandırma kullanımı, birçok HPC ve Makine Öğrenmesi uygulamasına büyük hesaplama avantajları getirmiştir. Ancak GPU'lar arasında, hem düğümler içinde hem de aralarında iletişim kurma ihtiyacı, uygulama ölçeklendirmesini engelleyen bir darboğaz haline gelebilir. Bunun önemli bir nedeni, geleneksel olarak iletişimin ana bilgisayar üzerinden yönetilmesidir. Tipik bir çoklu GPU uygulamasında ana bilgisayar, çekirdekleri başlatarak, iletişim çağrıları yaparak ve cihazlar için bir senkronizasyon sağlayarak yürütümü yönetir. Bu, yürütümün kritik yolunda CPU'nun dahil olması, gereksiz bir iş yükü oluşturur ve çoklu GPU iletişimi içeren uygulamalarda performansı artırmak için cihazlara tamamen devredilebilir. İlk olarak, tek düğümlü çoklu GPU uygulamaları için tamamen otonom bir yürütüm modeli sunuyoruz, bu da başlangıçta çekirdek başlatma dışında CPU'nun dahil edilmediği anlamına gelir. Önerilen CPU'suz yürütüm modelinde, mevcut teknikleri, kalıcı çekirdekler, iş parça özelleştirme, cihaz tarafından başlatılan bariyerler ve cihaz tarafından başlatılan haberleşme çağrıları gibi teknikleri kullanarak tamamen otonom çoklu GPU kodu yazmak ve iletişim üzerinde önemli ölçüde azaltılmış bir iş yükü sağlamak için kullanıyoruz. Önerilen modelimizi, geniş kullanıma sahip iki farklı türe sahip Conjugate Gradient (CG) çözücüsünün, Standart CG ve Pipelined CG'nin üzerinde gösteriyoruz. CPU tarafından kontrol edilen yöntemlerle karşılaştırıl\-dığında, CPU'suz model, 8 NVIDIA A100 GPU'sunda Standart CG ve Pipelined CG için sırasıyla 1.54x ve 1.63x hızlanma sağlar. Tezin ikinci kısmında, geleneksel çoklu GPU iletişim modellerinin eksikliklerine yanıt olarak önerilen GPU-odaklı iletişimi kapsamlı bir şekilde incelemekteyiz. Genel olarak, bu ilerlemeler, yürütümün kritik yolundaki CPU'nun dahilini azaltmakta, GPU'ya iletişimi başlatma ve senkronize etme konusunda daha fazla özerklik sağlamakta ve çoklu GPU iletişimi ile hesaplama arasındaki anlamsal uyumsuzluğu gidermektedir. Bu tezde GPU-odaklı iletişimi sınıflandırıyor, temel yöntemleri özetliyor ve faydaları ve zorlukları da içeren en önemli özellikleri üzerinde duruyoruz.
Özet (Çeviri)
In recent years, GPUs have become the leading accelerator in modern high-performance systems such that much of HPC computational capability has concentrated in clusters of GPUs. Using multi-GPU acceleration has brought great computational benefits to many HPC and ML applications. However, the need to communicate between GPUs, both within and across nodes, can quickly become a bottleneck that hinders application scaling. A significant reason for this is that traditionally communication has been mediated through the host. In a typical multi-GPU application, the host orchestrates execution by launching kernels, issuing communication calls, and acting as a synchronizer for devices. This CPU involvement in the critical path of execution causes undue overhead and can be delegated entirely to devices to improve performance in applications that involve multi-GPU communication. We first present a fully autonomous execution model for single-node multi-GPU applications that completely excludes the involvement of the CPU beyond the initial kernel launch. For the proposed CPU-free} execution model, we leverage existing techniques such as persistent kernels, thread block specialization, device-side barriers, and device-initiated communication routines to write fully autonomous multi-GPU code and achieve significantly reduced communication overheads. We demonstrate our proposed model on two variants of the broadly used Conjugate Gradient (CG) solver, Standard CG, and Pipelined CG. Compared to the CPU-controlled baselines, the CPU-free model provides a 1.54x and 1.63x speedup for Standard and Pipelined CG, respectively, on 8 NVIDIA A100 GPUs. In the second part of the thesis, we conduct an extensive survey of GPU-centric communication, communication mechanisms proposed in response to the deficiencies of traditional multi-GPU communication models. At a high level, these advancements reduce the CPU's involvement in the critical path of execution, give the GPU more autonomy in initiating and synchronizing communication and fix the semantic mismatch between multi-GPU communication and computation. We chart out the landscape of GPU-centric communication, summarize the main methods and expound on their most salient features, including associated benefits and challenges.
Benzer Tezler
- Autonomous execution for multi-GPU systems: CPU-free blueprint and compiler support
Çoklu GPU sistemleri için otonom yürütme: CPU'suz tasarım ve derleyici desteği
JAVID BAYDAMIRLI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. DİDEM UNAT ERTEN
- Accelerator design for graph analytics
Çizge analitiği için hızlandırıcı tasarımı
ŞERİF YEŞİL
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÖZCAN ÖZTÜRK
- Optimizing multiple object tracking with graph neural networks on a graphcore IPU
Graphcore IPU üzerinde grafik sinir ağları ile çoklu nesne takibini optimize etme
MUSTAFA ORKUN ACAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. DİDEM UNAT ERTEN
- Exploring mixed and multi-precision SpMV for GPUs
GPU'lar için CSR tabanlı karışık ve çoklu-hassasiyetli SpMV
ERHAN TEZCAN
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DİDEM UNAT ERTEN
- GPU programlama ile yüksek performanslı görüntü işleme uygulamaları
High performance image processing application with GPU programming
YASEMİN POYRAZ KOÇAK
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELÇUK SEVGEN