Scientific computing is moving toward an era in which increasingly powerful computing resources and memory requirements need to be fulfilled to run meaningful cosmological simulations and catch up with observational data analysis. Exascale, i.e. the capability to perform 1018 floating-point operations per second, has recently been reached by two machines in the Top500 list. At the same time, improvements in hardware's compute capability need to catch up with sustainability. Indeed, new machines consume tens of megawatts, and obviously they will soon become unsustainable. The topic of this Thesis has been to conceive and develop new algorithms to reduce codes' energy-tosolution. As a scientific case we considered a code for the analysis of interferometric radio imaging data, suited to perform the processing of data from ongoing and upcoming surveys like LOFAR and SKA. Codes that have been commonly used so far in this context, used to have what in High Performance Computing is called a communication bottleneck, i.e. parallel workers which spend much more time in data exchange than in actual computation. To overcome this bottleneck, we implemented a custom communication protocol which turned out to be up to 7 times more energy saving and up to 6 times faster than standard communication protocols. This difference between energy and runtime gains signals that energy is not just an integral over time, i.e. there is a specific algorithmic imprint in different implementations which leads to cheaper CPU instructions. Besides defining innovative algorithmic solution, modern HPC codes must also keep the pace with the everevolving hardware solution. For this reason, we modified the entire code to massively parallel GPU platforms, keeping also an eye on portability and performance portability. Indeed, we managed to run our code successfully on the "Booster" partition of the LEONARDO@CINECA supercomputer, ranked as 7th in June 2024 Top500 list and available at CINECA, whose computing nodes are NVIDIA-based, and on the Setonix supercomputer, ranked as 28th and available in Perth (WA, Australia), which is AMD-based. The full GPU code implementation is the first one in which GPU-GPU direct communication has been implemented and Fast Fourier Transform has been implemented too in GPU-GPU distributed fashion. The full GPU version can reach a speedup factor of 150 in its best case compared to the best CPU case, when large images and dataset are involved. In terms of energy to solution, we had the possibility to test the code by tuning CPU frequency. Quite interestingly, we found that by lowering this frequency, one can save 30 % energy while spending just 8 % more in runtime. When the energy consumption is ≈megawatts, an energy saving of 30 % for pure CPU configurations will impact a lot. At the same time, when GPUs are available, their usage will be unavoidable thanks to their impact on both energy-to-solution and time-to-solution
L'informatica scientifica si sta avviando verso un'era in cui è necessario soddisfare risorse di calcolo e requisiti di memoria sempre più potenti per eseguire simulazioni cosmologiche significative e mettersi al passo con l'analisi dei dati osservativi. Exascale, ovvero la capacità di eseguire 10^18 operazioni in virgola mobile al secondo, è stata recentemente raggiunta da due macchine nella lista Top500. Allo stesso tempo, i miglioramenti nella capacità di calcolo dell'hardware devono recuperare il ritardo rispetto alla sostenibilità. Infatti, le nuove macchine consumano decine di megawatt e ovviamente diventeranno presto insostenibili. Il tema di questa tesi è stato quello di concepire e sviluppare nuovi algoritmi per ridurre l'energia di risoluzione dei codici. Come caso scientifico abbiamo considerato un codice per l'analisi di dati di radioimmagini interferometriche, adatto a eseguire l'elaborazione di dati provenienti da indagini in corso e future come LOFAR e SKA. I codici comunemente utilizzati finora in questo contesto presentavano quello che nel calcolo ad alte prestazioni viene chiamato collo di bottiglia della comunicazione, ossia lavoratori paralleli che passano molto più tempo nello scambio di dati che nel calcolo vero e proprio. Per superare questo collo di bottiglia, abbiamo implementato un protocollo di comunicazione personalizzato che si è rivelato fino a 7 volte più economico e fino a 6 volte più veloce dei protocolli di comunicazione standard. Questa differenza tra i guadagni in termini di energia e di tempo di esecuzione indica che l'energia non è solo un integrale nel tempo, ma che esiste un'impronta algoritmica specifica nelle diverse implementazioni che porta a istruzioni della CPU più economiche. Oltre a definire soluzioni algoritmiche innovative, i moderni codici HPC devono anche tenere il passo con le soluzioni hardware in continua evoluzione. soluzioni hardware. Per questo motivo, abbiamo modificato l'intero codice per le piattaforme GPU massicciamente parallele, tenendo conto anche della portabilità e delle prestazioni. parallelo di massa, tenendo d'occhio anche la portabilità e le prestazioni. Infatti, siamo riusciti a eseguire il nostro codice sulla partizione “Booster” del supercomputer LEONARDO@CINECA, classificatosi al 7° posto nella classifica Top500 di giugno 2024 e disponibile per la prima volta in Italia. Top500 di giugno 2024 e disponibile presso il CINECA, i cui nodi di calcolo sono basati su NVIDIA, e sul supercomputer Setonix, classificato al 28° posto e disponibile a Perth (WA, Australia), che è basato su AMD. L'implementazione del codice completo per GPU è la prima in cui è stata implementata la comunicazione diretta GPU-GPU. e la trasformata veloce di Fourier è stata implementata anche in modo distribuito tra GPU e GPU. La versione completa su GPU può raggiungere un fattore di accelerazione di 150 nel suo caso migliore rispetto al caso migliore della CPU, quando immagini e dataset di grandi dimensioni. In termini di rapporto energia-soluzione, abbiamo avuto la possibilità di testare il codice regolando la frequenza della CPU. È interessante notare che, abbassando la frequenza, si può risparmiare il 30% di energia spendendo solo l'8% in più nel tempo di esecuzione. In termini di energia per la soluzione, abbiamo avuto la possibilità di testare il codice regolando la frequenza della CPU. È interessante notare che, abbassando questa frequenza, si può risparmiare il 30% di energia spendendo solo l'8% in più di tempo di funzionamento. Quando il consumo energetico è di ≈megawatt, un risparmio energetico del 30% per le configurazioni con CPU pura ha un impatto notevole. Allo stesso tempo, quando le GPU sono disponibili, il loro utilizzo sarà inevitabile grazie al loro impatto sia sull'energy-to-solution che sul time-to-solution.
HPC sostenibile e analisi Big-Data con applicazioni in Cosmologia Numerica / Lacopo, Giovanni. - (2025 Mar 20).
HPC sostenibile e analisi Big-Data con applicazioni in Cosmologia Numerica
LACOPO, GIOVANNI
2025-03-20
Abstract
Scientific computing is moving toward an era in which increasingly powerful computing resources and memory requirements need to be fulfilled to run meaningful cosmological simulations and catch up with observational data analysis. Exascale, i.e. the capability to perform 1018 floating-point operations per second, has recently been reached by two machines in the Top500 list. At the same time, improvements in hardware's compute capability need to catch up with sustainability. Indeed, new machines consume tens of megawatts, and obviously they will soon become unsustainable. The topic of this Thesis has been to conceive and develop new algorithms to reduce codes' energy-tosolution. As a scientific case we considered a code for the analysis of interferometric radio imaging data, suited to perform the processing of data from ongoing and upcoming surveys like LOFAR and SKA. Codes that have been commonly used so far in this context, used to have what in High Performance Computing is called a communication bottleneck, i.e. parallel workers which spend much more time in data exchange than in actual computation. To overcome this bottleneck, we implemented a custom communication protocol which turned out to be up to 7 times more energy saving and up to 6 times faster than standard communication protocols. This difference between energy and runtime gains signals that energy is not just an integral over time, i.e. there is a specific algorithmic imprint in different implementations which leads to cheaper CPU instructions. Besides defining innovative algorithmic solution, modern HPC codes must also keep the pace with the everevolving hardware solution. For this reason, we modified the entire code to massively parallel GPU platforms, keeping also an eye on portability and performance portability. Indeed, we managed to run our code successfully on the "Booster" partition of the LEONARDO@CINECA supercomputer, ranked as 7th in June 2024 Top500 list and available at CINECA, whose computing nodes are NVIDIA-based, and on the Setonix supercomputer, ranked as 28th and available in Perth (WA, Australia), which is AMD-based. The full GPU code implementation is the first one in which GPU-GPU direct communication has been implemented and Fast Fourier Transform has been implemented too in GPU-GPU distributed fashion. The full GPU version can reach a speedup factor of 150 in its best case compared to the best CPU case, when large images and dataset are involved. In terms of energy to solution, we had the possibility to test the code by tuning CPU frequency. Quite interestingly, we found that by lowering this frequency, one can save 30 % energy while spending just 8 % more in runtime. When the energy consumption is ≈megawatts, an energy saving of 30 % for pure CPU configurations will impact a lot. At the same time, when GPUs are available, their usage will be unavoidable thanks to their impact on both energy-to-solution and time-to-solutionFile | Dimensione | Formato | |
---|---|---|---|
PhD_Thesis (1).pdf
accesso aperto
Descrizione: Tesi di dottorato
Tipologia:
Tesi di dottorato
Dimensione
10.59 MB
Formato
Adobe PDF
|
10.59 MB | Adobe PDF | Visualizza/Apri |
PhD_Thesis (1)_1.pdf
accesso aperto
Descrizione: Tesi di dottorato
Tipologia:
Tesi di dottorato
Dimensione
10.59 MB
Formato
Adobe PDF
|
10.59 MB | Adobe PDF | Visualizza/Apri |
PhD_Thesis (1)_2.pdf
accesso aperto
Descrizione: Tesi di dottorato
Tipologia:
Tesi di dottorato
Dimensione
10.59 MB
Formato
Adobe PDF
|
10.59 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.