Apache Spark™ accelerato da GPU

Per progetti di analisi dei dati, machine learning, deep learning

Accelera i tuoi progetti di scienza dei dati su Apache Spark™ 3 con la GPU senza modificare il codice accelera l'elaborazione dei dati e il training di modelli, abbattendo significativamente i costi di infrastruttura.

 

Vantaggi principali di Spark su GPU NVIDIA

Tempi di esecuzione più rapidi

Tempi di esecuzione più rapidi

Accelera le prestazioni delle attività di preparazione dei dati per passare velocemente alla prossima fase del progetto. Questo consente di accelerare il training dei modelli, fornendo agli esperti e ingegneri la possibilità di concentrarsi sulle attività critiche.

Semplificazione del processo dall'analisi all'IA

Semplificazione del processo dall'analisi all'IA

Spark 3.0 organizza progetti completi, dall'integrazione dei dati, al training dei modelli, fino alla visualizzazione. La stessa infrastruttura accelerata da GPU può essere utilizzata sia per Spark sia per framework di ML/DL, eliminando la necessità di cluster separati e garantendo l'accesso all'accelerazione con GPU in tutte le fasi del progetto.

Riduzione dei costi dell'infrastruttura

Riduzione dei costi dell'infrastruttura

Più risultati con meno risorse: Spark su GPU NVIDIA® completa più velocemente i processi con meno risorse hardware rispetto all'uso della CPU, consentendo alle aziende di risparmiare tempo, investimenti e costi operativi grazie al cloud.

Previsioni

Anticipazioni

Usa lo strumento di ottimizzazione intelligente del carico di lavoro per valutare e stimare i vantaggi economici per i carichi Apache Spark™ idonei per l'accelerazione con GPU. Lo strumento suggerisce i parametri della GPU ottimizzati per risparmiare e migliorare le prestazioni.

Workshop

Scopri come accelerare i carichi di lavoro Spark

Ti interessa accelerare i processi Spark con le GPU? Iscriviti a un workshop per valutare i carichi di lavoro oggi stesso.

Innovazioni Spark 3

Data la natura terribilmente parallela di molte attività di elaborazione dei dati, non sorprende che occorra l'architettura di una GPU per le query di elaborazione dati di Spark, analogamente a come una GPU accelera i carichi di lavoro di DL in ambito IA. L'accelerazione GPU è trasparente per lo sviluppatore e non richiede modifiche al codice per ottenere questi vantaggi. Tre principali miglioramenti di Spark 3 hanno contribuito a garantire la trasparenza dell'accelerazione con GPU:

Nuovo acceleratore RAPIDS per Spark 3

Nvidia Cuda® è un'architettura rivoluzionaria di computing parallelo che supporta l'accelerazione delle operazioni di calcolo su architettura GPU NVIDIA. RAPIDS, integrato in NVIDIA, è una suite di librerie open source sovrapposte a CUDA che consente l'accelerazione dei progetti di scienza dei dati grazie alla GPU.

NVIDIA ha creato l'acceleratore RAPIDS per Spark 3, che intercetta e accelera i flussi ETL migliorando significativamente e prestazioni di Spark SQL e le operazioni DataFrame.

Modifiche ai componenti Spark

Spark 3 offre il supporto per l'elaborazione in colonne nell'ottimizzatore di query Catalyst, ovvero il terminale a cui si collega l'acceleratore RAPIDS per accelerare le operazioni SQL e DataFrame. Quando viene eseguito il piano di query, gli operatori possono essere eseguiti sulle GPU all'interno del cluster Spark.

NVIDIA ha anche creato una nuova implementazione Spark casuale che ottimizza il trasferimento dei dati tra i processi. Questa implementazione casuale si basa sulle librerie di comunicazione accelerate da GPU, tra cui UCX, RDMA e NCCL.

Pianificazione con GPU in Spark

Spark 3 riconosce le GPU come risorse di prima classe insieme alla CPU e alla memoria di sistema. Ciò consente a Spark 3 di posizionare i carichi di lavoro accelerati da GPU direttamente nei server contenenti le risorse GPU necessarie per accelerare e portare a termine il processo.

Gli ingegneri NVIDIA hanno contribuito a questo importante miglioramento di Spark, consentendo l'avvio delle applicazioni Spark sulle risorse della GPU nel sistema Spark autonomo, YARN e nei cluster Kubernetes.

deep-learning-apache-spark-3-innovations-refactored

Analisi accelerata e IA su Spark

Spark 3 segna un traguardo importante per l'analisi e l'IA, poiché le operazioni ETL sono ora accelerate mentre le applicazioni di ML e DL sfruttano la stessa infrastruttura GPU. Lo stack completo per questo flusso di scienza dei dati accelerato è mostrato sotto:

Analisi accelerata e IA su Spark

Introduzione a Spark accelerato da GPU

Scarica l'acceleratore RAPIDS per Spark 3 per accelerare con GPU le tue pipeline di scienza dei dati Apache Spark™. I clienti possono anche contattare il team Nvidia Spark in GitHub qui.

IRS

L'integrazione tra Cloudera e NVIDIA ci consentirà di utilizzare informazioni dettagliate basate sui dati per alimentare casi d'uso mission-critical... stiamo attualmente implementando questa integrazione e già vediamo miglioramenti nella velocità di oltre 10 volte alla metà del costo per i nostri flussi di lavoro di data engineering e data science.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Stiamo registrando un aumento significativo delle prestazioni con Spark 3 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per migliorare le funzionalità basate su IA nella suite completa di applicazioni Adobe Experience Cloud.

- William Yan, Direttore senior del machine learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark™ 3 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

— Matei Zaharia, autore di contenuti originali Apache Spark™ e direttore della tecnologia di Databricks

IRS

L'integrazione tra Cloudera e NVIDIA ci consentirà di utilizzare informazioni dettagliate basate sui dati per alimentare casi d'uso mission-critical... stiamo attualmente implementando questa integrazione e già vediamo miglioramenti nella velocità di oltre 10 volte alla metà del costo per i nostri flussi di lavoro di data engineering e data science.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Stiamo registrando un aumento significativo delle prestazioni con Spark 3 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per migliorare le funzionalità basate su IA nella suite completa di applicazioni Adobe Experience Cloud.

- William Yan, Direttore senior del machine learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark™ 3 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

— Matei Zaharia, autore di contenuti originali Apache Spark™ e direttore della tecnologia di Databricks

IRS

L'integrazione tra Cloudera e NVIDIA ci consentirà di utilizzare informazioni dettagliate basate sui dati per alimentare casi d'uso mission-critical... stiamo attualmente implementando questa integrazione e già vediamo miglioramenti nella velocità di oltre 10 volte alla metà del costo per i nostri flussi di lavoro di data engineering e data science.

– Joe Ansaldi, IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief

Adobe

Stiamo registrando un aumento significativo delle prestazioni con Spark 3 accelerato da NVIDIA rispetto all'esecuzione di Spark sulle CPU. Con questi vantaggi straordinari in termini di prestazioni della GPU, è possibile cogliere tutta una serie di nuove opportunità per migliorare le funzionalità basate su IA nella suite completa di applicazioni Adobe Experience Cloud.

- William Yan, Direttore senior del machine learning, Adobe

databricks

Il nostro lavoro costante con NVIDIA migliora le prestazioni con le ottimizzazioni RAPIDS per Apache Spark™ 3 e Databricks a vantaggio dei clienti comuni come Adobe. Questi contributi accelerano i flussi di dati, il training dei modelli e le valutazioni, il che si traduce direttamente in più innovazioni e informazioni per la nostra community di ingegneri ed esperti di dati.

— Matei Zaharia, autore di contenuti originali Apache Spark™ e direttore della tecnologia di Databricks

Scarica il nostro e-book gratuito

Vuoi sfruttare tutto il valore dei Big Data con la potenza dell'IA? Scarica il nuovo e-book, "Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI", per saperne di più sulla nuova evoluzione di Apache Spark™.