Ciencia de Datos de Alto Rendimiento

Aproveche la potencia de las GPU para acelerar fácilmente sus workflows de ciencia de datos, machine learning e inteligencia artificial.

Ejecuta workflows completos de ciencia de datos dentro de la computación de GPU de alta velocidad y paraleliza la carga de datos, la manipulación de datos y el machine learning para obtener procesos integrales de ciencia de datos 50 veces más rápidos.

¿Por qué RAPIDS?

La ciencia de los datos y el machine learning constituyen el mayor segmento de la informática en el mundo. Las modestas mejoras en la precisión de los modelos de análisis se traducen en miles de millones en los resultados. Para construir los mejores modelos, los científicos de datos se esfuerzan por entrenar, evaluar, iterar y volver a entrenar para obtener resultados altamente precisos y modelos de alto rendimiento. Con RAPIDS^TM, los procesos que llevaban días se convierten en minutos, lo que facilita y agiliza la creación e implantación de modelos que generen valor. Con NVIDIA LaunchPad puedes ponerte manos a la obra con los laboratorios RAPIDS, y con NVIDIA AI Enterprise podemos apoyar a tu empresa en todos los aspectos de tus proyectos de IA.

Los workflows tienen muchas iteraciones de transformación de datos sin procesar en datos de entrenamiento, que se alimentan en muchas combinaciones de algoritmos, que se someten a ajustes de hiperparámetros para encontrar las combinaciones correctas de modelos, parámetros de modelo y características de datos para una precisión y rendimiento óptimos.

Construyendo un Ecosistema de Alto Rendimiento

RAPIDS es un conjunto de API y bibliotecas de software de código abierto para ejecutar procesos de ciencia de datos completamente en la GPU. Esto permite reducir los tiempos de entrenamiento de días a minutos. RAPIDS se basa en NVIDIA^® CUDA-X AI^™ y une años de desarrollo en gráficos, machine learning, deep learning, computación de alto rendimiento (HPC) y más.

Tiempo de Ejecución Más Rápido

Con la ciencia de los datos, más computación le permite obtener información más rápidamente. RAPIDS aprovecha la tecnología NVIDIA CUDA® para acelerar sus workflows ejecutando todo el pipeline de entrenamiento de la ciencia de datos en las GPU. Esto puede reducir el tiempo de entrenamiento del modelo de días a minutos.

Utiliza las Mismas Herramientas

RAPIDS simplifica la ciencia de datos, ya que oculta las complejidades de trabajar con la GPU e incluso los protocolos de comunicación entre bastidores dentro de la arquitectura del data center. A medida que más científicos de datos utilizan Python y otros lenguajes de alto nivel, es esencial proporcionar aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Se Ejecuta en Cualquier Lugar a Escala

RAPIDS se puede ejecutar en cualquier lugar, en cloud o en las instalaciones. Puedes escalarlo fácilmente desde una workstation a servidores de múltiples GPU y clústeres de múltiples nodos. También puedes implementarlo en la etapa de producción con Dask, Spark, MLFlow y Kubernetes.

Ciencia de Datos Lista para Empresas

El acceso a un soporte fiable suele ser vital para las organizaciones que utilizan la ciencia de datos para obtener informaciónes importantes. El soporte global de NVIDIA Enterprise está disponible con NVIDIA AI Enterprise, una suite de software de IA integral, e incluye tiempos de respuesta garantizados, notificaciones de seguridad prioritarias, actualizaciones periódicas y acceso a los expertos en IA de NVIDIA.

Rendimiento Ultrarrápido en Big Data

Los resultados muestran que las GPU brindan un gran ahorro de tiempo y costos para problemas de análisis de Big Data a pequeña y gran escala. Al utilizar API conocidas como Pandas y Dask, a una escala de 10 terabytes, RAPIDS funciona hasta 20 veces más rápido en GPU que la CPU. Con solo 16 NVIDIA DGX A100 para lograr el rendimiento de 350 servidores basados en CPU, la solución de NVIDIA es 7 veces más rentable y ofrece un rendimiento de nivel HPC.

Leer Publicación ›

Acceso Más Rápido a los Datos, Menor Movimiento de Datos

Las tareas comunes de procesamiento de datos tienen muchos pasos (procesos de datos), que Hadoop no puede manejar de manera eficiente. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitió procesos de datos más flexibles y complejos, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, incluso días, en los clústeres Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU deben estar en el centro del diseño del data center, que consta de estos cinco elementos: computación, redes, almacenamiento, implementación y software. En términos generales, los workflows integrales de ciencia de datos en las GPU son 10 veces más rápidos que en las CPU.

Leer el Blog ›

Data Processing Evolution

RAPIDS en Todas Partes

RAPIDS proporciona la base de un nuevo ecosistema de ciencia de datos de alto rendimiento y reduce la barrera de entrada para nuevas bibliotecas a través de la interoperabilidad. La integración con los principales frameworks de ciencia de datos (como Apache Spark, cuPY, Dask y Numba), así como numerosos frameworks de deep learning (como PyTorch, TensorFlow y Apache MxNet), ayuda a ampliar la adopción y fomenta la integración con otros frameworks. Puede encontrar RAPIDS y los frameworks correlativos en el catálogo de NGC.

Proyectos Destacados
Colaboradores
Adoptadores
Open Source

dask-sql es un motor SQL distribuido en Python, que realiza ETL a escala con RAPIDS para la aceleración en la GPU.

NVTabular se basa en RAPIDS y acelera la ingeniería de funciones y el preprocesamiento para sistemas de recomendación en GPU.

cuStreamz se basa en Streamz, está escrito en Python y se desarrolló en RAPIDS. Permite acelerar el procesamiento de transmisión de datos en GPU.

Plotly Dash está integrado en RAPIDS y permite el análisis visual interactivo en tiempo real de conjuntos de datos de varios gigabytes, incluso en una sola GPU.

El acelerador de RAPIDS para Apache Spark proporciona un conjunto de complementos para Apache Spark que aprovechan las GPU y permiten acelerar el procesamiento a través del software RAPIDS y UCX.

Tecnología en el Núcleo

RAPIDS se basa en las primitivas de CUDA® para optimizar la computación de bajo nivel, pero expone el paralelismo de la GPU y el ancho de banda de alta memoria a través de interfaces Python fáciles de usar. RAPIDS admite workflows integrales de ciencia de datos, desde la carga y el preprocesamiento de datos hasta el machine learning, el análisis de gráficos y la visualización. Es un conjunto de Python completamente funcional que se adapta a los casos de uso de big data empresariales.

Carga y Preprocesamiento de Datos

Las funciones de carga, preprocesamiento y ETL de datos de RAPIDS se basan en Apache Arrow para cargar, unir, agregar, filtrar y manipular datos, todo en una API familiar para los científicos de datos. Los usuarios pueden esperar aceleraciones típicas de 10 veces o más.

Aprende Más ›

Machine Learning

Los algoritmos de machine learning y las primitivas matemáticas de RAPIDS siguen una API familiar similar a scikit-learn. Las herramientas populares como XGBoost, Random Forest y muchas otras son compatibles con implementaciones de un solo GPU y de grandes data centers. Para grandes conjuntos de datos, estas implementaciones basadas en GPU pueden completarse de 10 a 50 veces más rápido que sus equivalentes de CPU.

Aprende Más ›

Análisis de Gráficos

Los algoritmos de gráficos de RAPIDS como PageRank y funciones como NetworkX hacen un uso eficiente del paralelismo masivo de las GPU para acelerar el análisis de gráficos grandes en más de 1000 veces. Explore hasta 200 millones de edges en una sola GPU NVIDIA A100 Tensor Core y escale a miles de millones de edges en clústeres NVIDIA DGX™ A100.

Aprende Más ›

Visualización

Las funciones de visualización de RAPIDS admiten el filtrado cruzado acelerado por GPU. Inspirado en la versión JavaScript del original, permite un filtrado multidimensional interactivo y súper rápido de más de 100 millones de conjuntos de datos tabulares de filas.

Aprende Más ›

Machine Learning to Deep Learning: All on GPU

Integración de Deep Learning

Si bien el deep learning es eficaz en dominios como la visión por computadora, el procesamiento de idiomas naturales y los recomendadores, hay áreas en las que su uso no es generalizado. Los problemas de datos tabulares, que consisten en columnas de variables categóricas y continuas, comúnmente utilizan técnicas como XGBoost, aumento de gradiente o modelos lineales. RAPIDS agiliza el preprocesamiento de datos tabulares en la GPU y proporciona una transferencia de datos sin problemas directamente a cualquier framework compatible con DLPack, como PyTorch, TensorFlow y MxNet. Estas integraciones abren nuevas oportunidades para crear workflows enriquecidos, incluso aquellos que antes no tenían motivo, como incorporar nuevas funciones creadas a partir de frameworks de deep learning a los algoritmos de machine learning.

Data Centers Modernos para la Ciencia de Datos

Hay cinco ingredientes clave para desarrollar data centers optimizados con IA en la empresa. La clave del diseño es colocar las GPU en el centro.

Computación

Gracias a su enorme rendimiento computacional, los sistemas con las GPU de NVIDIA son el componente básico de computación para los data centers de IA. Los sistemas NVIDIA DGX ofrecen un rendimiento de inteligencia artificial innovador y pueden reemplazar, en promedio, 50 servidores de CPU de dos sockets. Este es el primer paso para brindar a los científicos de datos las herramientas más poderosas de la industria que les permiten explorar datos.

Software

RAPIDS crea una forma sencilla de hacer ciencia de datos, ya que oculta las complejidades de trabajar con la GPU e incluso los protocolos de comunicación entre bastidores dentro de la arquitectura del data center. A medida que más científicos de datos utilizan Python y otros lenguajes de alto nivel, es esencial proporcionar aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Redes

El acceso remoto directo a memoria (RDMA) en los controladores de interfaz de red (NIC) de NVIDIA Mellanox^®, NCCL2 (la biblioteca de comunicación colectiva de NVIDIA) y OpenUCX (un framework de comunicación integral de código abierto) ha permitido enormes mejoras en la velocidad de entrenamiento. Como RDMA permite que las GPU se comuniquen directamente entre sí a través de nodos a una velocidad de hasta 100 gigabits por segundo (Gb/s), pueden abarcar varios nodos y funcionar como si estuvieran en un único servidor masivo.

Implementación

Las empresas se están trasladando a contenedores de Kubernetes y Docker para implementar procesos a escala. La combinación de aplicaciones en contenedores con Kubernetes permite a las empresas cambiar las prioridades sobre qué tarea es la más importante y agrega adaptabilidad, confiabilidad y escalabilidad a los data centers de IA.

Almacenamiento

GPUDirect^® Storage permite que tanto NVMe como NVMe over Fabric (NVMe-oF) lean y escriban datos directamente en la GPU, sin pasar por la CPU ni la memoria del sistema. Esto libera la CPU y la memoria del sistema para otras tareas, al tiempo que le da a cada GPU acceso a datos con más órdenes de magnitud en hasta un 50 % más de ancho de banda.

Nuestro Compromiso con la Ciencia de Datos de Código Abierto

NVIDIA se compromete a simplificar, unificar y acelerar la ciencia de datos para la comunidad de código abierto. NVIDIA optimiza todo el conjunto, desde el hardware al software, y elimina los cuellos de botella para la ciencia de datos iterativa. Así, les permite a los científicos de datos de todo el mundo aumentar su productividad con menos. Esto genera más valor para las empresas a partir de sus recursos preciados: los datos y los científicos de datos. RAPIDS es un software de código abierto Apache 2.0, por lo que genera un ecosistema en la GPU.

Sin la potencia de computación, los científicos de datos tenían que ‘simplificar’ sus algoritmos para que pudieran ejecutarse lo suficientemente rápido. Esto es algo del pasado. “Las GPU nos permiten hacer cosas que antes no podíamos hacer.

- Bill Groves, Chief Data Officer, Walmart

Los modelos globales de la NASA producen terabytes de datos. Antes de RAPIDS, apretaba el botón y esperaba seis o siete horas para obtener los resultados. La aceleración del ciclo de entrenamiento permitió un cambio total en el desarrollo de los modelos.

- Dr. John Keller, NASA Goddard Space Flight Center

Capital One logró una mejora 100 veces mayor en los tiempos de entrenamiento de modelos y un ahorro de costos del 98% con RAPIDS.ai y Dask. Por lo tanto, considera que son los próximos avances más importantes para la ciencia de datos y el machine learning.

- Mike McCarty, Director de Ingeniería de Software, Capital One Center for Machine Learning

- Bill Groves, Chief Data Officer, Walmart

- Dr. John Keller, NASA Goddard Space Flight Center

- Mike McCarty, Director de Ingeniería de Software, Capital One Center for Machine Learning

Comenzar Hoy Mismo

Ver el Tutorial