Cluster Management (ES-LA) | NVIDIA Developer

La gestión de tu clúster y la programación de trabajos en tu clúster de GPU pueden ser sencillas e intuitivas con las soluciones líderes del sector, que ahora son compatibles con las GPUs NVIDIA.

Bright Cluster Manager

Una solución única y totalmente integrada para desplegar, probar, aprovisionar, supervisar y gestionar clusters de GPU. Con Bright Cluster Manager, un administrador de clústeres puede instalar y gestionar fácilmente varios clústeres de forma simultánea.

Ganglia

Un sistema de monitorización distribuido, escalable y de código abierto para sistemas informáticos de alto rendimiento, como clusters y Grids. Está cuidadosamente diseñado para lograr una sobrecarga por nodo muy baja y una alta concurrencia. Ganglia se utiliza actualmente en miles de clusters de todo el mundo y puede escalar para manejar clusters con varios miles de nodos.

NVIDIA DCGM

Un conjunto de herramientas para gestionar y supervisar las GPU Tesla™ en entornos de clúster.

IBM Spectrum LSF

Una potente plataforma de gestión de cargas de trabajo para entornos HPC distribuidos y exigentes. Ofrece un conjunto completo de funciones de programación inteligentes y basadas en políticas que le permiten utilizar todos los recursos de su infraestructura informática y garantizar un rendimiento óptimo de las aplicaciones.

Altair PBS Professional

El gestor de cargas de trabajo y programador de trabajos de Altair® PBS Professional®, líder del sector, para HPC y computación de alto rendimiento, está diseñado para mejorar la productividad, optimizar la utilización y la eficiencia, y simplificar la administración de clústeres, nubes y supercomputadoras. PBS Professional automatiza la programación de trabajos, la gestión, la supervisión y la elaboración de informes, y es la solución de confianza para los complejos sistemas Top500, así como para los clústeres más pequeños.

Altair Grid Engine

Altair® Grid Engine® es un sistema líder de gestión de recursos distribuidos para optimizar las cargas de trabajo y los recursos en miles de centros de datos, mejorando el rendimiento e impulsando la productividad y la eficiencia. Ayuda a las organizaciones a mejorar el retorno de la inversión y a ofrecer mejores resultados con mayor rapidez al optimizar el rendimiento y el desempeño de las aplicaciones, los contenedores y los servicios, al tiempo que maximiza los recursos informáticos compartidos en las infraestructuras locales, híbridas y en la nube.

Moab HPC Suite

Moab® HPC Suite es una plataforma de orquestación de cargas de trabajo y recursos que automatiza las decisiones de programación de cargas de trabajo complejas y optimizadas y las acciones de gestión con políticas multidimensionales que imitan la toma de decisiones del mundo real. Estas políticas equilibran la maximización del trabajo y su utilización con el cumplimiento de los SLA y las prioridades. Con un historial probado de gestión de los sistemas más avanzados, diversos y con gran cantidad de datos del mundo, Moab HPC Suite sigue siendo la solución de gestión de cargas de trabajo preferida para las instalaciones de HPC de última generación.

SLURM

Slurm es un gestor de cargas de trabajo de código abierto diseñado específicamente para satisfacer las exigentes necesidades de la informática de alto rendimiento. Slurm se utiliza ampliamente en laboratorios gubernamentales, universidades y empresas de todo el mundo. En la lista de los 500 mejores ordenadores de noviembre de 2014, Slurm realizaba la gestión de la carga de trabajo en seis de los diez ordenadores más potentes del mundo, incluido el gigante de la GPU Piz Daint, que utiliza más de 5000 GPUs NVIDIA.

Run:AI

La plataforma de gestión informática de Run:AI automatiza la orquestación, la programación y la gestión de los recursos de GPU para las cargas de trabajo de IA. La plataforma basada en Kubernetes ofrece a los científicos de datos acceso a toda la potencia de cálculo agrupada que necesitan para acelerar la IA, ya sea en las instalaciones o en la nube. Los equipos de TI y MLOps obtienen visibilidad y control sobre la programación y el aprovisionamiento dinámico de las GPU, lo que permite multiplicar por más de 2 la utilización de la infraestructura existente.

¿Busca ayuda para su GPU Cluster?
Ponte en contacto con expertos del sector e ingenieros de NVIDIA en los foros de desarrolladores de CUDA