¿Qué es Dataproc Serverless?

Dataproc Serverless te permite ejecutar cargas de trabajo de Spark sin necesidad de realizar las acciones para aprovisionar y administrar tu propio clúster de Dataproc. Existen dos maneras de ejecutar cargas de trabajo de Dataproc Serverless:

Dataproc Serverless para Spark Batch

Usa la consola de Google Cloud, Google Cloud CLI o la API de Dataproc para enviar una carga de trabajo por lotes al servicio Dataproc Serverless. El servicio se ejecutará la carga de trabajo en una infraestructura de procesamiento administrada y el ajuste de escala automático de los recursos, según sea necesario. Los cargos de Dataproc Serverless solo se aplican a el momento en que se ejecuta la carga de trabajo.

Para comenzar, consulta Ejecuta una carga de trabajo por lotes de Apache Spark.

Dataproc Serverless para Spark Interactive

Escribe y ejecuta código en notebooks de Jupyter durante Dataproc Serverless para Sesión interactiva de Spark. Puedes crear una sesión de notebook en los siguientes maneras:

  • Usa el complemento de JupyterLab de Dataproc para crear varios notebooks de las plantillas que creas y administras. Cuando instales en una máquina local o en una VM de Compute Engine, que corresponden a diferentes configuraciones del kernel de Spark aparecerán en Página del selector de JupyterLab. Haz clic en una tarjeta para crear Dataproc Serverless y, luego, comenzarás a escribir y probar tu código en el notebook.

    El complemento de JupyterLab de Dataproc también te permite usa la página del selector de JupyterLab para realizar las siguientes acciones:

    • Crear clústeres de Dataproc en Compute Engine
    • Enviar trabajos a clústeres de Dataproc en Compute Engine
    • Ver los registros de Google Cloud y Spark.

Para comenzar, consulta Usa JupyterLab para sesiones de notebooks interactivas y por lotes sin servidores.

Dataproc Serverless para Spark en comparación con Dataproc en Compute Engine

Dataproc en Compute Engine es ideal si deseas aprovisionar y administrar la infraestructura y, luego, ejecutar en Spark y otros frameworks de procesamiento de código abierto. En la siguiente tabla, se enumeran las diferencias clave entre Compute Engine y Dataproc Serverless para Spark.

Función Dataproc sin servidores para Spark Dataproc en Compute Engine
Frameworks de procesamiento Batch: Spark 3.4 y versiones anteriores
Interactivo: Kernels de PySpark para Spark 3.4 y versiones anteriores
Spark 3.3 y versiones anteriores. Otros frameworks de código abierto, como Hive, Flink, Trino y Kafka
Sin servidores No
Hora de inicio 60 s Década de 1990
Control de la infraestructura No
Administración de recursos Basada en chispa Basadas en YARN
Asistencia de GPU
Sesiones interactivas No
Contenedores personalizados No
Acceso a VM (por ejemplo, SSH) No
Versiones de Java Java 17 y 11 Versiones anteriores compatibles
OS Login asistencia * No

Notas:

  • Una política de Acceso al SO no se aplica a Dataproc Serverless ni es compatible con él. Si tu organización aplica una política OS Login, sus cargas de trabajo de Dataproc Serverless fallarán.

Cumplimiento de la seguridad de Dataproc Serverless

Dataproc Serverless cumple con toda la residencia de datos, CMEK, VPC‐SC y otros requisitos de seguridad con los que Dataproc cumple.

Capacidades de carga de trabajo por lotes de Dataproc sin servidores para Spark

Puedes ejecutar los siguientes Dataproc Serverless para los tipos de cargas de trabajo por lotes de Spark:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark (Java o Scala)

Puedes especificar las propiedades de Spark cuando envías una carga de trabajo por lotes de Dataproc Serverless para Spark.