Introducción a los repositorios

Este documento te ayuda a comprender el concepto de repositorios de Dataform.

Cada repositorio de Dataform aloja una colección de archivos SQLX y JavaScript que conforman tu flujo de trabajo de SQL, así como archivos y paquetes de configuración de Dataform. Interactúas con el contenido de tu repositorio en un lugar de trabajo de desarrollo.

Dataform muestra tus repositorios en la página de Dataform en orden alfabético según los IDs de repositorio. Puedes ordenarlas y filtrarlas.

Ir a Dataform

Cada repositorio de Dataform está conectado a una cuenta de servicio. Puedes seleccionar una cuenta de servicio cuando crees un repositorio o editar la cuenta de servicio más tarde.

De forma predeterminada, Dataform usa una cuenta de servicio derivada de tu número de proyecto en el siguiente formato:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform usa Git para registrar cambios y administrar versiones de archivos. Cada repositorio de Dataform se corresponde con un repositorio de Git. Después de crear un repositorio de Dataform, puedes conectarlo a un repositorio remoto de GitHub, GitLab o Bitbucket.

En un repositorio de Dataform, este almacena el código del repositorio. En un repositorio conectado, el repositorio de terceros almacena el código del repositorio. Dataform interactúa con el repositorio de terceros para permitirte editar y ejecutar su contenido en un lugar de trabajo de desarrollo de Dataform.

Una página del repositorio de Dataform consta de los siguientes componentes:

Pestaña Espacios de trabajo de desarrollo
Muestra los lugares de trabajo de desarrollo creados en el repositorio.
Pestaña de configuraciones de lanzamiento
Te permite inspeccionar, crear, editar y borrar versiones.
Pestaña Registros de ejecución del flujo de trabajo
Muestra los registros de ejecución del flujo de trabajo de Dataform.
Pestaña de configuraciones del flujo de trabajo
Te permite inspeccionar, crear, editar y borrar parámetros de configuración del flujo de trabajo.
Pestaña Configuración
Muestra el nombre y la ubicación del repositorio. Para un repositorio conectado a un repositorio de Git de terceros, muestra la fuente del repositorio de terceros, el nombre de la rama predeterminada y el token secreto. Muestra los botones para conectar el repositorio a un repositorio de Git de terceros y editar la conexión de Git.
Botón Crear lugar de trabajo de desarrollo
Te permite crear un lugar de trabajo de desarrollo.

Después de crear e inicializar un lugar de trabajo de desarrollo, puedes editar el archivo de configuración de tu flujo de trabajo para establecer los siguientes parámetros de configuración de Dataform en tu repositorio:

  • La base de datos predeterminada (ID del proyecto de Google Cloud)
  • El esquema predeterminado (ID del conjunto de datos de BigQuery)
  • La ubicación predeterminada de BigQuery
  • El esquema predeterminado (ID del conjunto de datos de BigQuery) para las aserciones
  • El almacén, que se debe configurar como bigquery
  • Variables definidas por el usuario que están disponibles para el código del proyecto durante la compilación

Para obtener más información sobre la configuración del repositorio de Dataform, consulta IProjectConfig en la referencia principal de Dataform.

¿Qué sigue?