Prova i modelli Gemini 1.5, gli ultimi modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token. Prova i modelli Gemini 1.5, i più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token.

Questa pagina è stata tradotta dall'API Cloud Translation.

Configurazione delle risorse di calcolo per la previsione

Vertex AI alloca i nodi per gestire le previsioni online e batch. Quando esegui il deployment di un modello con addestramento personalizzato o di un modello AutoML in un Endpoint per fornire previsioni online o quando puoi richiedere previsioni batch, puoi personalizzare il tipo di macchina virtuale utilizzato dal servizio di previsione su questi nodi. Facoltativamente, puoi configurare i nodi di previsione per l'utilizzo delle GPU.

I tipi di macchine si differenziano per diversi aspetti:

Numero di CPU virtuali (vCPU) per nodo
Quantità di memoria per nodo
Prezzi

Selezionando un tipo di macchina con più risorse di calcolo, puoi le previsioni con latenza più bassa o gestire più richieste di previsione contemporaneamente nel tempo.

Dove specificare le risorse di computing

Previsione online

Se vuoi utilizzare un modello con addestramento personalizzato o un modello tabulare AutoML devi specificare un tipo di macchina quando esegui il deployment dell'Model risorsa come DeployedModel a Endpoint. Per altri tipi di AutoML, Vertex AI configura automaticamente i tipi di macchina.

Specifica il tipo di macchina (e, facoltativamente, la configurazione GPU) nella dedicatedResources.machineSpec del tuo DeployedModel.

Scopri come eseguire il deployment di ciascun tipo di modello:

Previsione batch

Se vuoi ottenere previsioni batch da un modello con addestramento personalizzato tabulare, devi specificare un tipo di macchina quando crei un BatchPredictionJob risorsa. Specifica tipo di macchina (e, facoltativamente, configurazione GPU) nel dedicatedResources.machineSpec del tuo BatchPredictionJob.

Tipi di macchina

La tabella seguente mette a confronto i tipi di macchine disponibili per fornire previsioni da modelli con addestramento personalizzato e modelli tabulari AutoML:

Serie E2

Nome	vCPU	Memoria (GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

Serie N1

Nome	vCPU	Memoria (GB)
`n1-standard-2`	2	7,5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3,6
`n1-highcpu-8`	8	7.2
`n1-highcpu-16`	16	14,4
`n1-highcpu-32`	32	28,8

Serie N2

Nome	vCPU	Memoria (GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

Serie N2D

Nome	vCPU	Memoria (GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

Serie C2

Nome	vCPU	Memoria (GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

Serie C2D

Nome	vCPU	Memoria (GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

Serie C3

Nome	vCPU	Memoria (GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

Serie A2

Nome	vCPU	Memoria (GB)	GPU (NVIDIA A100)
`a2-highgpu-1g`	12	85	1 (A100 40GB)
`a2-highgpu-2g`	24	170	2 (A100 40GB)
`a2-highgpu-4g`	48	340	4 (A100 40GB)
`a2-highgpu-8g`	96	680	8 (A100 40GB)
`a2-megagpu-16g`	96	1360	16 (A100 40GB)
`a2-ultragpu-1g`	12	170	1 (A100 80GB)
`a2-ultragpu-2g`	24	340	2 (A100 80GB)
`a2-ultragpu-4g`	48	680	4 (A100 80GB)
`a2-ultragpu-8g`	96	1360	8 (A100 80GB)

Serie A3

Nome	vCPU	Memoria (GB)	GPU (NVIDIA H100)
`a3-highgpu-8g`	208	1872	8 (H100 80GB)

Serie G2

Nome	vCPU	Memoria (GB)	GPU (NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

Scopri di più sui prezzi di ogni macchina del testo. Scopri di più sulle specifiche dettagliate di questi tipi di macchina nella documentazione di Compute Engine di classificazione.

Trova il tipo di macchina ideale

Previsione online

Per trovare il tipo di macchina ideale per il tuo caso d'uso, ti consigliamo di caricare il modello su più tipi di macchina e di misurare caratteristiche come latenza, costo, contemporaneità e velocità effettiva.

Un modo per farlo è eseguire questo blocco note su più tipi di macchina e confrontarne i risultati per trovare quello che funziona la soluzione migliore per te.

Vertex AI prenota circa 1 vCPU su ogni replica per l'esecuzione dei processi di sistema. Ciò significa che l'esecuzione del blocco note su una singola sarebbe paragonabile a un tipo di macchina bi-core per la distribuzione per le previsioni.

Quando prendi in considerazione i costi di previsione, ricorda che, anche se le macchine più grandi costano in più, possono ridurre il costo complessivo perché sono necessarie meno repliche lo stesso carico di lavoro. Questo è particolarmente evidente per le GPU, che tendono a costare in più all'ora, ma possono offrire una latenza minore e un costo complessivo inferiore.

Previsione batch

Per ulteriori informazioni, vedi Scegliere il tipo di macchina e il numero di repliche.

Acceleratori GPU facoltativi

Alcune configurazioni, ad esempio la serie A2. e la serie G2, hanno un un numero fisso di GPU integrate.

Altre configurazioni, come la serie N1, ti consentono di aggiungere facoltativamente GPU per accelerare ogni di previsione.

Per aggiungere acceleratori GPU facoltativi, devi tenere conto di diversi requisiti:

Puoi utilizzare le GPU solo quando la tua risorsa Model è basata su un criterio TensorFlow SavedModel o quando utilizzare un container personalizzato che sia stato progettato per sfruttare le GPU. Non puoi utilizzare GPU per scikit-learn o modelli XGBoost.
La disponibilità di ogni tipo di GPU varia in base alla regione utilizzata per il modello. Scopri quali tipi di GPU sono disponibili e in cui regioni.
Puoi utilizzare un solo tipo di GPU per la risorsa DeployedModel oppure BatchPredictionJob e ci sono Limitazioni al numero di GPU che puoi aggiungere in base al tipo di macchina che stai utilizzando. Queste limitazioni sono descritte nella tabella seguente.

La tabella seguente mostra le GPU facoltative disponibili online e il numero di GPU di ciascun tipo che puoi utilizzare Tipo di macchina Compute Engine:

Numeri validi di GPU per ogni tipo di macchina
Tipo di macchina	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-standard-32`	2, 4	4 e 8	2, 4	2, 4
`n1-highmem-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highmem-32`	2, 4	4 e 8	2, 4	2, 4
`n1-highcpu-2`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-4`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-8`	1, 2, 4	1, 2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-16`	1, 2, 4	2, 4, 8	1, 2, 4	1, 2, 4
`n1-highcpu-32`	2, 4	4 e 8	2, 4	2, 4

Le GPU facoltative comportano costi aggiuntivi.

Configurazione delle risorse di calcolo per la previsione

Dove specificare le risorse di computing

Previsione online

Previsione batch

Tipi di macchina

Serie E2

Serie N1

Serie N2

Serie N2D

Serie C2

Serie C2D

Serie C3

Serie A2

Serie A3

Serie G2

Trova il tipo di macchina ideale

Previsione online

Previsione batch

Acceleratori GPU facoltativi

Passaggi successivi