Prova i modelli Gemini 1.5, gli ultimi modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token. Prova i modelli Gemini 1.5, i più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token.

Questa pagina è stata tradotta dall'API Cloud Translation.

Consigli LoRA e QLoRA per gli LLM

Questa pagina fornisce suggerimenti di configurazione per ottimizzare i linguaggi di grandi dimensioni di grandi dimensioni (LLM) su Vertex AI mediante Adattamento low-Rank dei modelli linguistici di grandi dimensioni (LoRA) e la sua versione con maggiore efficienza di memoria, QLoRA.

Suggerimenti di ottimizzazione

La tabella seguente riassume i nostri suggerimenti per l'ottimizzazione degli LLM mediante LoRA o QLoRA:

Specifica	Consigliato	Dettagli
Efficienza memoria GPU	QLoRA	QLoRA ha un picco di utilizzo della memoria GPU inferiore di circa il 75% rispetto a LoRA.
Velocità	LoRA	LoRA è circa il 66% più veloce di QLoRA in termini di velocità di regolazione.
Efficienza in termini di costi	LoRA	Sebbene entrambi i metodi siano relativamente economici, LoRA ha un costo inferiore fino al 40% rispetto a QLoRA.
Lunghezza massima della sequenza maggiore	QLoRA	Una lunghezza massima della sequenza più elevata aumenta il consumo di memoria della GPU. QLoRA utilizza meno memoria GPU, quindi può supportare sequenze di lunghezze massime più elevate.
Miglioramento della precisione	Uguale	Entrambi i metodi offrono miglioramenti di accuratezza simili.
Dimensione del batch superiore	QLoRA	QLoRA supporta dimensioni dei batch molto più elevate. Ad esempio, di seguito sono riportati alcuni suggerimenti per la dimensione del batch per l'ottimizzazione di openLLaMA-7B sulle seguenti GPU: 1 x A100 40G: LoRA: si consiglia una dimensione del batch pari a 2. QLoRA: si consiglia una dimensione del batch pari a 24. 1 porta L4: LoRA: dimensione del batch di 1 non riuscita a causa di un errore di memoria insufficiente (OOM). QLoRA: si consiglia una dimensione del batch pari a 12. 1 x V100: LoRA: dimensione del batch di 1 non riuscita a causa di un errore di memoria insufficiente (OOM). QLoRA: si consiglia una dimensione del batch pari a 8.