TPU v3

In diesem Dokument werden die Architektur und die unterstützten Konfigurationen von Cloud TPU v3.

Systemarchitektur

Jeder v3 TPU-Chip enthält zwei TensorCores. Jeder TensorCore hat zwei Matrixmultiplikationseinheiten (MXUs), eine Vektoreinheit und einer Skalareinheit. In der folgenden Tabelle sind die wichtigsten Spezifikationen und ihre Werte für einen v3 TPU-Pod.

Wichtige Spezifikationen v3-Pod-Werte
Spitzenwert der Rechenleistung pro Chip 123 TeraFLOPS (bf16)
HBM2-Kapazität und -Bandbreite 32 GiB, 900 GB/s
Gemessene minimale/mittlere/maximale Leistung 123/220/262 W
TPU-Pod-Größe 1024-Chips
Interconnect-Topologie 2D-Torus
Spitzenwert für die Berechnung pro Pod 126 PetaFLOPS (bf16)
Bandbreite pro Pod insgesamt reduzieren 340 TB/s
Biabschnitte Bandbreite pro Pod 6,4 TB/s

Das folgende Diagramm zeigt einen TPU v3-Chip.

Diagramm eines TPU v3-Chips

Architektonische Details und Leistungsmerkmale von TPU v3 sind verfügbar in Ein domainspezifischer Supercomputer zum Trainieren neuronaler Deep-Learning-Netzwerke

Leistungsvorteile von TPU v3 im Vergleich zu v2

Die erhöhten FLOPS pro TensorCore-Prozessor und die höhere Arbeitsspeicherkapazität in TPU v3-Konfigurationen die Leistung Ihrer Modelle auf folgende Arten verbessern:

  • TPU v3-Konfigurationen bieten erhebliche Leistungsvorteile pro TensorCore für rechengebundene Modelle Speichergebundene Modelle auf TPU v2 Konfigurationen erzielen möglicherweise nicht dieselbe Leistungsverbesserung, sind auch bei TPU v3-Konfigurationen speichergebunden.

  • In Fällen, in denen Daten in TPU v2-Konfigurationen nicht in den Arbeitsspeicher passen, v3 bietet eine verbesserte Leistung und eine geringere Neuberechnung von Zwischenwerte (Rematerialisierung).

  • Mit TPU v3-Konfigurationen können neue Modelle mit Stapelgrößen ausgeführt werden, für die TPU v2-Konfigurationen nicht ausgereicht haben. So lassen sich mit TPU v3 unter Umständen tiefere ResNet-Modelle größere Bilder mit RetinaNet erstellen.

Modelle, die auf TPU v2-Hardware nahezu eingabegebunden arbeiten ("Infeed"), da Trainingsschritte auf Eingaben warten müssen, arbeiten unter Umständen auch auf Cloud TPU v3-Hardware eingabegebunden. Die Leitfaden zur Pipelineleistung kann Ihnen bei der Behebung von Einspeisungsproblemen helfen.

Konfigurationen

Ein TPU v3 Pod besteht aus 1.024 Chips, die über Hochgeschwindigkeitsverbindungen verbunden sind. Bis Erstellen Sie ein TPU v3-Gerät oder ein Pod-Slice, verwenden Sie die --accelerator-type im TPU-Erstellungsbefehl (gcloud compute tpus tpu-vm) verwenden. Den Beschleunigertyp geben Sie an, indem Sie den Parameter TPU-Version und die Anzahl der TPU-Kerne Verwenden Sie beispielsweise für eine einzelne v3 TPU --accelerator-type=v3-8 Verwenden Sie für ein v3 Pod-Slice mit 128 TensorCores --accelerator-type=v3-128

Der folgende Befehl zeigt, wie Sie ein v3 TPU-Pod-Slice mit 128 TensorCores erstellen:

  $ gcloud compute tpus tpu-vm create tpu-name \
    --zone=zone \
    --accelerator-type=v3-128 \
    --version=tpu-vm-tf-2.16.1-pjrt

In der folgenden Tabelle sind die unterstützten v3-TPU-Typen aufgeführt:

TPU-Version Support-Ende
v3-8 (Enddatum wurde noch nicht festgelegt)
v3-32 (Enddatum wurde noch nicht festgelegt)
v3-128 (Enddatum wurde noch nicht festgelegt)
v3-256 (Enddatum wurde noch nicht festgelegt)
v3-512 (Enddatum wurde noch nicht festgelegt)
v3-1024 (Enddatum wurde noch nicht festgelegt)
v3-2048 (Enddatum wurde noch nicht festgelegt)

Weitere Informationen zum Verwalten von TPUs finden Sie unter TPUs verwalten. Weitere Informationen zur Systemarchitektur von Cloud TPU finden Sie unter Systemarchitektur.