La rampa de cómputo de GPU “Hopper” finalmente comienza

0
4
La rampa de cómputo de GPU

No puede estar seguro de muchas cosas en el mundo en estos días, pero una cosa con la que puede contar es el apetito voraz por el cómputo paralelo, la memoria de alto ancho de banda y las redes de alto ancho de banda para las cargas de trabajo de entrenamiento de IA. Y es por eso que Nvidia puede darse el lujo de ordeñar sus GPU GA100 “Ampere” de la generación anterior y tomarse su tiempo para poner en el campo los seguimientos “Hopper” GH100, anunciados en marzo.

Las partes de juegos y criptomonedas del negocio de Nvidia están tomando la barbilla en este momento, pero el negocio del centro de datos, impulsado en gran parte por el entrenamiento e inferencia de IA con un poco de simulación y modelado HPC tradicional, está funcionando bien.

No es que haya alternativas de gran volumen a las GPU Nvidia en este momento. Intel no está enviando su “Ponte Vecchio” Xmi GPU HPC y probablemente no lo será hasta mucho más tarde este año. Y si bien AMD presentó una GPU Instinct MI250X “Aldebaran” bastante impresionante lanzada en noviembre de 2021, la compañía tuvo que invertir toda la capacidad de fabricación de estos dispositivos en un par de grandes acuerdos de HPC. Y para cuando AMD pueda vender la serie Instinct MI200 (tanto los PCI-Express MI210 lanzados en marzo como los MI250X con factor de forma OAM de hace casi un año) en volumen, Nvidia enviará las versiones PCI-Express de su GPU Hopper H100. aceleradores (que usan el chip GH100) en volumen a través del canal y a través de socios OEM y ODM a partir de octubre. Y según el cofundador y director ejecutivo de Nvidia, Jensen Huang, las principales nubes tendrán aceleradores de GPU H100 disponibles “en solo unos meses”.

Como puede ver en el gráfico anterior, los sistemas DGX-H100, que usan el zócalo SXM5 para GPU GH100 y usan interconexiones NVLink 4.0 en lugar de PCI-Express 5.0, solo están disponibles en este momento en el servicio Nvidia Launchpad que se ejecuta junto con Equinix. Los clientes que deseen sistemas DGX-H100 pueden realizar pedidos ahora, pero Nvidia no podrá entregarlos hasta el primer trimestre de 2023.

Curiosamente, creemos que las placas HGX y el zócalo SXM5 para la GPU GH100 se están retrasando debido al rumor de retraso de Intel en la entrega del procesador Xeon SP “Sapphire Rapids”, que tiene enlaces PCI-Express 5.0 y soporte para el protocolo CXL. y que fue elegido por Nvidia como el motor de cómputo en serie para sus sistemas acelerados DGX-H100 Hopper de cosecha propia. Intel no ha admitido este retraso y, por lo tanto, Nvidia no puede hacerlo en nombre de Intel, por lo que todos bailaron alrededor del problema.

¿Cuánto importa que los sistemas DGX-H100 se retrasen hasta el primer trimestre de 2023? No mucho a largo plazo y en el panorama general.

En primer lugar, los servidores DGX son el sistema acelerado por GPU Cadillac creado por Nvidia para su propio uso y algunas cuentas de marquesina; no es una gran parte del flujo de ingresos del grupo Datacenter, aunque ciertamente creemos que podría ser algún día si Nvidia pensara de otra manera.

En segundo lugar, los hiperescaladores y los desarrolladores de la nube que implementarán las placas del sistema HGX-H100 con ocho GPU Hopper y la interconexión del conmutador NVLink 4.0 entre ellos pueden usar cualquier CPU que deseen como procesador en serie. Algunos van a utilizar los actuales “Ice Lake” Xeon SP o los actuales AMD “Milan” Epyc 7003, que solo tienen enlaces PCI-Express 4.0 a los complejos de GPU. Algunos esperarán a Sapphire Rapids y otros elegirán los próximos Epyc 7004 “Genoa” de AMD (hemos visto que podrían llamarse Epyc 9000), que tienen soporte PCI-Express 5.0.

Por lo que hemos escuchado, muchos de los hiperescaladores y desarrolladores de la nube planean usar las versiones PCI-Express de los aceleradores Hopper GPU como motores de inferencia para modelos de lenguajes grandes, y no necesitan el ancho de banda PCI-Express 5.0 de regreso a la CPU para este trabajo; Los enlaces PCI-Express 4.0 funcionarán bien. Por lo tanto, el actual procesador Ice Lake Xeon SP y Milan Epyc 7003 puede manejar este trabajo. Además, para grandes ejecuciones de entrenamiento de IA, todo el mundo utiliza GPU Direct sobre redes InfiniBand para comunicarse entre las GPU en un clúster y, de todos modos, no volverán a la CPU. En estos casos, lo que les importa es tener muchos Hoppers conectados localmente en un nodo que usa NVLink y entre nodos que usan InfiniBand o Ethernet con RoCE para que GPU Direct mantenga a la CPU fuera del circuito. Y aquellos que tienen un trabajo de entrenamiento de IA enorme y monolítico que abarca miles, y tal vez hasta 10,000 GPU, para una sola ejecución. Quieren GPU Hopper ahora debido a la precisión mixta más baja y el ancho de banda de memoria y cómputo de mayor rendimiento.

“La mayoría de las GPU Hopper se destinan a los grandes CSP seguidos de los principales OEM”, dice Ian Buck, gerente general de Computación Acelerada en Nvidia. La próxima plataforma. “Y todos eligieron CPU ligeramente diferentes en diferentes configuraciones. Y verá una combinación de esas primeras ofertas en ese sentido, y luego están pensando en los impulsores para el próximo año. No puedo decirte lo que han elegido, pero no todos han elegido CPU con PCI-Express 5.0”.

Pero hay otra razón, y esta podría ser la razón por la que podemos obtener versiones PCI-Express de Hopper más rápido que las versiones SXM5 en las placas del sistema HGX.

“Ha visto los componentes básicos de Computex a principios de este año para Grace-Hopper”, continúa Buck. “Puedes ver hacia dónde nos estamos moviendo hacia un diseño más modular donde hay una CPU a una GPU más un chip de conmutación, con todo conectado por cables. Los cables ofrecen una integridad de señal mucho, mucho mayor que las trazas de PCB, aunque las trazas de PCB tienen la virtud de ser baratas. Pero son solo cobre vertido sobre fibra de vidrio, por lo que no tiene una capacidad dieléctrica muy buena. Puede ir a una PCB más cara para obtener un mejor dieléctrico. Pero lo mejor es un cable de cobre o un transceptor óptico. Y muchas empresas ya están creando sistemas conectados por cable PCI-Express para mejorar la integridad de la señal. Haces cobre si puedes, y óptica después de eso. Y no solo para escalar el entrenamiento fuera de la caja. Estamos viendo cables incluso dentro de la caja”.

Algunos fabricantes de sistemas han estado haciendo cables dentro del nodo y fibra óptica a través de los nodos para escalar NUMA para sistemas de CPU durante años. Esto es un poco así.

En cuanto a las placas HGX-H100, la demora se debe realmente a la calificación de estas placas, y comenzamos a ver por qué podría ser así, dado lo que Buck nos dice anteriormente. No se trata tanto de retrasos en los componentes como de pruebas y calificación de procesos de fabricación complejos.

Habiendo dicho todo esto, creemos que Nvidia esperaba tener todo esto hecho antes, pero la pandemia de coronavirus ha estropeado las cadenas de suministro, así como los ciclos de diseño y fabricación en todo el ecosistema de TI.

Lo que nos lleva a la CPU del servidor Arm “Grace” que Nvidia está emparejando con sus GPU Hopper. Nvidia nunca dio una fecha límite estricta sobre cuándo se entregaría la CPU Grace. Cuando se anunció por primera vez y durante el año pasado y principios de este año, a medida que se revelaba más sobre la CPU Grace, su lanzamiento se calificó como “principios de 2023”. Y ahora, los altos mandos de Nvidia dicen que los sistemas estarán disponibles “en la primera mitad de 2023”. En el lenguaje de los proveedores de TI, el primero es una forma de canalizar “a más tardar en marzo más o menos” y el segundo significa “nos besaremos el 30 de junio con tanta fuerza que pensará que estamos enamorados”.

En la más larga de las ejecuciones, este retraso no será significativo, incluso si en el corto plazo es decepcionante porque queremos ver qué hacen las empresas con Grace y Hopper juntos, cómo funciona y cuánto costarán como un cómputo híbrido y motor de memoria

LEAVE A REPLY

Please enter your comment!
Please enter your name here