La GPU “Lovelace” de Nvidia ingresa al centro de datos a través del metaverso

0
5
La GPU

Como todos los demás en el planeta Tierra, esperábamos que la próxima generación de tarjetas gráficas basadas en la arquitectura “Ada Lovelace” se anunciara en la conferencia GTC de otoño de 2022 esta semana, pero no esperábamos que la empresa ofreciera una tarjeta gráfica con refrigeración pasiva. , la variante compatible con servidores de centros de datos de la serie GeForce RTX 6000 es bastante rápida.

Y a juzgar por la falta de información detallada sobre el nuevo acelerador de GPU L40 y su GPU AD102, tal vez Nvidia tampoco se lo esperaba.

Antes de entrar en todo eso, nos gustaría presentar una queja. Las convenciones de nombres son importantes porque nos dicen cosas arquitectónicamente y también nos dan sinónimos mientras leemos y escribimos.

Si las CPU y las GPU van a emparejarse o conectarse en paralelo con Nvidia en el futuro, lo cual está absolutamente bien, y la compañía va a usar un nombre para indicar un nombre en clave de CPU y un apellido para indicar un nombre en clave de GPU, lo cual está bien, y incluso apropiado, en realidad, entonces no puede decidir de repente romper ese nuevo patrón y todos sus patrones anteriores de usar apellidos como nombres en clave de GPU y llamar a este “Ada Lovelace”, en honor a la famosa programadora de Charles Babbitt’s Difference Engine. Esta GPU debería haberse llamado “Lovelace” y listo, y el chip de GPU que se anunció debería ser el GL102, no el AD102. Y mientras estamos en eso, las GPU “Turing” para juegos e inferencia que precedieron a las GPU Lovelace recién reveladas deberían haberse llamado GT102 y GT104, no TU102 y TU104. (De manera similar, las DPU deben recibir nombres en clave adecuados, nombres de chips de cómputo y nombres de placa, al igual que las GPU y las CPU).

Y debería haber una CPU basada en Arm correspondiente en el futuro indicada por el nombre en clave “Ada”. Por lo que sabemos, ese era el plan original y este doble nombre en clave pretende ofuscar este hecho. Sin embargo, en el futuro llegará una versión reducida de “Grace” para Edge y otros casos de uso. Para ser consistente, la CPU Grace, que aún no tiene nombre, debería llamarse CG100: “C” para CPU y “G” para Grace y “100” porque ahí es donde Nvidia comienza con los números de sus productos de chips. Y para la GPU Lovelace GL102, podría haber una CPU Ada Arm, que podríamos llamar CA100.

Al igual que Grace y Hopper estarían emparejados, Ada y Lovelace estarían emparejados. Y cuando decimos emparejado, literalmente lo decimos en serio. Las CPU y las GPU van juntas y son una sola unidad de cómputo híbrido en muchos diseños de sistemas. En muchos casos, la CPU Grace será un controlador para un gran espacio de memoria LPDDR5 para que la GPU Hopper tenga acceso rápido a NVLink. Lo mismo podría ser muy útil en el metaverso emparejando nuestra posible CPU Ada con una GPU Lovelace.

Dado todo esto, vamos a llamar a esta nueva GPU Lovelace y dejaremos a Nvidia la opción de tener una futura CPU Arm “Ada”. De nada.

Y ahora, repasemos lo que sabemos sobre la GPU Lovelace, que ofrece otro salto en la capacidad y el rendimiento de la GPU, que complementa a la GPU Hopper en muchas cargas de trabajo en el centro de datos y en el perímetro, y que combinará muy bien con “Grace” de Nvidia. Arme la CPU del servidor también en nuestra opinión.

En primer lugar, hasta donde sabemos, el libro blanco arquitectónico de Lovelace no está terminado y no estará disponible hasta el 28 de septiembre. Una vez que lo tengamos en nuestras manos, profundizaremos en esa nueva arquitectura. Mientras tanto, aquí están las especificaciones básicas que los altos mandos de Nvidia revelaron durante sus sesiones informativas previas al GTC de otoño:

Eso no es un montón de detalles, como se puede ver. Pero logramos tener en nuestras manos la tabla de especificaciones preliminares que se incluirá en ese futuro documento de arquitectura Lovelace, y tomamos esos datos y los emparejamos con aceleradores de GPU similares en el “Maxwell” y “Pascal” y “Turing” anteriores. y generaciones de “amperios”. Esto le dará una sensación más completa:

Las especificaciones de rendimiento en la parte inferior de esta tabla provienen de las hojas de especificaciones para las generaciones anteriores de las GPU que se muestran, y para el chip Lovelace provienen de este gráfico de rendimiento y potencia que mostró el cofundador y director ejecutivo de Nvidia, Jensen Huang. durante su discurso de apertura. Este es probablemente el gráfico más útil que vimos en relación con el efecto de la arquitectura Lovelace:

Ahora, reunámoslo todo, comparando el nuevo acelerador Lovelace L40 con el acelerador Ampere A40 de la generación anterior que se parece más en términos de estar diseñado para admitir cargas de trabajo de visualización, renderizado e inferencia.

Al pasar al proceso personalizado de 4 nanómetros de Taiwan Semiconductor Manufacturing Co, llamado 4N, para grabar la GPU Lovelace AD102, Nvidia puede incluir 76.300 millones de transistores, casi la misma cantidad de transistores que la muy diferente GPU Hopper GH100 destinada a la simulación HPC. y cargas de trabajo de entrenamiento de IA, que pesan 80 mil millones de transistores. La GPU GA102 anterior utilizada en el acelerador A40 se fabricó con el proceso de 8 nanómetros de Samsung y solo tenía 28,3 mil millones de transistores, y con 628,4 milímetros cuadrados, tiene un tamaño de matriz 3,3 por ciento más grande que el chip Lovelace AD102 utilizado en el acelerador L40, que tiene un área de 608.4 milímetros cuadrados.

Eso es un factor de 2.7X más transistores en esencialmente la misma área con transistores que son más o menos la mitad del tamaño. Lo mejor que podemos deducir al leer las especificaciones y hacer estimaciones (que se muestran en cursiva roja negrita, como de costumbre), Nvidia ha aumentado las velocidades de reloj en los núcleos de sombreado CUDA, los núcleos Tensor y los núcleos RT en el chip en un 34 por ciento y aumentar la cantidad de núcleos en un 69 por ciento para ofrecer un promedio de 2,5 veces más de rendimiento en las métricas que mostró Huang en los gráficos.

Creemos, y confirmaremos cuando haya más detalles disponibles, que los datos de Tensor Core de 1400 teraflops que se muestran en el gráfico de Huang son para operaciones matemáticas de punto flotante FP8 de 8 bits en datos de matriz dispersos. Eso implica que el rendimiento de FP16 Tensor Core sería de 700 teraflops con datos de matriz dispersos. Reduzca estos números a la mitad para datos de matriz densa. Los Tensor Cores utilizados en el chip Lovelace, por cierto, son de la misma generación que los Tensor Cores utilizados en la GPU Hopper. Los núcleos de sombreado CUDA de 32 bits son la misma generación utilizada en el chip Hopper, y los núcleos RT de procesamiento de inferencia y trazado de rayos son la tercera generación que Nvidia ha lanzado al mercado. Lo que es más importante para los jugadores, estos chips tienen trazado de rayos asistido por IA que permite gráficos sorprendentes y nítidos que se ejecutan a velocidades de cuadro efectivas que superan con creces las capacidades computacionales y de ancho de banda de una GPU Nvidia.

Este es uno de los superpoderes de la IA. Para llenar los vacíos de computación más rápido de lo que la computación misma puede trillar.

Hemos dado lo mejor de nosotros en las velocidades de reloj de los núcleos y la memoria GDDR6, que aún no se han publicado. No sabemos si hay unidades matemáticas de doble precisión FP64 en la GPU Lovelace, o si hay alguna forma de impulsar el procesamiento de 64 bits a través de CUDA o Tensor Cores. El procesamiento de FP64 puede existir pero no estar activado, o puede ser un pequeño múltiplo del rendimiento de FP32, como sucede a menudo.

Lo mismo ocurre con la cantidad de multiprocesadores de transmisión, que creemos que son alrededor de 128 activos en el chip entregado. La cantidad de SM y núcleos podría ser un poco mayor que esto, y se rumorea que la cantidad real de SM en el dispositivo Lovelace es en realidad 144, y la cantidad de núcleos reales es en realidad un 12,5 por ciento más alta que la que se muestra en esta tabla. Estamos bastante seguros de que Nvidia no puede enviar ninguna GPU con todos los núcleos y SM completamente activados. Estos pequeños nodos de proceso por debajo de los 16 nanómetros son demasiado molestos para eso.

En términos de ancho de banda de la memoria, la memoria GDDR6 que funciona a alrededor de 1,61 GHz ofrece 864 GB/seg de ancho de banda, un aumento del 24,1 % en comparación con la tarjeta aceleradora A40. La capacidad de memoria es la misma que con la tarjeta A40, 48 GB. (Creemos que una CPU Ada como controlador de memoria auxiliar podría ser muy útil).

Nvidia tiene una nueva tarjeta aceleradora L40 y también tiene un servidor de metaverso OVX de segunda generación que la usa:

La gente está dando mucha importancia a los servidores de metaverso, pero en realidad son como una parte de una granja de procesamiento o una estación de trabajo científica muy gruesa para la visualización. Eso es todo. En la era moderna, este servidor de visualización y renderizado debe tener una cantidad razonable de cómputo y capacidad gráfica, y el servidor OVX sin duda se ajustará a esa factura.

El servidor OVX de segunda generación tiene ocho de los aceleradores de GPU L40 conectados a través de enlaces PCI-Express 4.0 x16, con un par de procesadores Xeon SP “Ice Lake” de 32 núcleos de Intel, funcionando a 3,6 GHz, actuando como controlador de host. No está claro cuánta memoria principal tiene esta máquina OVX, pero tiene 16 TB de almacenamiento flash NVM-Express y tres tarjetas de interfaz de red ConnectX-7 de 200 Gb/s de dos puertos que se conectan a conmutadores Ethernet Spectrum-3 compatibles con RoCE. protocolo. El OVX SuperPOD une 32 de estos servidores en una granja de metaverso compartida.

Las tarjetas L40 están en plena producción ahora y Nvidia está aumentando los envíos de los sistemas OVX. Inspur, Lenovo y Supermicro están en línea para lanzar sus variaciones en el tema del servidor OVX al mercado a principios de 2023.

LEAVE A REPLY

Please enter your comment!
Please enter your name here