Intel Xe Graphics Preview v2.0

Intel está desarrollando GPU discretas para jugadores, profesionales y servidores, y están programadas para su lanzamiento este año o en 2021. La tarjeta de Intel será el salvador tan esperado en un mercado estancado, o lo harán bajo rendimiento y fracasado miserablemente (sin presión, persona de relaciones públicas de Intel que lee esto). Personalmente, me encantan las dos maneras: obtenemos buenas GPU o tenemos algunas cosas buenas para jugar.

Esta es nuestra segunda ronda de investigación sobre Xe, ya que mucho ha sucedido en los últimos meses. Para resumir rápidamente, aquí hay una línea de tiempo para los grandes anuncios que Intel ha hecho desde el momento en que se hicieron públicos con el desarrollo de Xe:

  • 8. Noviembre de 2017: Raja Koduri deja su trabajo en el departamento de GPU de AMD y se une a Intel y se convierte en su vicepresidente senior de Core and Visible Computing. Su primer acto es contratar a media docena de viejos amigos de las filas de AMD.
  • 12 Junio ??de 2018: Luego, el CEO Mind Krzanich revela a los inversores de Intel que han diseñado una arquitectura de GPU discreta Arctic Sound durante años y planean lanzarla en 2020.
  • 8. Enero de 2019: El vicepresidente senior de cálculo de clientes Gregory Bryant confirma en el CES que la primera ronda de GPU de Intel llega al nodo de 10 nm.
  • primero Mayo de 2019: Jim Jeffers, ingeniero principal y director del equipo de representación y visualización, anuncia las capacidades de seguimiento de haces de Xe en FMX19.
  • 17a Noviembre de 2019: Raja Koduri revela que Xe viene en tres variantes: computación de alto rendimiento, baja potencia y alto rendimiento. Él cube que la primera GPU en la última categoría será Ponte Vecchio, que llegará en 2021 en el nodo de 7 nm.
  • noveno Enero de 2019: Se publican las primeras imágenes del vehículo de desarrollo de software program Discrete Graphics One (DG1 SDV), que muestra un pequeño mapa infundido con RGB que ayuda a los desarrolladores a optimizar su software program para la arquitectura Xe.

Y pronto …

  • 17. Marzo de 2020: El ingeniero senior de relaciones de desarrollo, Antoine Cohade, «proporcionará un recorrido detallado de la arquitectura de {hardware} y las» implicaciones de rendimiento «de Xe en GDC.

La historia oficial abarca una historia de Intel trabajando duro y construyendo GPU misteriosas con muchas características deseables, mejores nodos, seguimiento de haces, nuevas técnicas de empaque. Pero tú y yo sabemos que no son los trucos los que hacen una GPU, sino la potencia y el efectivo involucrados. De esto se trata este artículo.

Arquitectura

Una buena arquitectura comienza con un ladrillo, y también lo hace la GPU … aparte de la de Intel. Los núcleos de AMD y Nvidia realizan una operación por año. Reloj, pero las unidades de ejecución de Intel (UE) realizan ocho. Sin embargo, a pesar de las imprecisiones técnicas, describiremos una UE como equivalente a ocho núcleos para fines de comparación.

Además de la necesidad de Intel de construir con ocho ladrillos a la vez, sus técnicas de construcción son sencillas. Pueden tirar algunos ladrillos juntos y hacer una pared. Unas pocas paredes y obtienes una habitación, juntas algunas y puedes crear un apartamento.

Omita los pasos intermedios, la unidad autónoma más grande de Xe (el departamento) se llama disco y cada uno contiene 512 o 768 núcleos para alto rendimiento y baja potencia respectivamente. Todo lo que necesita es un apartamento, por lo que las tarjetas de baja potencia solo usan un disco. Pero si no quiere instalarse allí, Intel construye GPU para entusiastas de los rascacielos hechas de muchos diales.

Eso es todo lo que necesitas saber sobre la arquitectura Xe para entender lo que está sucediendo, pero si puedes hablar sobre algunos technobabble y números similares, no te saltes este próximo fragmento.

En Gen11, las GPU integradas de Intel tenían un disco compuesto por ocho firmas que a su vez tenían ocho unidades de ejecución cada una. Han rechazado esto levemente para Gen12 (primer gen de Xe) e incluyen unidades de computadora (CU & # 39; s) junto con cambios en el closing del render.

En septiembre, el código se carga aleatoriamente en GitHub configuraciones filtradas de DG1, Ponte Vecchio y una variante DG2. Esta fuga es confiable, ya que su predicción contraintuitiva de que Ponte Vecchio tendrá dos rebanadas fue correcta. Su predicción de que DG1 tendrá seis firmas por Slice y, por lo tanto, 96 UE también fueron más o menos confirmados por una presentación de la CEE dando el mismo número.

La filtración revela que en todos sus modelos Gen12, Intel tiene 16 UE & # 39; Parte del disco, y específicamente en Ponte Vecchio cuatro subdiscos. Skive. Koduri luego reveló que Ponte Vecchio tiene dos rebanadas y dieciséis CU.

Es suficiente información para decir que Ponte Vecchio probablemente funciona así: ocho UE combinados en un CU (64 núcleos) emparejado en un sub-disco (128 núcleos / 16 UE & # 39; s), de los cuales cuatro constituyen un disco (512 núcleos / 64 UE). Con dos discos, esto significa que Ponte Vecchio tiene 128 UE, 1024 núcleos. Tenga en cuenta que la configuración de dos discos solo puede ser para

También se espera que la configuración básica de disco de Ponte Vecchio se use en modelos de alto rendimiento y baja potencia.

DG2: Microarquitectura de alto rendimiento

de alto rendimiento, con nombre en código Discrete Graphics Two (DG2), incluye gama y entusiastas mercados de GPU Estas son las tarjetas que obtienen seguimiento de radiación y brillo RGB, pero lo más emocionante es el potencial de Intel para desafiar el dominio de Nvidia en el rango premium de $ 600 +.

“Xe HP … Sería fácilmente el silicio más grande diseñado en India y se mezclar t los más grandes en todas partes. ”- Raja Koduri

En julio pasado, Intel publicó accidentalmente un controlador (¡gracias!) que contenía tres nombres de código DG2, iDG2HP128 iDG2HP256 y iDG2HP512 . Suponiendo que los tres dígitos al closing indican el número de tarjetas de la UE, tienen 1024, 2048 y 4096 núcleos, respectivamente. Hay dos, cuatro y ocho rebanadas.

No mucho después, sin embargo, vimos evidencia sólida de una GPU de tres discos con 1536 núcleos, que también se desarrolló. Dado que sería ilógico que Intel desarrolle una cuarta tarjeta que sea tan related a los modelos existentes, es seguro asumir que este es un iDG2HP256 con un disco deshabilitado. Esto respalda las sospechas generalizadas de que Intel está tomando los tres modelos básicos y está deshabilitando uno o más discos para agregar cuarto, quinto, sexto o incluso séptimo modelo a su línea.

# de rebanadas 1 2 [19659029] 3 4 5 6 7 8
Recuento de núcleos 768 * [19659031] 1024 1536 2048 2560 [19659029] 3072 3584 4096
Nombre clave iDG1LPDEV iDG2HP128 iDG2HP256 [ ] iDG2HP5 signo, mientras que DG2 tiene cuatro, y por lo tanto la diferencia en número por granos.

DG2 también será más que solo GPU para juegos. No podrán manejar cargas de trabajo científicas como Ponte Vecchio, pero si tienen un buen valor en el lanzamiento, sin duda podrían notarse con controladores profesionales como la edición de video o el {hardware} de modelado 3D, como la tarjeta Quadro de Nvidia.

DG1: Baja potencia

El segmento de baja potencia se outline como eso, de 5W a 50W. 5W a 20W para GPU integradas y 20W a 50W para discreto.

Intel ya nos presentó al primer miembro de la familia LP. El DG1 SDV se mostró de manera destacada en CES 2020 con Future 2 y Warframe con RGB y todo. Pero solo se viste como un naipe. DG1 SDV es una versión recientemente desarrollada diseñada para ayudar con la transición de software program y controladores a la plataforma Xe.

Eso no significa, sin embargo, que no podrás comprar algo bastante related al closing: Intel ya lo ha demostrado funcionando en una computadora portátil.

Se informa que las formas integradas de GPU LP tienen entre 64 y 768 núcleos, mientras que las GPU LP discretas son exclusivamente los 768 núcleos completos. Es un número comparable de núcleos con el mejor {hardware} integrado de AMD y las GPU discretas de gama más baja de Nvidia. Pero donde Xe LP podría superarlos es a velocidades de reloj.

Una Geekbench filtrada desde un procesador móvil Rocket Lake ha mostrado una GPU LP integrada de 768 núcleos que funciona a 1,5 GHz y ha generado 2,Three TFLOPs. Esa es la misma cantidad de rendimiento que una GTX 1650. Incluso suponiendo lo peor que 1.5GHz use el TDP completo de 20W e Intel no podrá impulsar velocidades incluso 1MHz más altas antes del lanzamiento, es impresionante .

Solo think about lo eficiente que debería ser este procesador. El GTX 1650 tiene un poco menos de TFLOP y tiene un TDP de 75 W: casi cuatro veces más. Una GPU LP empujada a 50W aumenta la velocidad del reloj y puede alcanzar el mismo nivel de rendimiento que una GTX 1660.

Pero lo bueno no se detiene allí. Las actualizaciones del kernel de Linux muestran que Intel está planeando una forma de ejecutar gráficos integrados y discretos de manera simultánea y potencialmente conjunta. Si se realiza una panorámica, la fuerza completa de una iGPU se puede combinar con la fuerza de la GPU discreta para crear una combinación de GPU de 1536 núcleos que ahorre espacio y sea rentable. Es una excelente manera de sacar más rendimiento del mismo silicio.

Ponte Vecchio: cómputo de datos

Cuando dije en la introducción que solo la potencia bruta de una GPU period importante, mentí introducción clickbait confirmado . Ese no es el caso para ninguna GPU de centro de datos y especialmente Ponte Vecchio. Ponte Vecchio tiene que ver con los trucos y las técnicas que maximizan la eficiencia.

Dato curioso:
Koduri nombró a Ponte Vecchio en honor al puente en Florencia porque le gusta el helado allí.

Ponte Vecchio fue creado específicamente con la supercomputadora Aurora en mente, lo que debería darle una indicación del tipo de carga de trabajo para el que se optimizará.

Si eso no te da una indicación, lo explicaré: doble precisión. Básicamente es lo primero en la lista para cada GPU de centro de datos, y Koduri pasó gran parte de su tiempo discutiéndolo durante la revelación. Desafortunadamente, el único número en el que lo pondría es Ponte Vecchios por. Rendimiento teórico de la UE FP64, que es ~ 40 veces mayor que el de Gen11.

Hacer algo en la parte posterior de una servilleta matemática, eso es todo. 20 TFLOP & # 39; s a FP64 por Tarjeta de 1024 núcleos. Pero no lo tome como un evangelio porque no hay suficientes números significativos en el cálculo para producir resultados significativos.

En segundo lugar, las cargas de trabajo de alta precisión son, por supuesto, un trabajo de precisión ultrabaja. Ponte Vecchio es appropriate con INT8, BF16 y los habituales FP8 y FP16 para el tratamiento de la crimson neuronal AI. Cada UE está equipada con un motor matricial (como un núcleo Tensor Nvidia) que es 32 veces más rápido que un UE estándar para el procesamiento matricial.

Sin embargo, nada de esto es particularmente nuevo. La verdadera fortaleza de Ponte Vecchio reside en su subsistema de memoria que le permite a la GPU abordar los problemas de nuevas maneras.

Para hacer esto, Ponte Vecchio aprovecha las nuevas e importantes tecnologías de interconexión de Intel, Foveros y EMIB (puente integrado de interconexión de múltiples troqueles). Foveros utiliza vías a través de silicio para apilar múltiples chips encima de una matriz de interposición activa, dándoles velocidades similares a las de los chips pero conectividad sin chips. En comparación, EMIB es un estúpido & # 39; & # 39; conecte dos chips que usan una matriz inactiva pero que ofrecen un ancho de banda alto a un costo menor.

EMIB y Foveros

EMIB se utiliza para conectar el {hardware} de la computadora de la GPU directamente a HBM, obteniendo el espectacular ancho de banda de memoria de Ponte Vecchio. Foveros se usa para conectar las dos CU en un sub-disco a una caché RAMBO de chiplet, la nueva supercaché de Intel. Gracias a Foveros, RAMBO no tiene restricciones en su capacidad o huella, y puede omitir las CU al enviar / recibir datos de HBM u otras firmas.

Tener un caché gigante, y por gigante quiero decir gigante, los gráficos de Intel muestran que un chip RAMBO es del mismo tamaño que un CU, obviamente es realmente costoso, pero desbloquea algunas opciones inteligentes. Por ejemplo, en el procesamiento de redes neuronales, RAMBO puede almacenar matrices de un orden de magnitud mayor que otras cachés de GPU. Otras GPU están perdiendo rendimiento a medida que las matrices crecen y los niveles de precisión aumentan, pero Ponte Vecchio puede mantener el máximo rendimiento.

Ponte Vecchio

La memoria caché RAMBO también proporciona Xe Reminiscence Material, una telaraña de conexiones y tecnologías que agrupa recursos de cada GPU y CPU en un nodo de servidor. El caché RAMBO de cada GPU se combina en un banco al que puede acceder todo, con la conexión más lenta que son las CPU a 63 GB / s sobre PCIe 5.0.

En su reciente Reunión anual de inversores de ingresos, Intel confirmó que Ponte Vecchio comenzará a enviarse durante el cuarto trimestre de 2021. No está claro si se refiere a un lanzamiento completo o un lanzamiento anticipado exclusivo de la supercomputadora Aurora.

Software program

El {hardware} es bueno y todo, pero totalmente inútil sin el soporte de software program adecuado. Y el umbral es bastante alto: si incluso el 1% de los juegos no son compatibles, millones de jugadores están alienados. La buena noticia es que Intel parece estar haciendo su mejor esfuerzo.

Intel rediseña su nivel más bajo de software program, ISA, para aplicaciones modernas de alto rendimiento. «Gen12 está programado para incluir uno de los rediseños más profundos de Intel EU ISA desde el i965 authentic. Es necesario actualizar la codificación de casi cualquier campo de instrucción, código de operación de {hardware} y tipo de registro. »

En el nivel del controlador, Intel tiene un largo camino por recorrer, pero está progresando. Sus controladores de GPU integrados no se actualizan con tanta frecuencia como sus competidores, con un tiempo promedio entre las últimas diez actualizaciones de 26 días para Intel frente a 14 días para Nvidia y 12 días para AMD. Pero su estabilidad y soporte mejoraron enormemente durante 2019, y 275 nuevos títulos fueron optimizados para la arquitectura de Intel.

El software program de respuesta al consumidor de Intel, por otro lado, es excelente. Su recientemente lanzado Graphics Command Heart ofrece un management significativamente mayor que la experiencia GeForce de Nvidia, por ejemplo, y es más fácil de usar. Al igual que GeForce Expertise, puede optimizar juegos para configuraciones de {hardware} específicas, pero también explica qué hace cada configuración y cuánto impacto tendrá en el rendimiento. El management del conductor es agradablemente sencillo.

El Command Heart es único en proporcionar controles de pantalla avanzados también. Ofrece una configuración multipantalla indolora y una frecuencia de actualización y sincronización de rotación junto con opciones completas para ajustar el estilo del colour. Personalmente lo uso para controlar mi sistema, a pesar de ejecutar el {hardware} de Nvidia.

Como beneficio adicional, Intel también admite una frecuencia de actualización variable, por lo que los productos Xe admiten pantallas FreeSync y G-Sync.

Lanzamiento

Mientras Intel es Cuando no estamos un poco claros acerca de lo que anunciarán en GDC en marzo, hay una buena posibilidad de que estemos buscando una divulgación completa. Si es así, podemos esperar un lanzamiento en los próximos meses. El candidato más possible es junio.

En octubre, Koduri tuiteó una pista no tan sutil en forma de una foto de su nueva placa. Se lee «Assume Xe» y tiene una fecha de junio de 2020. Se niega a comentar si la fecha tiene algún significado o no, lo que sugiere que probablemente sí.

Una ventaja de filtrar una cita de esta manera es que le cube a la comunidad qué esperar sin generar tanta emoción que los fanáticos se enojarán si Las GPU llegan en julio. Así que considérelo un objetivo borroso; Intel probablemente lo diga después de un lanzamiento de junio (a tiempo para Computex), pero puede tomar un poco más de tiempo dependiendo de cómo vaya.

Intel sugiere algunas cosas geniales, y seguimos esperando tener un tercer jugador importante en el campo de los gráficos. Pero hasta que no sea hora, no podemos ser más que cautelosamente optimistas.