Teaser tráiler de Crysis 3Hace unos días, llegaban unas primeras imágenes y noticias sobre Crysis 3. Ahora llega un teaser tráiler de unos 15 segundos, donde además se muestra que para el 24 de Abril saldrá un tráiler del gameplay.
NVIDIA: It's ComingHace tres días, Nvidia, en su pagina de GeForce de Facebook, colgó una imagen con una supuesta GPU en la umbra y las palabras: It's Coming (esta llegando, ya viene). Se ha especulado con que sea una GTX con núcleos dos GK104 en un mismo PCB o un núcleo totalmente nuevo, el GK100 (o 110). Sin embargo el posteo de la programación de la GTC2012 que tendrá lugar entre el 14 y 17 de Mayo, en la sesión S0642 – Inside Kepler, que tendrá lugar el miércoles 16 de mayo, se describe que se presentara una GPU de la serie Tesla con 7 mil millones de transistores, por lo que es probable que a pesar de que sea de la serie Tesla (para computación, no gráficos) tenga relación, puesto que todos los ASICs tienen relación entre ellos.
Pero GTX 680 (GK104) acaso no era el ASIC de la serie 600 más poderoso? Pues no.
Arquitectura de la GTX 680 (Kepler; GK104) Para avanzados:La arquitectura Kepler es el sucesor natural de la variante Fermi GF104/GF114, una variante que se focaliza más en gráficos que en computación, es decir, para gamers.
A alto nivel, un núcleo de Kepler (a los que nVidia llama SMXs), es significativamente más grande que los de GF104/GF114 (llamados por nVidia SMs). Cada núcleo de Kepler puede ejecutar 192 FMAs (Fused Multiply-Adds) de precisión simple por ciclo vs los 48 de GF104. GK104 equipa 8 de estos núcleos.
Núcleo (SM) de GF104/114 “Fermi”
-32 unidades CUDA, repartidas entre 2 pipelines
-16 unidades CUDA con capacidad FP64 (precisión doble)
-16 Unidades Load/Store
-16 Unidades de funciones especiales de Interpolación
-16 Unidades de funciones especiales (sin, cos, exp, tan…)
-8 Unidades de textura
Núcleo (SMX) de GK104 “Kepler”
-192 unidades CUDA, repartidas entre 6 pipelines
-8 unidades CUDA con capacidad FP64 (precisión doble)
-32 Unidades load/store, repartidas entre 2 pipelines
-32 Unidades de funciones especiales de interpolación, repartidas entre 2 pipelines
-32 Unidades de funciones especiales, repartidas entre 2 pipelines
-16 unidades de textura, repartidas entre 2 pipelines
En el aspecto de la jerarquía de memoria GK104 decrementa la capacidad de la cache y la memoria compartida en un 25 % sin embargo la capacidad de los bancos de registros se incrementa en un 50 % por lo que compensa en cuanto a balance para gráficos.
Otro cambio importante en lo que ha memoria se refiere, es en el ancho de banda de la memoria compartida y la cache de datos en que decrementa a 0.33B/FLOP con accesos de 32 bits, la mitad de GF104, pero hasta 3 veces inferior que GF100/GF110. Pero porque hacer esto, porque hacer un downgrade respecto a la generación anterior? La respuesta, un producto enfocado a gráficos, no computación.
En generaciones anteriores, nVidia usaba el mismo ASIC tanto para computación como para gráficos, sin embargo, actualmente no se puede optimizar para ambos a la vez, si intentas optimizar para uno, pierdes para el otro. Por ejemplo cuando se procesan gráficos, las tareas gráficas, están diseñadas para trabajar como largos pedazos de datos independientes, sean datos de pixeles o vértices, no se requiere de una comunicación intensiva entre cada SMX y casi todos los datos permanecen en los bancos de registros privados de cada SMX, sin embargo para las cargas de trabajo de propósito general (tareas científicas o de ingeniería) se basan en el comparto de datos. Por lo tanto, si para los gráficos, no es tan importante ese comparto de datos, reducimos el ancho de banda y ahorramos complejidad en el chip y por tanto valioso espacio en el silicio. Nvidia comenzó a divergir sus productos en dos líneas desde la segunda generación de Fermi los variantes de GF104/114 para gráficos y los variantes de GF100/110 para multipropósito: gráficos y computación, focalizando más en este último.
Otro cambio arquitectural que beneficia a gráficos es el scheduling (repartir y organizar las instrucciones a lo largo de todos los SMXs del chip). El compilador JIT (Just in Time) en los drivers, es ahora el encargado del scheduling de las instrucciones que se pueden ejecutar sin ninguna dependencia en los registros. En Fermi, el scheduling y el análisis de si las instrucciones contienen dependencias, es decir que no puedas adelantar la ejecución de una operación, porque necesitas el resultado de otra antes (C=B+A seguido de B=D*E, por ejemplo), se realizaba por hardware y ahora en GK104 se realiza por software, por lo que consigues eliminar una importante parte de lógica de control y por tanto volviendo a eliminar complejidad y espacio en el silicio sin perder mucha ventaja puesto que las cargas gráficas son más predictivas que las de computación y por tanto fáciles de compilar. GK104 aun así, sigue utilizando algoritmos de marcador (scoreboarding) para las instrucciones con mayor latencia como por ejemplo los accesos a memoria.
Otro gran cambio y que a muchos a sorprendido es el clocking en Kepler. Desde G80, nVidia a usado un diseño de dos dominios de clock en el chip. Estaba el “graphics clock” que gestionaba el hardware de función fija como los ROPs, la cache L2, schedulers o unidades de textura que se movía entre los 600 y 800 MHz y después el “hot clock” que gestionaba los núcleos (unidades CUDA, unidades load/store y unidades de funciones especiales) y que funcionaba al doble de la frecuencia del “graphics clock” es decir si el “graphics clock” era de 800 MHz el “hot clock” en los SMs era de 1600 MHz.
En Kepler se elimina el “hot clock” y se mueve a un solo dominio de clocking para todo el GPU. Reducir la frecuencia, directamente reduce la energía necesaria para el alto clocking de todos esos elementos y de la lógica que antes era necesaria para sincronizar los diferentes elementos, que antes funcionaban a diferentes frecuencias, además al no existir ahora frecuencias tan altas, también permite que la GPU se manufacture enteramente con transistores más eficientes, densos y con menos leakage (corrientes de fuga). Algún día comentare sobre los procesos de manufactura en la industria del semiconductor.
Con toda la lógica simplificada, eliminada y el paso de proceso de manufactura de 40 a 28 nm cada núcleo de GK104 puede contener más unidades de ejecución y así compensar la pérdida del “hot clock” en GK104 se cuadruplica la cantidad de shaders (de 512 a 1536) respecto a GF110. No solo eso, si no que ahora tiene 4 “warp schedulers” en vez de 2 capaces de enviar 2 instrucciones por ciclo cada uno y el banco de registros se ha doblado de 32K entradas a 64K entradas.
Sin embargo, que tenga 4 veces más hardware de ejecución, no significa que se cuadruplique el rendimiento vs. la anterior generación, recuerden que hemos perdido el hot clock, puesto que la mitad de esas unidades sirven para compensar la pérdida del hot clock. Por lo que sería más correcto, que tan solo se ha doblado el hardware de ejecución en cada SMX.
El GK104 "Kepler"
-1536 shaders o unidades CUDA
-128 unidades de textura
-32 ROPs
-4 Motores de Rasterización
-8 Polymorph Engines
-Frecuencia base de 1006MHz
-Frecuencia efectiva de memoria de 6008 MHz GDDR5
-Bus de memoria de 256 bits
-Frame buffer de 2GB
-TDP de 195W
-3.540M de transistores a 28nm manufacturado por TSMC
Otro innovación, es que Kepler es la primera GPU de nVidia en incluir escalado dinámico de voltaje y frecuencia (DVFS), aproximaciones similares a las CPUs Sandy Bridge de Intel y Llano de AMD. El consumo de la GPU es medido directamente por los VRMs del PCB de la GPU, el driver es el responsable de seleccionar la frecuencia y el voltaje, basándose en el consumo y la temperatura como parámetros limite que pueden ser modificados por el usuario.
La frecuencia base de la GTX 680 es de 1006 MHz. Con DVFS puede incrementar la frecuencia base en incrementos de 13 MHz hasta 1110 MHz.
En cuanto a mejoras específicas para gráficos, podemos encontrar que los Polymorph Engine (unidades encargadas principalmente de la geometría y el teselado) se han mantenido a 1 por cada SMX, aún habiendo cuadruplicado el hardware de ejecución, sin embargo, este Polymorph Engine es mejorado respecto al de la versión de Fermi y ahora puede procesar los polígonos en la mitad de tiempo. La cantidad de motores de rasterización también se han doblado respecto a la generación anterior. Los ROPs (Raster Operation Units) se mantienen en el mismo número, sin embargo se ha mejorado ligeramente su eficiencia en compresión y combinación de polígonos. Estos ROPs permiten un ancho de bus de memoria de 256 bits y una cache L2 de 512KB.
El controlador de memoria de Kepler puede funcionar a un 50 % más de velocidad.
En cuanto a rendimiento en gráficos logra situarse muy cerca de la solución de mayor potencia single GPU de AMD de la serie 7000, y en muchos casos superandola.
Sin embargo en computación pierde mucho, situándose incluso por debajo de la solución de nVidia de la generación pasada, la GTX 580.
Y por ultimo en consumo y temperaturas, también logra posicionarse muy bien entre su predecesor y sus competidores.
En definitiva nVidia, a construido una arquitectura extremadamente eficiente y que elimina muchos de los errores de Fermi, con lo cual podría decirse que en esta generación ha ganado en muchos aspectos.
Se lanza el primer Smartphone basado en x86Este día 23 de Abril, se lanzara el primer Smartphone al mercado con chips de arquitectura x86 (la misma que los PCs y Macs actuales) por el manufacturador Lava International de origen en India, el Xolo X900 por un precio de 422$/320€.
Este Smartphone es diferente a los demás, en que utilizara una CPU con arquitectura x86 mientras que el resto de smartphones actuales usan la arquitectura ARM, diseñada específicamente para sistemas embutidos y móviles.
Estará basado en el SoC Intel Atom Z2460 basado en la nueva plataforma móvil Medfield de Intel. La arquitectura de la CPU, es prácticamente la misma que podemos encontrar en notebooks de 11” y recientemente en tablets con algunas mejoras al ser el sucesor a 32nm de los Intel Atom a 45nm.
El núcleo, con nombre en clave Saltwell, es prácticamente idéntico al núcleo Bonnell de la generación a 45nm, sin embargo se han mejorado algunos aspectos.
El predictor de saltos es del tipo GShare, se ha doblado la cantidad de entradas a 8K.
El buffer de instrucciones post-fetch a sido aumentado para actuar como una cache de bucles, eliminando repeticiones de “fetchings”. Se han levantado algunas limitaciones de combinación de instrucciones en enteros y se han acelerado las rutinas en el micro código para una copia a memoria más veloz. Se han mejorado algunas características de manejo de energía y se ha movido el rail de alimentación de la cache L2 a un plano independiente para consumir menos.
El núcleo funciona a 1.6 GHz, tiene un nucleo grafico PowerVR de Imagination Technologies a 400MHz con soporte para OpenGL ES 2.0, Openg GL 2.1, OpenVG 1.1, aceleración por hardware para video de alta definición a 1080p y un controlador de memoria de 32 bits LPDDR2 con soporte hasta 1 GB de RAM.
El SoC soporta redes 3G/HSPA+ mediante el procesador de comunicaciones Intel XMM 6260 y el diseño de referencia del Smartphone tiene una pantalla de 4.03”, cámara de 8MP y usa el sistema operativo Google Android 4.0 Ice Cream Sandwich. Intel declara que la autonomía de la batería es de 360 horas en Standby, 8 horas de video a 720p, 7 horas de navegación web y otras 7 de llamada por voz. Se espera que en los siguientes meses los fabricantes Motorola Mobility/Google y el grupo Lenovo presente sus smartphones basados en Medfield. Por ahora puede ser la CPU con mayor rendimiento para Smartphones, sin embargo cuando se lancen plataformas basadas en ARM Cortex A15 y en Qualcomm Snapdragon con núcleos ARM Krait, se vera superado en rendimiento, sin embargo seguirá siendo una muy buena alternativa puesto que el consumo esta al nivel de las ofertas de ARM.
Puede ser una muy buena entrada a este mercado para Intel, puesto que la anterior versión a 45nm para móviles (Moorestown) no tuvo mucho éxito por ofrecer aún un consumo excesivo, sin embargo puesto que es un mercado al que Intel acaba de entrar aún le queda mucho trabajo por hacer, donde por ejemplo Qualcomm o Samsung les llevan muchos años de experiencia.
Globalfoundries pasa a ser socio de manufactura para QualcommHace unos días, se decía que Qualcomm estaba buscando 2 socios más para la manufactura de sus SoC Snapdragon para dispositivos móviles debido a que TSMC con sus problemas con el nodo de 28nm no podía suplir la demanda de Qualcomm.
Pues se confirma que GlobalFoundries (costilla de manufactura de AMD que se convirtió en foundry independiente en 2009) viene a ser una de esas. GlobalFoundries ahora fabricara la mayor parte de los SoCs Snapdragon, mientras que de momento TSMC quedara relegada a segundo manufacturador. Ahora falta saber cuál es el otro socio, que podría ser Samsung o UMC.