Los Nehalem, Tolapai y los Larabee

cdbular

Bueno les dejo el articulo de Arstechnica sobre el nehalem. El articulo de realworldtech al que hace referencia es my bueno y detallado.

Debido a que el engine de ejecucion de cada core del nehalem (basicamente el mismo del core 2) es bastante ancho, la mayor parte del tiempo se mantendria sin hacer nada, intel pretende aplicar la misma tecnica que en el P4 (bueno no realmente la misma, pero si mejorada), utilizando SMT .

El mejoramiento del front end con respecto al core 2 parece ser bastante bueno. Agrega algo llamado LSD (loop stream detector) despues de la etapa de decoding. Esto lo que hace es guardar uops decodificadas de los loops, de tal manera que al ejecutar un loop repetidas veces las unidades de fetch se mantengan en idle, ademas de que se ahorra el tiempo de fetch y decodificacion.

Otra mejora reside en la mcrofusion de instrucciones en la cual intel aumenta el numero de instrucciones x86 que pueden ser fusionadas, esto mejora la eficiencia del front end.

Se mejora la eficiencia del predictor de saltos, con la capacidad de guardar mas datos de los historicos de los saltos.

Agrega SSE4.2 que agrega algunas instrucciones de manipilacion de strings, clasica de arquitecturas puramente CISC, y que graciosamente el autor dice que intel las trae "back to the future" jeje.\

Tambien comenta que intel hace un salto grande en l aplataforma server, pero que no es nada novedoso ya que AMD pose el mismo sistema hace anhos.

cdbular

No estoy hablando de copia pero al menos a nivel general la idea es toda de AMD.

Bm4n

Si la organización es muy parecida, intel está siguiendo de cierto modo los pasos de AMD, con algunas diferencias. Claro que la organización no lo es todo, la parte del procesamiento, instrucciones, etc es muy importante que quizás es ahí donde ahora intel ahora saca ventaja (la sacó en el pasado con los M en portatiles, pero no con los netbrust en sobremesa). Aunque sorpresa también con los nuevos bulldozer, SSE5 de parte de AMD, no les veo malas pintas.

La razón por la que comentaba antes que a nivel tecnológico no me parece real decir que AMD es quien inventa y luego Intel copia ni viceversa, es porque a veces hay algo de fenómeno fan con estos temas de marcas. Y luego hay que pensar que tampoco todo es Intel y AMD, ahí esta el hypertransport consortium (con múltiples compañías), nvidia si no me equivoco con algo parecido al crossbar, o los powerpc de ibm con una arquitectura SMP, Via, etc.

"With the advent of Nehalem, Intel makes the giant leap from what is fundamentally still its decades-old monolithic-processor-plus-FSB platform to a fully modern SoC and NUMA (see diagram below) platform." Más claro agua.

A ver si me leo luego el articulo de real world tech.

goxeman

muy interesante todo… de lo poco que me entero

pero se nota que sabeis de lo que hablais...

entonces ahora a nivel campechano... los micros van a dar un gran salto¿?

saludoS!

Bm4n

Intel si que va a dar un salto en ciertos aspectos importantes ya que los core duo son un puente entre tecnologías y AMD ese salto ya lo dio en su día. Pero ya ves que a veces no está 100% relacionado esto con que de un rendimiento mucho mayor, pero bueno si esperamos para el próximo año como mínimo novedades y posiblemente un incremento de rendimiento considerable con respecto a los actuales procesadores tanto por parte de Intel, AMD y seguramente también VIA con sus Nano.

Lo que veo importante, por ejemplo para portátiles el procesador gráfico integrado en el procesador y en sobremesa pues por ejemplo las nuevas instrucciones como SSE5 que entre otras cosas pretenden acelerar los encriptamientos y multimedia.

Eh me ha dejado tieso lo que dice la wikipedia en español sobre SSE5:
"SSE5, una novedosa serie de instrucciones creadas por un profesor especialista en informatica llamado Gironelli, que luego fue comprado por Intel por 4 millones de dolares. Optimiza mucho el rendimiento en word."
Whots?!

De lo que no estoy completamente seguro es que de cara ya al 2010 el software que usamos en casa y los sistemas operativos explote bien procesadores con 4 o incluso 8 núcleos, lo que se le llama thread level parallelism, de forma que se note un aumento muy importante del rendimiento. Siempre el software de PC suele ir algo por detrás…

cdbular

Segun intel el Nehalem proveera un salto en rendimiento superior al que produjo el Core 2 con especto a Netburst. Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros. En la pagina de Extreme reviews tambien se muestra una grafica con la proyeccion de rendimiento con respecto a los opterons.

Tambien una foto del nehalem un Egineering model se ha colado. El de la izquierda es el nehalem, el de la derecha un QX9770.

Fuente: Extreme Reviews

cobito

@cdbular:

Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros.

Pero ¿un Nehalem a 3.2 GHz?

neonet_arg

joder, q interesante cojones!
me alegra q haya gente como vosotros en hardlimit

Bm4n

Rumores y rumores, personalmente no creo que haya tanta diferencia entre nehalem (intel p9? xD) y shanghai (amd k10.5), y como por ahora los datos son de una muestra de intel? filtrada? a sun? de la cual no se indica ni a que velocidad iba? y en comparación con shanghai, ya hay datos de rendimiento real?… da lugar a dudas eh.

ZDnet

No dudo del salto de Intel pero me extrañaría que AMD no tenga también un salto más grande de rendimiento en sus próximos núcleos. Eso si no se para que necesitaremos semejante potencial, actualmente tenemos procesadores más potentes de lo que en realidad usamos, yo a mi procesador solo le saco brillo cuando codifico video o cuando hago encriptaciones…

cdbular

Bueno en este momento lo unico que podemos decir del rendimiento es que sera mejor que los Core2, los datos reales sobre el rendimeinto de el Nehalem solo los conoce intel. Es evidente Nehalem ha recibido unos retoques, y seguramente esto mejorara el rendimiento, pero es imposible hacer una prediccion cuantitativa de cuanto se mejorara, habra que esperar a los benchmarks oficiales.

goxeman

pero hay que tener en ceunta que despues de que intel sacara sus q6600 sacaron la serie 9000 y estos no mejoraban lo que deberian haber mejorado…
yo estoy bastante seguro que eso no pasara lo mismo con los nehalem... que por cierto cual van a ser sus numeros

cdbular

@goxeman:

pero hay que tener en ceunta que despues de que intel sacara sus q6600 sacaron la serie 9000 y estos no mejoraban lo que deberian haber mejorado…
yo estoy bastante seguro que eso no pasara lo mismo con los nehalem... que por cierto cual van a ser sus numeros

Si estoy de acuerdo con que son rumores, pero la diferencia entre los conroe y los penryn reside escencialmente en el cache, en el proceso de fabricacion y nuevas instrucciones SSE4. Agregar toneladas de cache como sabemos no va aumentar el rendimiento significativamente, excepto unas contadas aplicaciones. Nehalem tiene cambios arquitecturales mas profundos que simplemente una modificacion del cache.

Los cambios en nehalem lo que intentan es aprovechar mas la bestia es que la unidad de ejecucion de el Core 2, que aunque no lo creas esta siendo subutilizada en los procesadores actuales, incluso las unidades del K8 que son basicamente las del K7 se subutilizan. Los cambios que introduce el nehalem son un esfuerzo por mejorar el front end , que ha sido el talon de aquiles de los procesadores superescalares, precisamente por las relativamente altas latencias de la RAM, el cache ayuda pero los misses son inevitables. Introducir el controlador de memoria en el nucleo reduce enormemente la latencia con respecto a FSB, como ya hemos visto con el K8, pero evidentemente para aprovechar esta disminucion en las latencias, se requieren mejores algoritmos de cache, y mejorar mucho el front end de tal forma que se pueda mantener un flujo de instrucciones aun mayor, de tal manera que se aprovechen mas los recursos de ejecucion. La tecnicas de predecoding y de branch prediction que se introducen tienden a mejorar esto, SMT es tambien una forma de aprovechar los tiempos "muertos" del nucleo de ejecucion mientra se espera por otras instucciones.

Bm4n

Hombre a mi lo que me extraña del rumor es la pequeña diferencia entre Barcelona y Shanghai en comparación con la gran diferencia entre el X5 y el Nehalem que incluso duplica en punto flotante. Claro viendo esta diferencia y siendo información dudosa pues yo me pregunto que tipo de Nehalem era el de la prueba.

Porque claro si es un Nehalem ya acabado, y de estas características:

Para servidor (que de eso va la gráfica).
Triple canal DDR3 1333.
4 núcleos (con 2 hilos por cabeza, osea 8 en total)
2x QuickPath.
Y quien sabe si incluso a 3,2GHz.
8MB de caché.

Eso es una bestia, también estaremos hablando de un procesador de más de 1000€ y no quiero ver el rendimiento de un Nehalem-EX (8 núcleos (16 hilos), 24 MB L3 o L4, Quad channel FB-DIMM2, 4x QuickPath) porque tiene que ser en dos palabras im-presionante.

Claro que si estos bichos los comparamos con un Shanghai quizás inacabado o de dos núcleos aunque sea el de una muestra actual… es posible que haya más diferencia de la que después pueda haber si se llega a explotar más. Pero bueno espero en serio que AMD no se quede atrás por mantener una competencia y por el bien de la propia AMD, otro tema que suele importar en servidores es el consumo y en eso no se como andará el Nehalem.

De todas formas estamos hablando de procesadores de servidor que aunque los de casa lleven cores parecidos no son lo mismo. Y luego está el mercado de los portátiles que también cambia un poco.

Cdbular llevas razón evidentemente ahora que se avanzan la conexión con los periféricos y memoria hay que aprovechar esto con un buen procesamiento, y un buen multithread seria algo que mejora bastante ese front end. Parece que es ahora el turno de que Intel saque punta a una arquitectura muy eficiente que tenía "escondida", y AMD se fuerce a no quedarse atrás.

goxeman

@Bm4n:

Eso es una bestia, también estaremos hablando de un procesador de más de 1000€ y no quiero ver el rendimiento de un Nehalem-EX (8 núcleos (16 hilos), 24 MB L3 o L4, Quad channel FB-DIMM2, 4x QuickPath) porque tiene que ser en dos palabras im-presionante.

Estoy contigo que es impresionante…

Pero qué usuario se va a gastar 1000€ en un micro si depues empieza a sumarle mas componentes??
Me parece una locura...

XRAYBoY

De todo esto que habéis dicho,solo tengo una duda:

Cuando existen operaciones complicadas y que pueden afectar al rendimiento de un procesador
(cod-descod,gráficos,etc…) y todo el mundo tiende a delegar en otro hardware (gráficas integradas en placas,chipsets con decodificadores...etc)
para que vaya mas fluido el trabajo del procesador...

¿a que demonios viene esto de que el micro (Larabee) se ocupe de los gráficos?
Que beneficio de rendimiento (para nosotros,no para ellos) tiene esto?

Salu2

cdbular

@XRAYBoY:

De todo esto que habéis dicho,solo tengo una duda:

Cuando existen operaciones complicadas y que pueden afectar al rendimiento de un procesador
(cod-descod,gráficos,etc…) y todo el mundo tiende a delegar en otro hardware (gráficas integradas en placas,chipsets con decodificadores...etc)
para que vaya mas fluido el trabajo del procesador...

¿a que demonios viene esto de que el micro (Larabee) se ocupe de los gráficos?
Que beneficio de rendimiento (para nosotros,no para ellos) tiene esto?

Salu2

Las operaciones que se delegan a otro hardware son aquellas que poseen alto nivel de paralelismo. Una CPU es una procesador de proposito general cuyo punto fuerte es la ejecucion de instruciones en secuencia. Las tareas como codificacion y decodificacion de video, y procesamiento de graficos 3D poseen alto nivel de paralelismo y aunque una CPU tenga muchos nucleos y sea muy potente no lograra ejecutarlos rapidamente. Una GPU lo que hace es explotar el nivel de paralismo de estas tareas, en esencia la estructura de una GPU esta compuesta de gran multitud de procesadores en paralelo que pueden completar las tareas mencionadas en una fraccion de CPU time. Si colocas una GPU a ejecutar operaciones con bajo o nulo nivel de paralelismo tardara una eternidad comparado con una CPU, pues ejecutara en unos cuantos de sus procesadores que son muy simples y no tienen la potencia de un core CPU actual. La decodificacion de video en los chipsets proviene del video integrado IGP.

Integrar nucleos de GPU en el chip de la CPU puede tener ciertas ventajas, sobretodo en el mercado mobile, se ahorraria un monton en potencia, ademas seria mas barato y mas eficiente que integralo en el chipset. El beneficio en rendimiento en cuanto a graficos discreto es obviamente nulo, pues una tarjeta grafica va a ser siempre mas potente, porque se puede utilizar una GPU mas potente afuera y la memoria es dedicada y mucho mas rapida.

Lo que veo es que se quiere crear un procesador hibrido aprovechando el nivel de integracion que se puede lograr, de tal manera que la CPU no dependa de procesadores externos para completar tareas con alto nivel de paralelismo, evidentemente esto puede alcanzar un mayor rendimiento que iun IGP y los ahorros de enrgia y espacio serian bastante buenos.

XRAYBoY

@cdbular:

Integrar nucleos de GPU en el chip de la CPU puede tener ciertas ventajas, sobretodo en el mercado mobile, se ahorraria un monton en potencia, ademas seria mas barato y mas eficiente que integralo en el chipset. El beneficio en rendimiento en cuanto a graficos discreto es obviamente nulo, pues una tarjeta grafica va a ser siempre mas potente, porque se puede utilizar una GPU mas potente afuera y la memoria es dedicada y mucho mas rapida.

Me lo temía.Potencia(no comparable con ningún otro,claro),barato(en producción) y eficiente(¿presumir de mas vida en batería?)…Ventajas para ellos.
Eficiencia es un VIA Nano y lo demás tonterías.
@cdbular:

Lo que veo es que se quiere crear un procesador hibrido aprovechando el nivel de integracion que se puede lograr, de tal manera que la CPU no dependa de procesadores externos para completar tareas con alto nivel de paralelismo, evidentemente esto puede alcanzar un mayor rendimiento que iun IGP y los ahorros de enrgia y espacio serian bastante buenos.

Y esto ultimo,no creo que le haga gracia a Nvidia.(A no ser que sean absorbidos)
El espacio,en un mobile,sigue siendo ventaja para ellos y en cuanto al ahorro de energía,
todos preferimos gastar mas Watts y tener mejor rendimiento.

Aunque pudieran llegar a integrar toda la potencia de un GMA X3100 :resaca:

Gracias por la Info.
Salu2

cdbular

@XRAYBoY:

Me lo temía.Potencia(no comparable con ningún otro,claro),barato(en producción) y eficiente(¿presumir de mas vida en batería?)…Ventajas para ellos.
Eficiencia es un VIA Nano y lo demás tonterías.

Y esto ultimo,no creo que le haga gracia a Nvidia.(A no ser que sean absorbidos)
El espacio,en un mobile,sigue siendo ventaja para ellos y en cuanto al ahorro de energía,
todos preferimos gastar mas Watts y tener mejor rendimiento.

Aunque pudieran llegar a integrar toda la potencia de un GMA X3100 :resaca:

Gracias por la Info.
Salu2

El ahorro de potencia siempre es un beneficio patra el ususario sobretodo si hablamos de aplciaciones mobiles.
El costo es evidentemente benefico para el usuario, al bajar costo de produccion baja el precio del producto final.
Y por ultimo nVidia no tendria por que preocuparse demasiado por esta integracion CPU/GPU. Esto solo afectaria un poco sus plataformas de video integrado y very low end. Las graficas mas potentes van a seguir siendo discretas.

Bm4n

@XRAYBoY:

Me lo temía.Potencia(no comparable con ningún otro,claro),barato(en producción) y eficiente(¿presumir de mas vida en batería?)…Ventajas para ellos.
Eficiencia es un VIA Nano y lo demás tonterías.

Y esto ultimo,no creo que le haga gracia a Nvidia.(A no ser que sean absorbidos)
El espacio,en un mobile,sigue siendo ventaja para ellos y en cuanto al ahorro de energía,
todos preferimos gastar mas Watts y tener mejor rendimiento.

El tema es mejorar la potencia que tienen ahora en sus chipsets con gráficos integrados no competir con las tarjetas gráficas porque como ya se comento un CPU y un GPU tienen arquitecturas bastante diferentes, el consumo del procesador con gráficos integrados si aumenta un poco pero en conjunto (CPU + chipset) me supongo que será muy parecido.

El VIA Nano es otro mercado, umpc y ultraportatil; competirá con el Atom y el Geode y sorpresa Nvidia: Nvidia Tegra All-in-One Mobile Processors Aim to Nuke Intel's Atom, Promise 30 Hours HD Playback.

Yo estaría muy atento a Nvidia los próximos años, le veo los tintes de intentarse hacer un hueco en el mundo de los CPUs. Evidentemente estas tecnologías tampoco les preocupan mucho, por el momento… ya que no son competidores para sus tarjetas gráficas.

El consumo es muuuy importante, tanto que hay múltiples gamas de CPUs con diferentes consumos para diferentes tamaños de portatiles, ultraportatiles y umpc según la batería que tengan. Tienes C2D a 15W, y tendrás Atom a 3 o 4W, en estos lo primordial es el consumo. Evidentemente en sobremesa todavía no se ha puesto de moda el ecologismo

XRAYBoY

@cdbular:

El ahorro de potencia siempre es un beneficio patra el ususario sobretodo si hablamos de aplciaciones mobiles.
El costo es evidentemente benefico para el usuario, al bajar costo de produccion baja el precio del producto final.
Y por ultimo nVidia no tendria por que preocuparse demasiado por esta integracion CPU/GPU. Esto solo afectaria un poco sus plataformas de video integrado y very low end. Las graficas mas potentes van a seguir siendo discretas.

Si bien es cierto que las primeras revisiones serán discretas,no espero una reducción del coste para el usuario,al menos en el primer año o mas.
(No van a vender un producto innovador,que vale casi por 2,arrasando [one more time] a la competencia y a menor precio).

Habría que ver que porcentaje pierde Nvidia para preocuparse o no (probablemente venderán 10 veces mas hardware low-end e integrados a ensambladores que tarjetas Hi-Tech)

De cualquier modo,solo son puntos de vista diferentes sobre hipótesis del futuro…
Y debo añadir que me congratularía sobremanera estar equivocado.

Salu2

Los Nehalem, Tolapai y los Larabee

Foreros conectados [Conectados hoy]

Estadísticas de Hardlimit