Los Nehalem, Tolapai y los Larabee

goxeman

yo voy a ser sincero… los graficos casi no los entiendo...

preferiria que alguien que los entendiera fuera capaz de comentarlos... con diferencias y tal y diceindo los pros y los contras y asi muchos mas podriamos opinar...

gracias!

Obione

Stream's, drivers, memos, CPU , programación en juegos… como para ponerse a explicar :risitas:

Para la gente mundana lo suyo es coger la gráfica y a testear

Bm4n

@goxeman:

yo voy a ser sincero… los graficos casi no los entiendo...

No te preocupes, yo tampoco :risitas:

Lo que yo veo en el del K8.

Por cada núcleo tienes en gris las dos partes que forman la memoria caché de primer nivel una para instrucciones (que estaría a la entrada antes de que pase por los descodificadores y llegue a las unidades aritmético lógicas, generadores de dirección, etc) y otra para los datos (ya a la salida, procesados). Luego tendrás un cache de segundo nivel uno por núcleo que lo tienes arriba a la izquierda y que estarán comunicados con los chachés de primer nivel y con el crossbar y la cola de peticiones.

Lo que está en naranja fuerte serian los contadores y los tiempos que controlan como van entrando las instrucciones para que se procesen. Y el resto es parte interna que hace el proceso en el nucleo.

Este ya no es parte del lo que seria algún núcleo, el crossbar que se encarga de dividir las tareas y hacer que se trabaje en una sola tarea en paralelo o que cada nucleo se ocupe de una tarea independientemente y estará junto al controlador de memoria y el hypertransport que controla las salidas y entradas al resto de componentes y substituye al antiguo bus frontal.

Solo con esto, que no es un gráfico completo no sacas tampoco gran cosa, pero le ves un poco la forma. Un gran bus que conectaría, si mal no entiendo, los núcleos mediante sus respectivos caches que es por donde el cross bar distrubuye el trabajo ademas tienes integrado aunque fuera del die de los core tanto eso como el controlador de memoria y el Hypertransport.

En el Nehalem vemos algo un poco distinto aunque con similitudes, por ejemplo fuera de la parte de los nucleos tenemos esa parte con el QuickPath que seria algo parecido al Hypertransport y el controlador de memoria y una cache de tercer nivel.

Esta cache comunicaría con la cache de segundo nivel (en verde) una por núcleo, y sus respectivos caches de primer nivel (rosa) y descodificadores de instrucciones llegando ya a la parte del proceso del núcleo.

Esto es un poco lo que veo, pero ya te digo que puedo estar completamente equivocado porque no soy ni mucho menos un experto, así que no te fies de mi. Por ultimo los core 2 duo actuales imagino que son la parte del núcleo con sus caches, dos en los C2D, sin comunicación entre núcleos ni las partes de controlador de memoria ni QuickPath.

Pero como decía esto sirve para hacerse una idea muuuy general de como es.

cdbular

Para no ser un experto lo explicaste muy bien. Tengo una pequenas correcion

Los bloques naranjas del K8 hacen parte del predictor de saltos.

En cuanto al nehalen vemos los nucleos son esencialmente iguales a los del Core 2 Duo, la diferencia esta en que ahora se agrega una cache L3 compartido y un cache L2 independiente para cada core, igual que el Penom.

Bm4n

@cdbular:

Los bloques naranjas del K8 hacen parte del predictor de saltos.

Aha, y formaría parte del pipeline? Vale me autorrespondo, están relacionados pero son cosas independientes como se refleja en el gráfico de antes; interesante la eficiencia del predictor de salto. Y en el mismo bloque del gráfico también esta el secuenciador que comentaba yo, no?

Más me gustaria saber pero por ahora mis estudios de electrónica son demasiado generales xD

@cdbular:

En cuanto al nehalen vemos los nucleos son esencialmente iguales a los del Core 2 Duo, la diferencia esta en que ahora se agrega una cache L3 compartido y un cache L2 independiente para cada core, igual que el Penom.

A ver si me resuelves otra duda, porque lo que entiendo es que por ahora los core duo a nivel físico hacen trabajar independientemente a cada núcleo mientras que los X2 con el crossbar swith hacen un verdadero multiprocesamiento simetrico. Puede ser que en el diseño del Nehalem se haga algo parecido teniendo esa caché de tercer nivel comprartida por los diferentes núcleos?

cdbular

@Bm4n:

Aha, y formaría parte del pipeline? Vale me autorrespondo, están relacionados pero son cosas independientes como se refleja en el gráfico de antes; interesante la eficiencia del predictor de salto. Y en el mismo bloque del gráfico también esta el secuenciador que comentaba yo, no?

Más me gustaria saber pero por ahora mis estudios de electrónica son demasiado generales xD

A ver si me resuelves otra duda, porque lo que entiendo es que por ahora los core duo a nivel físico hacen trabajar independientemente a cada núcleo mientras que los X2 con el crossbar swith hacen un verdadero multiprocesamiento simetrico. Puede ser que en el diseño del Nehalem se haga algo parecido teniendo esa caché de tercer nivel comprartida por los diferentes núcleos?

A tu primera pregunta, la respuesta es no, las secuencias en el pipeline son controladas por una unidad de control microprogramada, la cual no se muestra en el diagrama de bloques.

En cuanto a tu segunda duda no entiendo la pregunta. Ambos procesadores hacen verdadero multiprocesamiento simetrico. El core 2 duo se comunica internamente mediante la cache de segundo nivel compartida, los X2 utilizan el crossbar porque las L2 son independientes. Ahora si hablamos de los core 2 quad que basicamente son 2 core 2 duo pegados que se comunican mediante el FSB eso es otra cosa, la diferencia con los phenom al igual que con el nehalem es que comparten un cache de tercer nivel, aunque los phenom aun conservan el crossbar.

Bm4n

Ya, el crossbar lo optimiza (y hace de puente) por decirlo de alguna manera cosa que no pasa con los intel por ahora pero el funcionamiento es el mismo, core unido por L2 y nehalem por L3. Otro cantar son los cuad core actuales como dices.

Y el bloque naranja entero es el predictor de saltos, no se muestra como en el gráfico del nehalem el secuenciador por ninguna parte. No se porque me dio por pensar que era eso, al leer lo del counter me imaginé que estaba relacionado.

Gracias por la ayuda

PD. Edito y borro, que ya encontré la info que buscaba sobre el pipeline del Nehalem. Son 16 etapas y no 14 como su predecesor, cambia la cosa.

cdbular

Bueno les dejo el articulo de Arstechnica sobre el nehalem. El articulo de realworldtech al que hace referencia es my bueno y detallado.

Debido a que el engine de ejecucion de cada core del nehalem (basicamente el mismo del core 2) es bastante ancho, la mayor parte del tiempo se mantendria sin hacer nada, intel pretende aplicar la misma tecnica que en el P4 (bueno no realmente la misma, pero si mejorada), utilizando SMT .

El mejoramiento del front end con respecto al core 2 parece ser bastante bueno. Agrega algo llamado LSD (loop stream detector) despues de la etapa de decoding. Esto lo que hace es guardar uops decodificadas de los loops, de tal manera que al ejecutar un loop repetidas veces las unidades de fetch se mantengan en idle, ademas de que se ahorra el tiempo de fetch y decodificacion.

Otra mejora reside en la mcrofusion de instrucciones en la cual intel aumenta el numero de instrucciones x86 que pueden ser fusionadas, esto mejora la eficiencia del front end.

Se mejora la eficiencia del predictor de saltos, con la capacidad de guardar mas datos de los historicos de los saltos.

Agrega SSE4.2 que agrega algunas instrucciones de manipilacion de strings, clasica de arquitecturas puramente CISC, y que graciosamente el autor dice que intel las trae "back to the future" jeje.\

Tambien comenta que intel hace un salto grande en l aplataforma server, pero que no es nada novedoso ya que AMD pose el mismo sistema hace anhos.

cdbular

No estoy hablando de copia pero al menos a nivel general la idea es toda de AMD.

Bm4n

Si la organización es muy parecida, intel está siguiendo de cierto modo los pasos de AMD, con algunas diferencias. Claro que la organización no lo es todo, la parte del procesamiento, instrucciones, etc es muy importante que quizás es ahí donde ahora intel ahora saca ventaja (la sacó en el pasado con los M en portatiles, pero no con los netbrust en sobremesa). Aunque sorpresa también con los nuevos bulldozer, SSE5 de parte de AMD, no les veo malas pintas.

La razón por la que comentaba antes que a nivel tecnológico no me parece real decir que AMD es quien inventa y luego Intel copia ni viceversa, es porque a veces hay algo de fenómeno fan con estos temas de marcas. Y luego hay que pensar que tampoco todo es Intel y AMD, ahí esta el hypertransport consortium (con múltiples compañías), nvidia si no me equivoco con algo parecido al crossbar, o los powerpc de ibm con una arquitectura SMP, Via, etc.

"With the advent of Nehalem, Intel makes the giant leap from what is fundamentally still its decades-old monolithic-processor-plus-FSB platform to a fully modern SoC and NUMA (see diagram below) platform." Más claro agua.

A ver si me leo luego el articulo de real world tech.

goxeman

muy interesante todo… de lo poco que me entero

pero se nota que sabeis de lo que hablais...

entonces ahora a nivel campechano... los micros van a dar un gran salto¿?

saludoS!

Bm4n

Intel si que va a dar un salto en ciertos aspectos importantes ya que los core duo son un puente entre tecnologías y AMD ese salto ya lo dio en su día. Pero ya ves que a veces no está 100% relacionado esto con que de un rendimiento mucho mayor, pero bueno si esperamos para el próximo año como mínimo novedades y posiblemente un incremento de rendimiento considerable con respecto a los actuales procesadores tanto por parte de Intel, AMD y seguramente también VIA con sus Nano.

Lo que veo importante, por ejemplo para portátiles el procesador gráfico integrado en el procesador y en sobremesa pues por ejemplo las nuevas instrucciones como SSE5 que entre otras cosas pretenden acelerar los encriptamientos y multimedia.

Eh me ha dejado tieso lo que dice la wikipedia en español sobre SSE5:
"SSE5, una novedosa serie de instrucciones creadas por un profesor especialista en informatica llamado Gironelli, que luego fue comprado por Intel por 4 millones de dolares. Optimiza mucho el rendimiento en word."
Whots?!

De lo que no estoy completamente seguro es que de cara ya al 2010 el software que usamos en casa y los sistemas operativos explote bien procesadores con 4 o incluso 8 núcleos, lo que se le llama thread level parallelism, de forma que se note un aumento muy importante del rendimiento. Siempre el software de PC suele ir algo por detrás…

cdbular

Segun intel el Nehalem proveera un salto en rendimiento superior al que produjo el Core 2 con especto a Netburst. Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros. En la pagina de Extreme reviews tambien se muestra una grafica con la proyeccion de rendimiento con respecto a los opterons.

Tambien una foto del nehalem un Egineering model se ha colado. El de la izquierda es el nehalem, el de la derecha un QX9770.

Fuente: Extreme Reviews

cobito

@cdbular:

Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros.

Pero ¿un Nehalem a 3.2 GHz?

neonet_arg

joder, q interesante cojones!
me alegra q haya gente como vosotros en hardlimit

Bm4n

Rumores y rumores, personalmente no creo que haya tanta diferencia entre nehalem (intel p9? xD) y shanghai (amd k10.5), y como por ahora los datos son de una muestra de intel? filtrada? a sun? de la cual no se indica ni a que velocidad iba? y en comparación con shanghai, ya hay datos de rendimiento real?… da lugar a dudas eh.

ZDnet

No dudo del salto de Intel pero me extrañaría que AMD no tenga también un salto más grande de rendimiento en sus próximos núcleos. Eso si no se para que necesitaremos semejante potencial, actualmente tenemos procesadores más potentes de lo que en realidad usamos, yo a mi procesador solo le saco brillo cuando codifico video o cuando hago encriptaciones…

cdbular

Bueno en este momento lo unico que podemos decir del rendimiento es que sera mejor que los Core2, los datos reales sobre el rendimeinto de el Nehalem solo los conoce intel. Es evidente Nehalem ha recibido unos retoques, y seguramente esto mejorara el rendimiento, pero es imposible hacer una prediccion cuantitativa de cuanto se mejorara, habra que esperar a los benchmarks oficiales.

goxeman

pero hay que tener en ceunta que despues de que intel sacara sus q6600 sacaron la serie 9000 y estos no mejoraban lo que deberian haber mejorado…
yo estoy bastante seguro que eso no pasara lo mismo con los nehalem... que por cierto cual van a ser sus numeros

cdbular

@goxeman:

pero hay que tener en ceunta que despues de que intel sacara sus q6600 sacaron la serie 9000 y estos no mejoraban lo que deberian haber mejorado…
yo estoy bastante seguro que eso no pasara lo mismo con los nehalem... que por cierto cual van a ser sus numeros

Si estoy de acuerdo con que son rumores, pero la diferencia entre los conroe y los penryn reside escencialmente en el cache, en el proceso de fabricacion y nuevas instrucciones SSE4. Agregar toneladas de cache como sabemos no va aumentar el rendimiento significativamente, excepto unas contadas aplicaciones. Nehalem tiene cambios arquitecturales mas profundos que simplemente una modificacion del cache.

Los cambios en nehalem lo que intentan es aprovechar mas la bestia es que la unidad de ejecucion de el Core 2, que aunque no lo creas esta siendo subutilizada en los procesadores actuales, incluso las unidades del K8 que son basicamente las del K7 se subutilizan. Los cambios que introduce el nehalem son un esfuerzo por mejorar el front end , que ha sido el talon de aquiles de los procesadores superescalares, precisamente por las relativamente altas latencias de la RAM, el cache ayuda pero los misses son inevitables. Introducir el controlador de memoria en el nucleo reduce enormemente la latencia con respecto a FSB, como ya hemos visto con el K8, pero evidentemente para aprovechar esta disminucion en las latencias, se requieren mejores algoritmos de cache, y mejorar mucho el front end de tal forma que se pueda mantener un flujo de instrucciones aun mayor, de tal manera que se aprovechen mas los recursos de ejecucion. La tecnicas de predecoding y de branch prediction que se introducen tienden a mejorar esto, SMT es tambien una forma de aprovechar los tiempos "muertos" del nucleo de ejecucion mientra se espera por otras instucciones.

Bm4n

Hombre a mi lo que me extraña del rumor es la pequeña diferencia entre Barcelona y Shanghai en comparación con la gran diferencia entre el X5 y el Nehalem que incluso duplica en punto flotante. Claro viendo esta diferencia y siendo información dudosa pues yo me pregunto que tipo de Nehalem era el de la prueba.

Porque claro si es un Nehalem ya acabado, y de estas características:

Para servidor (que de eso va la gráfica).
Triple canal DDR3 1333.
4 núcleos (con 2 hilos por cabeza, osea 8 en total)
2x QuickPath.
Y quien sabe si incluso a 3,2GHz.
8MB de caché.

Eso es una bestia, también estaremos hablando de un procesador de más de 1000€ y no quiero ver el rendimiento de un Nehalem-EX (8 núcleos (16 hilos), 24 MB L3 o L4, Quad channel FB-DIMM2, 4x QuickPath) porque tiene que ser en dos palabras im-presionante.

Claro que si estos bichos los comparamos con un Shanghai quizás inacabado o de dos núcleos aunque sea el de una muestra actual… es posible que haya más diferencia de la que después pueda haber si se llega a explotar más. Pero bueno espero en serio que AMD no se quede atrás por mantener una competencia y por el bien de la propia AMD, otro tema que suele importar en servidores es el consumo y en eso no se como andará el Nehalem.

De todas formas estamos hablando de procesadores de servidor que aunque los de casa lleven cores parecidos no son lo mismo. Y luego está el mercado de los portátiles que también cambia un poco.

Cdbular llevas razón evidentemente ahora que se avanzan la conexión con los periféricos y memoria hay que aprovechar esto con un buen procesamiento, y un buen multithread seria algo que mejora bastante ese front end. Parece que es ahora el turno de que Intel saque punta a una arquitectura muy eficiente que tenía "escondida", y AMD se fuerce a no quedarse atrás.

Los Nehalem, Tolapai y los Larabee

Foreros conectados [Conectados hoy]

Estadísticas de Hardlimit