Los Nehalem, Tolapai y los Larabee

Bm4n

@goexman:

si crees que no esta inventado informate…

Alma cándida…

Me refería a que no está en la calle, que no se comercializa a diferencia de lo que comentabas del controlador de memoria integrado, y que tampoco es un camino que solo AMD haya tomado así que esperemos a ver cual sale primero a la calle. A eso me refería, es evidente que está proyectado (por algo compro ATI) y en desarrollo (ya que tienen fecha de entrega) sino ni sabríamos ni el nombre que le dan.

Será por no usar la wikipedia, si...

AMD Fusion. Anticipated competitors - Wikipedia
Nehalem (microarchitecture). Technology - Wikipedia
VIA CoreFusion - Wikipedia

PD. Y dudo mucho de que de un rendimiento parecido al de las gráficas que se comercialicen paralelamente. Es una solución, fíjate que AMD lo usara para su plataforma para portátiles, al bajo rendimiento de los chipsets con procesamiento gráfico integrado.

cdbular

@Bm4n:

A ver, según yo entiendo: El controlador de memoria integrado en el CPU en AMD viene a remontarse al 2003 con el A64. Lo que comentas de la "interconexión" interna interna de los cores eso viene con los X2 de AMD. Y que yo sepa no tiene nada que ver con el controlador de memoria que tiene una misión diferente.

Es en eso como bien comentas en lo que se va a parecer a los X2 los próximos Nehalem. Que aunque en los X2 desde mi punto de vista se hizo diseño que parecía mejor por esto, pero luego resulto que los actuales Core 2 Duo siendo los cores más "independientes" son procesadores que rinden más.

Sobre los acuerdos AMD Intel nadie sabe hasta donde llegan… es broma, lo cierto es que hay parte de colaboración pero me imagino que únicamente en ciertos aspectos que les benefician a ambos. Y copiar no es tan simple, primero porque si alguien realmente inventa algo nuevo hay tema de patentes y segundo porque la arquitectura de un procesador no es tan simple como para que puedas hacer algo decente simplemente mirando al de al lado.

Estas en lo cierto, la comunicacion interna entre los nucleos no tiene nada uqe ver con el controlador integrado. A lo que me referia es que Intel va utilizar para los nehalem una tecnologia analoga a la de amd en la cual los sistemas multi procesador se intercomunican a traves de una una interfaz interna al chip. Intel le ha dado el nombre de CSI (Common System Interface), que al igual que hypertransport es una conexion p2p para la comunicacion entre los perifericos externos , la CPU y el controlador de memoria, ademas de interconexion de procesadores externas al chip, y esto si que tiene que ver con que el controlador de memoria sea interno.

Bm4n

Si ya te entendí, te refieres en general a que Intel ahora tiene con el QuickPath lo que AMD ya tenia con el Hypertransport. Que está relacionado con el controlador de memoria.

Quizás peque de conservadora Intel, tardó en desechar la arquitectura Netburst (eso si fue un gran fallo), no quiso decidirse por las DDR2, no se apuntó al Hypertransport, tardó en sacar procesadores 64bit sobremesa, en sus core 2 duo no integró nada nuevo. Supongo que Intel en vez de tratar de ir integrando cosas poco a poco y complicarse, ha seguido con lo que por ahora saben hacer bien mientras desarrollaban un propio sistema, sin tener que entrar en el consorcio de Hypertransport y luego dar un paso grande dejando la actual forma como puente entre tecnologías.

Algo que me parece interesante en el X2 de AMD es el "Crossbar switch", que si no me confundo es lo que optimiza las distribución entre los núcleos del trabajo. No veo nada parecido en el Nehalem, pensaba que tendría una tecnología parecida, no se como está este tema.

Lo del controlador de memoria no me parece tan novedoso o llamativo. En general que el CPU integre tantas cosas en el mismo paquete no me llama sobremanera, puntualizo en el caso de sobremesa en portátiles es lo ideal. Preferiría algo más modular vamos como antaño que no había tanta integración. Aunque supongo que eso es poco viable y atractivo de cara al publico…

Ah otra cosa que si me parece muy interesante en los Nehalem, imagino que AMD ya hace algo análogo, quiere hacer procesadores bastante modulares, así el controlador de memoria o el IGP son off-die y con un mismo diseño añadiendo o quitando cosas tienes un procesador para distintos ámbitos.

Y sobre la potencia gráfica en CPU, no lo conozco muy bien, parece que un punto clave serán que se logren hasta 8 núcleos y que estos trabajen con un IGP integrado, no se si en esto entra en juego el QuickPath para algo. Intel anuncia x10 de rendimiento en comparación con lo que tienen para los primeros procesadores de este tipo y para la segunda generación creo que eran otro x10. Está muy bien pero no es lo mismo que una gráfica pero mejora mucho lo que logran con sus chipsets gráficos que no dan mucho y si esto les funciona desaparecerán.

Y lo que comentaba de que Intel copia a AMD... en todo caso copia a AMD, IBM, Sun, Via etc. En general creo que cada marca prueba las cosas que ve más convenientes y luego si resultan pues el resto el siguen. Intel en algunas cosas es el primero en probarlo y en otras es el ultimo, y encima dandole resultado con los core duo. Quizás ese sea un punto importante también el saber cuando y como adoptar una tecnología.

Una cosa que me preocupa es ver para dentro de un año procesadores muy muy caros... pero como siempre hasta no tenerlo en la calle podemos hablar mucho y creo que menos de precios, realmente solo sabemos lo que prometen que siempre son mill maravillas, así que lo mejor es esperar a ver rendimientos reales.

PD. Creo que he escrito demasiado, si en algo estoy equivocado ya sabéis eh que no estoy muy puesto ultimamente, pero me interesa bastante el tema sobretodo porque en un añito querre renovar el portatil y espero que este ya lleve uno de estos procesadores quizás un Auburndale o un Bulldozer.

Pongo unos gráficos de las microarquitecturas de X2 y Nehalem, para que se vea los parecidos y diferencias. A ver si encuentro un buen gráfico de los actuales core duo, para que se vea la arquitectura que usa hoy Intel que a pesar de ser "de transición" por decirlo así, parece ir bastante bien.

goxeman

yo voy a ser sincero… los graficos casi no los entiendo...

preferiria que alguien que los entendiera fuera capaz de comentarlos... con diferencias y tal y diceindo los pros y los contras y asi muchos mas podriamos opinar...

gracias!

Obione

Stream's, drivers, memos, CPU , programación en juegos… como para ponerse a explicar :risitas:

Para la gente mundana lo suyo es coger la gráfica y a testear

Bm4n

@goxeman:

yo voy a ser sincero… los graficos casi no los entiendo...

No te preocupes, yo tampoco :risitas:

Lo que yo veo en el del K8.

Por cada núcleo tienes en gris las dos partes que forman la memoria caché de primer nivel una para instrucciones (que estaría a la entrada antes de que pase por los descodificadores y llegue a las unidades aritmético lógicas, generadores de dirección, etc) y otra para los datos (ya a la salida, procesados). Luego tendrás un cache de segundo nivel uno por núcleo que lo tienes arriba a la izquierda y que estarán comunicados con los chachés de primer nivel y con el crossbar y la cola de peticiones.

Lo que está en naranja fuerte serian los contadores y los tiempos que controlan como van entrando las instrucciones para que se procesen. Y el resto es parte interna que hace el proceso en el nucleo.

Este ya no es parte del lo que seria algún núcleo, el crossbar que se encarga de dividir las tareas y hacer que se trabaje en una sola tarea en paralelo o que cada nucleo se ocupe de una tarea independientemente y estará junto al controlador de memoria y el hypertransport que controla las salidas y entradas al resto de componentes y substituye al antiguo bus frontal.

Solo con esto, que no es un gráfico completo no sacas tampoco gran cosa, pero le ves un poco la forma. Un gran bus que conectaría, si mal no entiendo, los núcleos mediante sus respectivos caches que es por donde el cross bar distrubuye el trabajo ademas tienes integrado aunque fuera del die de los core tanto eso como el controlador de memoria y el Hypertransport.

En el Nehalem vemos algo un poco distinto aunque con similitudes, por ejemplo fuera de la parte de los nucleos tenemos esa parte con el QuickPath que seria algo parecido al Hypertransport y el controlador de memoria y una cache de tercer nivel.

Esta cache comunicaría con la cache de segundo nivel (en verde) una por núcleo, y sus respectivos caches de primer nivel (rosa) y descodificadores de instrucciones llegando ya a la parte del proceso del núcleo.

Esto es un poco lo que veo, pero ya te digo que puedo estar completamente equivocado porque no soy ni mucho menos un experto, así que no te fies de mi. Por ultimo los core 2 duo actuales imagino que son la parte del núcleo con sus caches, dos en los C2D, sin comunicación entre núcleos ni las partes de controlador de memoria ni QuickPath.

Pero como decía esto sirve para hacerse una idea muuuy general de como es.

cdbular

Para no ser un experto lo explicaste muy bien. Tengo una pequenas correcion

Los bloques naranjas del K8 hacen parte del predictor de saltos.

En cuanto al nehalen vemos los nucleos son esencialmente iguales a los del Core 2 Duo, la diferencia esta en que ahora se agrega una cache L3 compartido y un cache L2 independiente para cada core, igual que el Penom.

Bm4n

@cdbular:

Los bloques naranjas del K8 hacen parte del predictor de saltos.

Aha, y formaría parte del pipeline? Vale me autorrespondo, están relacionados pero son cosas independientes como se refleja en el gráfico de antes; interesante la eficiencia del predictor de salto. Y en el mismo bloque del gráfico también esta el secuenciador que comentaba yo, no?

Más me gustaria saber pero por ahora mis estudios de electrónica son demasiado generales xD

@cdbular:

En cuanto al nehalen vemos los nucleos son esencialmente iguales a los del Core 2 Duo, la diferencia esta en que ahora se agrega una cache L3 compartido y un cache L2 independiente para cada core, igual que el Penom.

A ver si me resuelves otra duda, porque lo que entiendo es que por ahora los core duo a nivel físico hacen trabajar independientemente a cada núcleo mientras que los X2 con el crossbar swith hacen un verdadero multiprocesamiento simetrico. Puede ser que en el diseño del Nehalem se haga algo parecido teniendo esa caché de tercer nivel comprartida por los diferentes núcleos?

cdbular

@Bm4n:

Aha, y formaría parte del pipeline? Vale me autorrespondo, están relacionados pero son cosas independientes como se refleja en el gráfico de antes; interesante la eficiencia del predictor de salto. Y en el mismo bloque del gráfico también esta el secuenciador que comentaba yo, no?

Más me gustaria saber pero por ahora mis estudios de electrónica son demasiado generales xD

A ver si me resuelves otra duda, porque lo que entiendo es que por ahora los core duo a nivel físico hacen trabajar independientemente a cada núcleo mientras que los X2 con el crossbar swith hacen un verdadero multiprocesamiento simetrico. Puede ser que en el diseño del Nehalem se haga algo parecido teniendo esa caché de tercer nivel comprartida por los diferentes núcleos?

A tu primera pregunta, la respuesta es no, las secuencias en el pipeline son controladas por una unidad de control microprogramada, la cual no se muestra en el diagrama de bloques.

En cuanto a tu segunda duda no entiendo la pregunta. Ambos procesadores hacen verdadero multiprocesamiento simetrico. El core 2 duo se comunica internamente mediante la cache de segundo nivel compartida, los X2 utilizan el crossbar porque las L2 son independientes. Ahora si hablamos de los core 2 quad que basicamente son 2 core 2 duo pegados que se comunican mediante el FSB eso es otra cosa, la diferencia con los phenom al igual que con el nehalem es que comparten un cache de tercer nivel, aunque los phenom aun conservan el crossbar.

Bm4n

Ya, el crossbar lo optimiza (y hace de puente) por decirlo de alguna manera cosa que no pasa con los intel por ahora pero el funcionamiento es el mismo, core unido por L2 y nehalem por L3. Otro cantar son los cuad core actuales como dices.

Y el bloque naranja entero es el predictor de saltos, no se muestra como en el gráfico del nehalem el secuenciador por ninguna parte. No se porque me dio por pensar que era eso, al leer lo del counter me imaginé que estaba relacionado.

Gracias por la ayuda

PD. Edito y borro, que ya encontré la info que buscaba sobre el pipeline del Nehalem. Son 16 etapas y no 14 como su predecesor, cambia la cosa.

cdbular

Bueno les dejo el articulo de Arstechnica sobre el nehalem. El articulo de realworldtech al que hace referencia es my bueno y detallado.

Debido a que el engine de ejecucion de cada core del nehalem (basicamente el mismo del core 2) es bastante ancho, la mayor parte del tiempo se mantendria sin hacer nada, intel pretende aplicar la misma tecnica que en el P4 (bueno no realmente la misma, pero si mejorada), utilizando SMT .

El mejoramiento del front end con respecto al core 2 parece ser bastante bueno. Agrega algo llamado LSD (loop stream detector) despues de la etapa de decoding. Esto lo que hace es guardar uops decodificadas de los loops, de tal manera que al ejecutar un loop repetidas veces las unidades de fetch se mantengan en idle, ademas de que se ahorra el tiempo de fetch y decodificacion.

Otra mejora reside en la mcrofusion de instrucciones en la cual intel aumenta el numero de instrucciones x86 que pueden ser fusionadas, esto mejora la eficiencia del front end.

Se mejora la eficiencia del predictor de saltos, con la capacidad de guardar mas datos de los historicos de los saltos.

Agrega SSE4.2 que agrega algunas instrucciones de manipilacion de strings, clasica de arquitecturas puramente CISC, y que graciosamente el autor dice que intel las trae "back to the future" jeje.\

Tambien comenta que intel hace un salto grande en l aplataforma server, pero que no es nada novedoso ya que AMD pose el mismo sistema hace anhos.

cdbular

No estoy hablando de copia pero al menos a nivel general la idea es toda de AMD.

Bm4n

Si la organización es muy parecida, intel está siguiendo de cierto modo los pasos de AMD, con algunas diferencias. Claro que la organización no lo es todo, la parte del procesamiento, instrucciones, etc es muy importante que quizás es ahí donde ahora intel ahora saca ventaja (la sacó en el pasado con los M en portatiles, pero no con los netbrust en sobremesa). Aunque sorpresa también con los nuevos bulldozer, SSE5 de parte de AMD, no les veo malas pintas.

La razón por la que comentaba antes que a nivel tecnológico no me parece real decir que AMD es quien inventa y luego Intel copia ni viceversa, es porque a veces hay algo de fenómeno fan con estos temas de marcas. Y luego hay que pensar que tampoco todo es Intel y AMD, ahí esta el hypertransport consortium (con múltiples compañías), nvidia si no me equivoco con algo parecido al crossbar, o los powerpc de ibm con una arquitectura SMP, Via, etc.

"With the advent of Nehalem, Intel makes the giant leap from what is fundamentally still its decades-old monolithic-processor-plus-FSB platform to a fully modern SoC and NUMA (see diagram below) platform." Más claro agua.

A ver si me leo luego el articulo de real world tech.

goxeman

muy interesante todo… de lo poco que me entero

pero se nota que sabeis de lo que hablais...

entonces ahora a nivel campechano... los micros van a dar un gran salto¿?

saludoS!

Bm4n

Intel si que va a dar un salto en ciertos aspectos importantes ya que los core duo son un puente entre tecnologías y AMD ese salto ya lo dio en su día. Pero ya ves que a veces no está 100% relacionado esto con que de un rendimiento mucho mayor, pero bueno si esperamos para el próximo año como mínimo novedades y posiblemente un incremento de rendimiento considerable con respecto a los actuales procesadores tanto por parte de Intel, AMD y seguramente también VIA con sus Nano.

Lo que veo importante, por ejemplo para portátiles el procesador gráfico integrado en el procesador y en sobremesa pues por ejemplo las nuevas instrucciones como SSE5 que entre otras cosas pretenden acelerar los encriptamientos y multimedia.

Eh me ha dejado tieso lo que dice la wikipedia en español sobre SSE5:
"SSE5, una novedosa serie de instrucciones creadas por un profesor especialista en informatica llamado Gironelli, que luego fue comprado por Intel por 4 millones de dolares. Optimiza mucho el rendimiento en word."
Whots?!

De lo que no estoy completamente seguro es que de cara ya al 2010 el software que usamos en casa y los sistemas operativos explote bien procesadores con 4 o incluso 8 núcleos, lo que se le llama thread level parallelism, de forma que se note un aumento muy importante del rendimiento. Siempre el software de PC suele ir algo por detrás…

cdbular

Segun intel el Nehalem proveera un salto en rendimiento superior al que produjo el Core 2 con especto a Netburst. Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros. En la pagina de Extreme reviews tambien se muestra una grafica con la proyeccion de rendimiento con respecto a los opterons.

Tambien una foto del nehalem un Egineering model se ha colado. El de la izquierda es el nehalem, el de la derecha un QX9770.

Fuente: Extreme Reviews

cobito

@cdbular:

Sgun intel un Nehalem es 104% mas rapido que un Xeon x5482(3.2GHz) en FP y 44% en opreciones con enteros.

Pero ¿un Nehalem a 3.2 GHz?

neonet_arg

joder, q interesante cojones!
me alegra q haya gente como vosotros en hardlimit

Bm4n

Rumores y rumores, personalmente no creo que haya tanta diferencia entre nehalem (intel p9? xD) y shanghai (amd k10.5), y como por ahora los datos son de una muestra de intel? filtrada? a sun? de la cual no se indica ni a que velocidad iba? y en comparación con shanghai, ya hay datos de rendimiento real?… da lugar a dudas eh.

ZDnet

No dudo del salto de Intel pero me extrañaría que AMD no tenga también un salto más grande de rendimiento en sus próximos núcleos. Eso si no se para que necesitaremos semejante potencial, actualmente tenemos procesadores más potentes de lo que en realidad usamos, yo a mi procesador solo le saco brillo cuando codifico video o cuando hago encriptaciones…

cdbular

Bueno en este momento lo unico que podemos decir del rendimiento es que sera mejor que los Core2, los datos reales sobre el rendimeinto de el Nehalem solo los conoce intel. Es evidente Nehalem ha recibido unos retoques, y seguramente esto mejorara el rendimiento, pero es imposible hacer una prediccion cuantitativa de cuanto se mejorara, habra que esperar a los benchmarks oficiales.

Los Nehalem, Tolapai y los Larabee

Foreros conectados [Conectados hoy]

Estadísticas de Hardlimit