Intel Core un rival digno para K8 y K9
-
Pues creo que la cahce de traza es o fue una idea muy buena y no se porque habran decidido no incorporarla :vayatela: ; si te puedes ahorrar la decodificacion de las instrucciones que producen aciertos de cache bien venido sea.
El SuperPi no es mas que un benchmarks, no es que haya que fijarse solo en el para dictar sentencia de cual es mejor o peor; pero sinceramente me ha llamado mucho la atencion la enorme diferrencia que ha obtenido el conroe.
El trace cache fue algo necesario para el P4, en arquitecturas como P6 y conroe no tendria practicamente ningun efecto en relacione con las modificaciones que habria que hacer al nucleo. En P6 y conroe la RS o estacion de reserva cumple eficientemnete su labor, en netburst simplemnete colocar una RS no era suficiente debido al efecto de tener tantos pipelines (era uy dañino esperar la decodificacion de una instruccion a traves de tantas etapas) entonces intel debio diseñar algo como en trace cache.
http://arstechnica.com/articles/paedia/cpu/pentium-2.ars/2 -
Porque??? Seguirias ahorrandote la decodificacion de las instrucciones. En lugar de almacenar la instruccion "tal cual" en cache la almacenas decodificada y así no tienes que decodificar cada vez.
En las imagenes que has puesto sigue habiendo una etapa para pasar de codigo X86 a instrucciones maquina (decodificar la instruccion vamos) asiq ue no entiendo porque no se van ha beneficiar
-
Porque??? Seguirias ahorrandote la decodificacion de las instrucciones. En lugar de almacenar la instruccion "tal cual" en cache la almacenas decodificada y así no tienes que decodificar cada vez.
En las imagenes que has puesto sigue habiendo una etapa para pasar de codigo X86 a instrucciones maquina (decodificar la instruccion vamos) asiq ue no entiendo porque no se van ha beneficiar
Bueno empecemos por cual es el objetivo del trace cache?
El objetivo del trace cache es poder proporcionar al nucleo de ejecucion del P4 una sucesion suficientemente rapida de microoperaciones, sucesion que no seria suficientemente rapida con un esquema de estacion de reserva debido a lo que tardaria las microoperaciones decodificadas en llegar al nucleo de ejecucion en una CPU de tantas etapas.Igual la instruccion antes de ser almacenada si es decodificada y luego almacenada en trace cache, o sea que tecnicamente no te estas ahorrando ninguna decodificacion. La funcion del trace cache es almacenar las microoperaciones ya previamente decodificadas de tal manera que pasen directamente del trace cache al nucleo de ejecucion.
Microarquitectura netburst
Si observas la microarquitectura netburst ves que la etapa de decodificacion esta antes del trace cache , es decir, que todas las microinstrucciones almacenadas en el trace cache pasan por la etapa de decoficacion. Tecnicamente no se esta ahorrando ninguna decodificacion. Simplemente se esta haciendo decodificacion previa de varias microinstrucciones antes de que sea requerido ejecutarlas.La diferencia con P6 y conroe es que las instrucciones en P6 y conroe son tomadas directamente del cache L1 sin decodificar y decodificadas para ser almacenadas en la estacion de reserva, de esta manera el nucleo de ejecucion siempre tendra instrucciones para ejecutar en la estacion de reserva asi que no necesita cosas como trace cache. Por su parte el P4 decodifica las instrucciones con anterioridad y las guarda decoficadas en trace cache (pero si esta decodificando) entonces pasan directamente del cache al nucleo de ejecucion de forma suficientemente rapida, si se utilizara en el P4 el mismo esquema que P6 llegaria un momento en que la RS quedaria vacia debido a lo que tarda la decodificacion al pasar por tantas etapas no se podria proporcional instrucciones al nucleo de ejecucion en una sucecion suficientemente rapida, esto no pasa en P6 o conroe y por eso un esquema de trace cache no es necesario ni tendria un efecto adicional.
Asi que la RS siempre tiene instrucciones listas para despachar al nucleo de ejecucion, daria lo mismo si las tomara de un trace cache o de RS. Si intel ha decidido no utilizar el esquema de trace cache en conroe es porque sus ingenieros han considerado que no iba a ser necesario y despues de todo ellos saben mas que nosotros sobre su diseño.Bueno espero haberme hecho entender.
-
Si decodificar tienes que decodificar todas las instrucciones, pero utilizando la cache de traza lo que consigues es decodificar 1 sola vez la instruccion: cuando dio error y tuviste que traerla. Si por el contrario la instruccion pridujo un acierto la instruccion ya esta decodificada, mientras que con una cache normal aunque sea un acierto tienes que volver a decodificarla para poder meterla en el back end.
Siempre que buscas la instruccion la buscas en la cache de traza, si da error te la traes de MP decodificandola pero si produjo un acierto ya la tienes decodificada por lo que no tienes que volver a decodificarla.Yo tambien estoy de acuerdo en que los ingenieros de Intel tiene que saber más que nosotros :risitas: :risitas:
-
Si decodificar tienes que decodificar todas las instrucciones, pero utilizando la cache de traza lo que consigues es decodificar 1 sola vez la instruccion: cuando dio error y tuviste que traerla. Si por el contrario la instruccion pridujo un acierto la instruccion ya esta decodificada, mientras que con una cache normal aunque sea un acierto tienes que volver a decodificarla para poder meterla en el back end.
Siempre que buscas la instruccion la buscas en la cache de traza, si da error te la traes de MP decodificandola pero si produjo un acierto ya la tienes decodificada por lo que no tienes que volver a decodificarla.Si eso es cierto en ese caso te ahorrarias la decoficacion, solo que parecia que lo decias como si siempre te ahorraras la decodificacion, es posible que te ahorres en ciertas ocasiones algo de decodificacion, despues de todo el Trace cache es limitado y las instrucciones decodificadas no van a permanecer para siempre alli.
A lo que me refiero es que la RS en conroe cumple el mismo objetivo del trace cache en netbusrt, la RS es capaz de proporcionar instrucciones siempre en sucesion suficientemente rapida al nucleo de ejecucion, de esta manera no importa que tenga que volver a decodificar la instruccion porque como las pipelines son cortas la demora entre decodificacion de la instruccion y el momento en que las microoperaciones alcanzan la RS no es tan grande como en netburst y RS siempre tendra instrucciones para ejecutar, es por eso que trace cache no es necesario. Si las instrucciones viajaran directamente del la etapa de decodificacion al nucleo de ejecucion si habria un problema de flujo de instrucciones en P6 pero par eso esta RS igual que para el P4 esta trace cache en el que un esquema de RS no seria suficiente.
-
Pero la estacion de reserva de que unidad funcional??? Cada unidad tiene su propia estacion de reserva y teoricamente esta es "mas pequeña" que la cache y por consiguiente vas a tener que sobreescribirla por otra mas rapidamente que en el caso de la cahe por lo que seguramente la misma instruccion producira mayor numero de errrores.
Ahora que lo pienso, lo que quieres decir es que la instruccion se almacena sin decodificar en la cache pero lo que mete en la estacion de reserva es la microinstruccion, no???
-
Pero la estacion de reserva de que unidad funcional??? Cada unidad tiene su propia estacion de reserva y teoricamente esta es "mas pequeña" que la cache y por consiguiente vas a tener que sobreescribirla por otra mas rapidamente que en el caso de la cahe por lo que seguramente la misma instruccion producira mayor numero de errrores.
Si observas la arquitectura P6 y del conroe, entre el "front end" y "execution core" existe un buffer llamado RS o estacion de reserva , a esa me refiero. En cuanto a los errores no entiendo a que te refieres, si te refieres a errores por ramas, estos errores se producen muy rara vez en el conroe debido a su potente BPU con una efectividad del 97% , es decir que solo un 3% de los saltos causaria un error, no es significativo y mucho menos impacto tendria entonces ahorrarse en el mejor de los casos un 3% de decodificacion en un conroe, ademas de que una mala prediccion no afectaria de manera catastrofica al conroe, pues sus pipelines son cortas, bueno eso en el caso de misprediction.
El trace cache como tu dices es mucho mas grande que la RS puede gurdar hasta 12Kuops y la probabilidad de que la instruccion requerida en un programa estre en el trace cache es entre 75 y 95% en un programa promedio, si no la encuentra tendria que decodificarla en el acto y gastar hasta 30 ciclos de la CPU, el trace cache se hace necesario porque debido a todas las etapas del P4 la decodificacion de una instruccion dura entre 15 y 30 ciclos!!!!!!, en este caso el trace cache es vital y un buffer relativamente pequeño como una RS no seria suficiente. P6 y conroe no tienen este problema, ademas porque muchas instrucciones complejas son decodificadas por los fast decoders del conroe gracias la micro y macro op fusion, esto hace que RS siempre tenga instrucciones para ejecutar y que un trace cache no sea necesario.
Ahora que lo pienso, lo que quieres decir es que la instruccion se almacena sin decodificar en la cache pero lo que mete en la estacion de reserva es la microinstruccion, no???
Si, es lo que estoy diciendo.
-
Las placas base de los conroe seran btx ? o no se sabe?
-
Por curiosidad, eres el mismo barton de N3D? Si es asi, seas bienvenido (sino tambien )
si ( lo llevais claro :rolleyes: )
cinebench en 64 bits donde la arquitectura "Core2" "pincha" en 64 bits
-
una cosa. Los conroe habran resuelto el problema ese de una instruccion SSE por FPU, o algo asi era que el p4 no podia hacer?
Sinceramente… con tanto RS, traza y demas, acabo de perder 200 neuronas. Dios mio. Que los compre quien los entienda.
-
cinebench en 64 bits donde la arquitectura "Core2" "pincha" en 64 bits
No parece un fracaso estrepitoso en 64 bits ¿no? Aunque saque una diferencia ligeramente menor que el Opteron ese que sale ahi.
Sinceramente… con tanto RS, traza y demas, acabo de perder 200 neuronas. Dios mio. Que los compre quien los entienda.
Amen.
-
No parece un fracaso estrepitoso en 64 bits ¿no? Aunque saque una diferencia ligeramente menor que el Opteron ese que sale ahi.
Técnicamente esa Workstation Intel es un 47% más potente que la AMD y si comparamos solo el resultado del cinebench nos sale que la estación Intel es solo un 12,45% más potente en 64Bits mientras que en 32Bits el Intel es un 22,18% más potente.
Lo cual claramente indica que la arquitectura AMD se beneficia más de software optimizado para 64Bits mientras que la mejora de los Intel es mucho menor.
Así pues, y teniendo en cuenta la inminente llegada de Windows Vista, parece que AMD no tiene al conroe tan lejos, como muchos vaticinaban, al conroe. Eso si AMD para ser superior va a tener que incrementar los Mhz, o por lo menos esa es mi opinión.
-
Si AMD quiere ser superior definitivamente va a tener que mejorar mucho mas que los Mhz.
-
Bueno hoy a los señores de AMD les a dado por levantar las cartas, de echo lo que se había dicho o filtrado es poco o por lo menos poco preciso comparado con las ultimas noticias de AMD que parece que no solo no esta dispuesto a que Intel le quite lo que ha ganado sino que pretende seguir mejorando.
AMD Announces 4x4 Enthusiast Platform
Parece ser que el AM2 esta preparado para montar dos micros en la misma placa al más puro estilo server, yo personalmente me parece un poco despilfarro pero 4 cores para un equipo sobremesa es como en su dia cuando salio el SLI para tarjetas, lo mejor de todo es el hecho de que para rular estos monstruos no sera necesario recurrir a memoria registrada por lo que el incremento de precio no respecto a un pc monomicro no será desorbitado pese a estar hablando de una maquina que tendrá 4 cores.
AMD Promises 45nm Processors By Mid-2008
Otra buena noticia es que AMD va a acelerar el paso a los 45nm y por ello se ha comprometido a implementar este proceso a mediados de 2008, de echo en una noticia anterior se informaba de que para incrementar la producción se iban a invertir no se cuantos millones para crear la Fab38 (convirtiendo la actual fabrica 30) en Dresden de la mano de IBM, algo que este articulo confirma.
AMD Announces More K8L Details
Si amigos, se habían dicho y se habían especulado muchas cosas pero talvez nadie había llegado a imaginar que el K8L dispondría de una L3 al más puro estilo Conroe, me pregunto yo si les habrán copiado la idea. En principio son 2Mb de cache L3 para los 4 cores y luego cada core tiene la típica L1 de 64kb para las instrucciones y luego la L2 de 512kb para trabajar. Y claro para que leches nos sirve la dichosa L3, pues muy sencillo para no tener que alojar en la RAM determinadas instrucciones que matarían el rendimiento. Esto junto con la confirmación que el K8L estará nativamente preparado para la DDR3 son talvez las dos cosas más destacables.
Y que dice Intel de nuevo, pues nada destacable, en pricipio el Conroe de 3.2Ghz saldra para finales de año como estaba prebisto y los Quadcore (cuatro procesadores en una misma CPU) para el primer cuarto del 2007 como se esplica en la siguiente noticia.
Intel Confirms Two Upcoming Core 2 Extreme CPUs
PD: Ala otra vez a poner esta rama hiperactiva.
-
Muchas gracias ESPINETE, siempre vas por delante ;D
No me parecen cartas muy buenas, por lo menos de momento… eso puede valer para llevarse a los típicos Gamers o entusiastas, los mismos que ya han comprado el SLI o CROSSFIRE, pero ¿que representa eso en el porcentaje del mecado total?
No se, la principal baza del Conroe aparte del rendimiento será el precio, por 200$ tendrás un micro cojonudo y por 300$ una pedazo de maquina... ¿cuanto supondría esto para un AMD 4x4 de esos? Pues al precio que está el micro mas pequeño de X2 (el AMD 64 X2 3800+) ya serían 600€ + el sobrecoste de una placa dual... y si quieres mas Mhz estaríamos hablando de pasar de los 1000€ solo en los micros.
Creo que AMD tendrá q bajar los precios y bastante, y a medio plazo actualizar la arquitectura de los AMD64... un Conroe a 3.2 Ghz puede hacer mucho mucho daño.
Saludos
-
Como siempre por delante:
**
Benchmarking Conroe: First Look at Core 2 Extreme - ExtremeTech
**No se si esta paguina habra firmado un NDA o se lo estan saltando pero desde luego que estos son los primeros datos de un XE que veo, aunque igual el XtremSystems hay algo tambien. :fumeta:
-
Esos "ases" que han mostrado no me parecen ases en absoluto. Por una parte en el tema de usar un par de procesadores me parece una "solucion" desesperada para instentar no perder el liderazgo; poner dos procesadores sin tener que montar memoria registrada suena muy bonito, pero a ver quien es el guapo que se gasta ese dineral en montarse un equipo de esas caracteristicas.
Y en cuanto a las otras mejoras como el aumento del nivel de integracion: se van a producir dentro de demasiado tiempo, periodo en el cual Intel no se va a quedar parada.
-
no es el tema de montar 2 micros sin usar memoria registrada, es el tema de montar 2 micros a la vez ;), por la arquitectura que tienen ni los A64 ni los P4 podian montarse en maquinas duales, no estaban preparados para ello.
-
No se yo que decirte. lo de la DDR3 ya es un punto. Lo de la L3 si añadimos en controlador de memoria de los AMD puede suponer un aumento de rendimiento mucho mayor. Que el AM2 ya este preparado para 4 cores tb, porque mientras que a intel le quedan como 9 meses para sacar el micro, y no digamos las placas, AMD solo tiene que preocuparse por las placas. Tiene hecho todo a espera de ponerlo en la calle. No como intel, que ya veremos la ddr3 como lo hacen y los cuadcore no te digo nada.
Y no es que me posicione en un lugar u otro, sino que creo que AMD todavia puede plantarle cara a intel. Fijate lo que ha tardado intel en sacar un micro en condiciones de competir con el 64. como 3 años. Mucho tiempo. AMD intenta cada 1-2 años a lo sumo sacar algo interesante, porque los presler esos es mas de lo mismo. En cambio el conroe es una maravilla.Pero veamos como se las apaña cada uno. Cuanta mas lucha mejor para nosotros.
-
Esos "ases" que han mostrado no me parecen ases en absoluto.
Jeje yo no he dicho nada de ases, he dicho que han levantado las cartas y si en principio puede parecer inútil y caro ese sistema 4x4 pero hasta la llegada del Quad core de Intel y de AMD esto sera lo más potente que se pueda encontrar ya que dudo que Intel saque algo parecido eso si los conroe serán los reyes del SuperPI :risitas: .
Además las otras mejoras no son tan malas y llegaran tan tardías como tu crees o por lo menos eso creo yo, pues la tecnología de silicio SOI de AMD/IBM es mucho más eficiente que la de Intel y yo ya estoy deseando ver como se portaran los AMD con 65nm pese a que se esta intentando acelerar el paso a los 45nm para no dejar que Intel se beneficie de esto.
En mi opinión Intel esta más interesada en la miniaturización que en la optimización, todo lo contrario que AMD; y eso desde mi punto de vista no le beneficia a sus productos.