Hilo Oficial Haswell-E ( 5820k / 5930k / 5960x )


  • 0

    _Hilo Oficial Haswell-E
    _

    Bueno, viendo que el uso de estos nuevos micros con su respectivo chipset y ram va poco a poco en auge, he decidido abrir la que espero que sea la rama oficial para intercambiar opiniones, datos y overclocks sobre ellos.

    Antes de nada creo que lo mejor es explicar brevemente las novedades y caracteristicas de la arquitectura base para poder comprender mejor la plataforma:

    1º Arquitectura Haswell

    Haswell es la cuarta generacion de procesadores " Intel Core ", es la ultima arquitectura de intel que engloba mucho mas que cpus de sobremesa y portatiles, es, segun intel, el primer paso hacia el bajo consumo el cual le facilitará el poder competir con arm.

    En terminos de arquitectura, esta cuarta entrega es el tock, para quien no esté familiarizado con los terminos, intel basa su avance en tick y tock, el tock es una "nueva" arquitectura acompañada normalmente por una consolidacion del proceso en nanometros:

    Desde nehalem la microarquitectura de intel se ha basado en crear dos hilos de instrucciones por nucleo para mejorar el desempeño ( se implementó en los P4 ) y en cada generacion las caches se han ido mejorando, esto se mantiene en haswell, donde seguimos teniendo HT y unas caches mas rapidas. A esto se le añaden tres nuevos chipset ( Z87, Z97 y X99 ) los dos primero con dos canales de DDR3 y el ultimo con 4 Canales y DDR4.

    El proceso de fabricacion que usa haswell es de 22 nm a partir de transistores 3D Tri-Gate. Para entendernos, un transistor es muy parecido a un interruptor electrico de una velocidad altisima, facilitando o cortando el paso de la corriente segun se necesite.

    El rendimiento y calidad de un transistor se mide por tres reglas:

    1º Cuando está encendido tiene que dejar pasar la mayor cantidad de energia posible ( Corriente Activa )
    2º Cuando está inactivo tiene que cortar la mayor cantidad de energia posible ( Corriente de Fuga )
    3º Tiene que ser capaz de cambiar de estado ( on / off ) lo mas rapidamente posible.

    Teniendo esto en cuenta podemos entender la siguiente imagen:

    Es un transistor normal a 32 nm ivy bridge, podemos apreciar como cortaria o dejaria pasar la corriente segun la necesidad.

    Ahora un 3d tri-gate a 22nm:

    No creo que haga falta explicar mucho mas, las ventajas son obvias, las enumero para una mayor aclaracion:

    1º La puerta ( gate ) ejerce mas control sobre el flujo de corriente.
    2º El sustrato de silicio recibe menos impacto por el cambio de voltaje cuando está off.
    3º Al tener una mayor area de contacto puede fluir mas corriente por el.
    4º La densidad de los transistores no se ve afectada.
    5º Se puede aumentar el numero de aletas ( fins ) para conseguir mayor rendimiento.

    Aqui una foto con microscopio de barrido:

    Segun intel las ventajas que se consiguen son:

    Reduccion de hasta un 50% de la potencia activa vs 32nm:

    Hasta un 18% de aumento de rendimiento con 1 voltio:

    Resumen:

    Caracteristicas Generales

    Las enumero para no extenderme:

    • Set de instrucciones Advanced Vector Extensions 2 (AVX2), también llamadas "Haswell New Instructions" (incluyen gather, manipulador de bits, y soporte de FMA3)

    • Direct3D 11.1 y OpenGL 3.2.3 ( Solo 1150 )

    • Intel Transactional Synchronization Extensions (TSX) ( Deshabilitadas mediante bios )

    • Chipset Serie 8 y 9

    • Un nuevo diseño de caché de CPU.

    • Interfaz Thunderbolt.

    • Existirán 3 versiones de GPU integradas: GT1 (Intel HD Graphics), GT2 (Intel HD Graphics 4600/4400/4200), GT3 "15w" (Intel HD Graphics 5000), y GT3 "28w" (Intel HD Graphics Iris). Según vr-zone, la más potente (GT3) tendrá 20 unidades de ejecución.6 Otras fuentes, como SemiAccurate, dicen, sin embargo que dispondrá de 40 unidades de ejecución7 con 64MB de caché intercalados.8 Para comparar, Ivy bridge dispone de 16 Unidades de ejecución.

    • Nuevo sistema de ahorro de energía. ( C-state )

    • Reloj Base (BClk) aumentado hasta 266 MHz.

    • Hasta 8 núcleos.

    • 128 Bytes cache line.

    • 64KB datos + 64KB intrucciones de caché de nivel 1 por núcleo.

    • La ejecución Trace Cache incluirá el diseño de caché L2.

    • 1 MB caché de segundo nivel por núcleo y hasta "32MB" ( se especula ) de tercer nivel compartida entre todos los núcleos.

    • Nuevos zócalos — LGA 1150 para escritorio, debido al cambio de microarquitectura del procesador, y rPGA947 & BGA1364 para el segmento portátil.

    • Regulador de tensión integrado, desplazando nuevamente un componente de la placa base hacia su integración en el procesador.

    • Procesadores portátiles con 25, 37, 47, 57W de potencia de diseño térmico.

    • Procesadores de escritorio con 77/65/55/45/35W y ~ 100W+(extreme edition) de potencia de diseño térmico.

    • Procesadores con terminales de paladio, no de oro.

    • Procesadores de 15W de Potencia de diseño térmico para el segmento Ultrabook (utilizando multi-chip package como Westmere).

    1.2 Mejoras

    La mejora mas destacable en haswell es sin duda la inclusion in die de los reguladores de voltaje. Estos actualmente se encuentran en las placas base junto con su correspondiente circuiteria, lo que ocupa mucho espacio, es costoso y lo mas importante no es desde el puto de vista de la eficiencia lo que esperaba intel.

    Por lo que estos decidieron incluir un modulo de 20 celdas programable de energia denominadas " power cell ", las cuales actuan como pequeños VR que soportan hasta 25A en cada una de sus 16 fases dentro de su power cell independiente :

    Este chip de 20 celdas permite desarrolar 320 pequeñas fases de alimentacion por cpu ( 20 power cell x 16 fases ) por chip, lo que permite un control mucho mas exhaustivo del voltaje, para lo que intel agregó un regulador de voltaje integrado ( IVR ).

    Este IVR permite un control en todos los voltajes, no solo en los cores, sino en gpu, buses y en el llamado agente del sistema consiguiendo mejor eficiencia por watio segun la propia intel.

    La buena noticia como digo es una mejor eficiencia y un mayor control sobre los voltajes, la mala, es que el tener el llamado " Fully Integrated Voltage Regulator " ( FIVR ) in die incrementa bastante la temperatura de la cpu al hacer overclock y limita logicamente el % de subida a la vez que degrada mas el silicio debido a la sobre-tension que soporta.

    Segun Asus en software como Intel Burn Test la cpu puede llegar a tener un peak de 400w in die, algo nada despreciable.

    En cuanto a instrucciones, las mejoras han sido moderadas, avx2 con FMA, mejoras en el desempeño de la indexacion y criptografia, un lavado de cara con algunas novedades:

    Se han mejorado la prediccion de saltos, el prefetcher, la eficiencia, la precision de la predicción manteniendo la pipeline. Son pequeños cambios como se puede ver en estos esquemas:

    Como digo, son pequeñas mejoras que se han ido implementado con el paso de las arquitecturas, pero la que realmente destaca es el llamado motor/puerto de ejecucion.

    La primera generacion, conroe, presento 6 puertos de ejecución que se han mantenido hasta ivy bridge sin apenas cambios, en sandy bridge se introdujeron cambios para soportar instrucciones avx 256 bits y ahora en haswell se introducen dos nuevos puertos que intel denomina como: integer math ( integrador matematico ) y store adress calculation ( calculadora de direcciones ).

    El funcionamiento de los mismos para el que tenga curiosidad se basa en esto:

    The extra ALU and port does one of two things: either improve performance for integer heavy code, or allow integer work to continue while FP math occupies ports 0 and 1. Remember that Haswell, like its predecessors, is an SMT design meaning each core will see instructions from up to two threads at the same time. Although a single app is unlikely to mix heavy vector FP and integer code, it's quite possible that two applications running at the same time may produce such varied instructions. Having more integer ALUs is never a bad thing.

    Also using port 6 is another unit that can handle x86 branch instructions. Branch heavy code can now enjoy two independent branch units, or if port 0 is occupied with other math the machine can still execute branches on port 6. Haswell moved the original Core branch unit from port 5 over to port 0, the most capable port in the system, so a branch unit on a lightly populated port makes helps ensure there's no performance regression as a result of the change.

    Sandy Bridge made ports 2 & 3 equal class citizens, with both capable of being used for load or store address calculation. In the past you could only do loads on port 2 and store addresses on port 3. Sandy Bridge's flexibility did a lot for load heavy code, which is quite common. Haswell's dedicated store address port should help in mixed workloads with lots of loads and stores.

    Gracias a todo esto el rendimiento de la arquitectura haswell se ha visto duplicado en FP por lo que logicamente se iba a demandar unas caches mas rapidas para poder mantener ese rendimiento, por lo que se duplico el ancho de banda de la L1 y la interfaz entre L1 y L2.

    Sorprendentemente las latencias y tamaño de la L1/L2 no se han visto aumentadas, no asi la L3.

    La caché L3 tambien ha sufrido mejoras, pero para entenderlas tenemos que remontarnos a nehalem. En nehalem intel introdujo tres relojes completamente diferentes, cpu, uncore y un tercero que reservo para gpu ( aunque no se utilizo ).

    Uncore se definió como la velocidad de esta caché L3, el motivo de separar buses es que se pensó que una cache L3 a menos velocidad consumiria menos equilibrando el rendimiento ya que las cargas mas pesadas las seguian haciendo los cores.

    En sandy bridge se hizo un unico clock para core y uncore manteniendo y utilizando el de gpu in die. La ventaja de este paso es que se ganaba rendimiento al empujar mas la caché y gracias a la reduccion de nm se mejoraba el consumo.

    El problema? La gpu, el consumo aumentaba si esta necesitaba acceder a la L3 ya que al ser un unico bus ( core y uncore ) la frecuencia de ambos se elevaria a la par.

    La solucion vino en Ivy bridge con una caché L3 propia para la gpu.

    Volviendo a haswell, nos encontramos con 3 clocks de nuevo, uno para los cores, otro para la gpu, y otro para la cache y bus interno. Esto tiene logicamente ventajas e inconvenientes, la pega, se aumentan los tiempos de acceso a L3, la ventaja, reduccion de consumo, la gpu no tiene que pedirle acceso a la cpu, coge los datos libremente y al incluir los vrm dentro del die puedes gestionar mucho mejor la entrega de esa potencia.

    A esto hay que sumarle el aumento del rendimiento de la L3 y un mejor ancho de banda para el controlador de memoria.

    Creo que con esto doy por finalizada la explicacion breve de la arquitectura, me salto el tema del capado de las tsx, las caracteristicas de las gpu y los nuevos estados de energia SX, que es largo y no es relevante para haswell-E.

    En resumen:

    2º Haswell-E

    Esta nueva revision de la arquitectura marca un punto de inflexión en los pc de sobremesa, incluyendo por primera vez un procesador de 8 nucleos ( con 20 mb de L3 ) y memoria DDR4.

    El socket es una actualizacion de sandy e ivy bridge ( 2011 ) el cual intel ha denominado 2011-3 ( no siendo retrocompatible ) dando vida al nuevo chipset X99.

    Empecemos por las cpu:

    Como se puede ver se introducen 3 modelos a diferentes frecuencias 5820k, 5930k y 5960x, dos de ellos con 6 nucleos ( 15mb L3 ) y el tope de gama con 8 nucleos ( 20mb L3 ). Cabe destacar que el 5820k tiene 28 lineas pci express mientras que sus hermanos mayores 40 y todos comparten un tdp de 140w y un controlador ddr4 2133 mhz.

    La base de silicio es la misma que en anteriores modelos al igual que su disposicion, L3 central y nucleos tanto a derecha como a izquierda:

    Cabe destacar que los modelos 5930k y 5820k tienen desactivados dos cores con sus respectivos L3, la peculiaridad es que se desactivan uno a izquierda y otro a derecha.

    Lo mas destacable es que depende del procesador que elijamos tendremos una configuracion de velocidades distinta de los pcix para las graficas siendo:

    5820k: 16x –> 16x/8x --> 8x/8x/8x --> No permite 4 Way SLI

    5930k/5960x: 16x --> 16x/16x --> 16x/8x/8x --> 16x/8x/8x/8x

    En todos los casos recomiendo consultar las spects de la placa base en cuestion, ya que las configuraciones pueden variar.

    2.1 El chipset X99

    Poco que comentar sobre el, aunque primero dejo el esquema:

    Como se aprecia el chipset incluye 10 sata 6Gb/s de los cuales solo 6 se pueden configurar para RAID, una limitación poco entendible <:(.

    2.2 Memoria DDR4

    Solo unos breves incisos, las mejoras a dia de hoy son pocas y dedicarle tiempo aqui no me parece correcto, las enumero y listo :

    • Menor Voltaje.
    • Mayores Frecuencias.
    • Mas densidad por modulo.
    • Menores interferencias electromagneticas.
    • Mayor ancho de banda.
    • Mayores latencias.
    • Cada modulo se conecta a un unico canal.

    Si alguien se pregunta donde esta la mejora por tener mas ancho de banda ( dependerá del imc ) y mas latencia, la respuesta es sencilla, en entornos de edicion de video no creo que haga falta explicarlo, mas velocidad, mas capacidad, menos consumo.

    En terminos gaming, donde prima la mejor relacion entre ancho de banda / MHZ / Latencia, la mejora consiste en que a mayor velocidad ejecutas muchisimos mas ciclos por segundo aun teniendo una latencia mas lenta, por lo que aunque la relacion MHz/cas sea desfavorable el mayor ancho de banda y mhz lo compensan:

    Ejemplo de lo mas bestia que se puede comprar a dia de hoy:

    DDR3 3200 cas 13 –> 13 / 3200 X 2000 --> 8.12 ns

    DDR4 3600 cas 16 --> 16 / 3600 X 2000 --> 8.88 ns

    Diferencia 9.35 %

    Entonces si con ddr3 puedo ejecutar 3200 millones de operaciones en 1 segundo, con ddr4 a 3600 ejecutaré un 12.15% mas en el mismo segundo.

    Por lo que la diferencia seria de un 2.8% a favor de las DDR4 sin contar las mejoras en los imc, canales de ram y ancho de banda.

    Esto son datos teoricos, se estaria comparando X79 con X99 para "igualar" lo maximo posible el ejemplo.

    Se entiende que la diferencia se agrandará conforme la velocidad de las ddr4 aumente.

    Aqui un ejemplo:

    Listado Completo Haswell Sobremesa

    Comparativa Bench

    Para terminar con el tochopost, nada mejor que una comparativa entre todos los buque insignia de las arquitecturas, los datos reflejados en las tablas son con los micros capados a 4 cores y 3.2 GHz y SIN HT, las memorias segun los respectivos JEDEC de los IMC.

    El resumen de los datos clock por clock es: Haswell es un 8% mas rapido que Ivy, un 13% mas rapido que Sandy y un 28% mas rapido que Nehalem.

    Comparativa Gaming

    Mismo procedimiento:

    Fuentes:

    AnandTech | The Intel Haswell-E CPU Review: Core i7-5960X, i7-5930K and i7-5820K Tested

    AnandTech | Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel

    AnandTech | Intel Announces first 22nm 3D Tri-Gate Transistors, Shipping in 2H 2011

    Haswell - Wikipedia, la enciclopedia libre

    Intel's Haswell Takes A Major Step Forward, Integrates Voltage Regulator

    Si hay algun error comentadlo please, lo actualizaré en cuanto pueda XD.



  • 1

    Reservado para la base de datos de oc.



  • 2

    Da gusto leer estos hilos.



  • 3

    Gran post! :beer:

    Y sin cebarse en lo de las TSX



  • 4

    Gran hilo, se echaban en falta estas ramas que tanto prestigio daban al foro :D

    Muy buen trabajo :sisi:

    ¡Saludos!



  • 5

    Vaya currada Javi,

    Muy muy buen post. Ahora, para bordarlo aun más, solo faltan tus experiencias con OC, que nos vendran muy bien a muchos ;)

    Enhorabuena!!!



  • 6

    Gracias, en breve pondré los requerimientos para los datos de oc, en principio quiero hacer dos secciones, una de oc extremo por si alguien le pega fuerte a estas cpus con unos requerimientos minimos y otra para oc 24/7 con unos requerimientos medianamente exigentes que determinen una alta estabilidad.

    Los test para competir intentare que sean lo mas cpu dependientes, englobando la ram en algun caso, o quizas en todos XD. Tengo que pensarlo seriamente jejejeje.

    Sobre el oc nico, sinceramente asus me ha jodido, tenia ya el oc estable en 4.6mhz a 1.342v con la cache a 4.6 con 1.35v y estaba con la ram a 3200 apretando timings …. Y salio la bios 1001 y no encuentro el punto dulce ahora XDDD.

    Toca seguir probando.



  • 7

    Gracias por el comentario de los Haswell-E, explicado muy sencillo. Tengo dudas de si realmente vale la pena invertir en este tick como plataforma de alto rendimiento y más aun de que sea el camino para competir con ARM son ligas diferentes, imagino que aplicaran las tecnologías de ahorro energético a otras gamas. Pero creo que no tiene sentido alguno limitar un CPU que venden para OC poniendo ahorros, absurdo pero ellos sabrán.

    Una sugerencia si quitas imágenes o las pones en un "spoiler" para desplegarlas mejoraría la lectura del texto y explicando un poco algún esquema en vez de explicar que es un transistor se completaría perfectamente. Esto ya es tontería mía, pero se me hace raro leer tanto termino ingles en una frase en español :D

    Yo creo que estos no los cataré, mi Ivy va muy bien, así que me conformaré con ver los vuestros en acción ;)



  • 8

    Realmente he intentado hacer una breve explicacion de todo, algo grafico, donde no haya que leer endemasia y donde premie el " una imagen vale mas que mil palabras ", de echo quien quiera mas informacion tiene las fuentes al final del post donde explican largo y tendido todo XD. Creo que a pesar de ser largo en extension se hace ameno y directo, al fin y al cabo la finalidad de la rama es intercambiar experiencias, datos y resultados de esta plataforma, quizas me prepare otra integramente de Haswell a fondo pero tengo que terminar el oc y luego armar todo el pc …. que llevará otra rama bastante extensa debido al mod XD.

    Por lo pronto con esta nueva bios no es estable a los voltajes que tenia en la 901 por lo que estoy tanteando de nuevo desde cero, veo que aplica mejor el LLC clavando mas los voltajes y que se han corregido fallos en el arranque y post, por ahora he subido a 1.347v en core y 2v en imput para asegurar y descartar que me esté quedando corto de vcore.

    Las temperaturas que estoy teniendo son bastante aceptables, con el phobya de 20 cm la media está sobre 50 grados y la maxima sobre 68º bajo IBT, supongo que cuando monte el resto de radiadores bajaré algun grado aun estando dentro de la caja ( esta todo montado en la mesa XD ).

    Un saludo.



  • 9

    Gracias por el hilo, porque yo ando perdido con las nuevas plataformas y micros.



  • 10

    Sigo buscando estabilidad, he tenido que subir el vcore a 1.35v y he bajado el imput a 1.95v creo que lograré las 100 pasadas IBT maximum, mañana os cuento XD.



  • 11

    Actualizo XD, voy por 60 pasadas ibt maximum pero con menos vcore y más vimput, esta última BIOS está balanceando el voltaje hacia menos voltaje directo para el micro, a ver si consigo las 100 y luego paso las 8 horas de realbench.

    Edito: Estabilidad a 4.6 1.337 vcore y 2.0 vimput con bios 1001

    Un saludo.





Has perdido la conexión. Reconectando a Hardlimit.