_Hilo Oficial Haswell-E
_
Bueno, viendo que el uso de estos nuevos micros con su respectivo chipset y ram va poco a poco en auge, he decidido abrir la que espero que sea la rama oficial para intercambiar opiniones, datos y overclocks sobre ellos.
Antes de nada creo que lo mejor es explicar brevemente las novedades y caracteristicas de la arquitectura base para poder comprender mejor la plataforma:
1º Arquitectura Haswell
Haswell es la cuarta generacion de procesadores " Intel Core ", es la ultima arquitectura de intel que engloba mucho mas que cpus de sobremesa y portatiles, es, segun intel, el primer paso hacia el bajo consumo el cual le facilitará el poder competir con arm.
En terminos de arquitectura, esta cuarta entrega es el tock, para quien no esté familiarizado con los terminos, intel basa su avance en tick y tock, el tock es una "nueva" arquitectura acompañada normalmente por una consolidacion del proceso en nanometros:
Desde nehalem la microarquitectura de intel se ha basado en crear dos hilos de instrucciones por nucleo para mejorar el desempeño ( se implementó en los P4 ) y en cada generacion las caches se han ido mejorando, esto se mantiene en haswell, donde seguimos teniendo HT y unas caches mas rapidas. A esto se le añaden tres nuevos chipset ( Z87, Z97 y X99 ) los dos primero con dos canales de DDR3 y el ultimo con 4 Canales y DDR4.
El proceso de fabricacion que usa haswell es de 22 nm a partir de transistores 3D Tri-Gate. Para entendernos, un transistor es muy parecido a un interruptor electrico de una velocidad altisima, facilitando o cortando el paso de la corriente segun se necesite.
El rendimiento y calidad de un transistor se mide por tres reglas:
1º Cuando está encendido tiene que dejar pasar la mayor cantidad de energia posible ( Corriente Activa )
2º Cuando está inactivo tiene que cortar la mayor cantidad de energia posible ( Corriente de Fuga )
3º Tiene que ser capaz de cambiar de estado ( on / off ) lo mas rapidamente posible.
Teniendo esto en cuenta podemos entender la siguiente imagen:
Es un transistor normal a 32 nm ivy bridge, podemos apreciar como cortaria o dejaria pasar la corriente segun la necesidad.
Ahora un 3d tri-gate a 22nm:
No creo que haga falta explicar mucho mas, las ventajas son obvias, las enumero para una mayor aclaracion:
1º La puerta ( gate ) ejerce mas control sobre el flujo de corriente.
2º El sustrato de silicio recibe menos impacto por el cambio de voltaje cuando está off.
3º Al tener una mayor area de contacto puede fluir mas corriente por el.
4º La densidad de los transistores no se ve afectada.
5º Se puede aumentar el numero de aletas ( fins ) para conseguir mayor rendimiento.
Aqui una foto con microscopio de barrido:
Segun intel las ventajas que se consiguen son:
Reduccion de hasta un 50% de la potencia activa vs 32nm:
Hasta un 18% de aumento de rendimiento con 1 voltio:
Resumen:
Caracteristicas Generales
Las enumero para no extenderme:
-
Set de instrucciones Advanced Vector Extensions 2 (AVX2), también llamadas "Haswell New Instructions" (incluyen gather, manipulador de bits, y soporte de FMA3)
-
Direct3D 11.1 y OpenGL 3.2.3 ( Solo 1150 )
-
Intel Transactional Synchronization Extensions (TSX) ( Deshabilitadas mediante bios )
-
Chipset Serie 8 y 9
-
Un nuevo diseño de caché de CPU.
-
Interfaz Thunderbolt.
-
Existirán 3 versiones de GPU integradas: GT1 (Intel HD Graphics), GT2 (Intel HD Graphics 4600/4400/4200), GT3 "15w" (Intel HD Graphics 5000), y GT3 "28w" (Intel HD Graphics Iris). Según vr-zone, la más potente (GT3) tendrá 20 unidades de ejecución.6 Otras fuentes, como SemiAccurate, dicen, sin embargo que dispondrá de 40 unidades de ejecución7 con 64MB de caché intercalados.8 Para comparar, Ivy bridge dispone de 16 Unidades de ejecución.
-
Nuevo sistema de ahorro de energía. ( C-state )
-
Reloj Base (BClk) aumentado hasta 266 MHz.
-
Hasta 8 núcleos.
-
128 Bytes cache line.
-
64KB datos + 64KB intrucciones de caché de nivel 1 por núcleo.
-
La ejecución Trace Cache incluirá el diseño de caché L2.
-
1 MB caché de segundo nivel por núcleo y hasta "32MB" ( se especula ) de tercer nivel compartida entre todos los núcleos.
-
Nuevos zócalos — LGA 1150 para escritorio, debido al cambio de microarquitectura del procesador, y rPGA947 & BGA1364 para el segmento portátil.
-
Regulador de tensión integrado, desplazando nuevamente un componente de la placa base hacia su integración en el procesador.
-
Procesadores portátiles con 25, 37, 47, 57W de potencia de diseño térmico.
-
Procesadores de escritorio con 77/65/55/45/35W y ~ 100W+(extreme edition) de potencia de diseño térmico.
-
Procesadores con terminales de paladio, no de oro.
-
Procesadores de 15W de Potencia de diseño térmico para el segmento Ultrabook (utilizando multi-chip package como Westmere).
1.2 Mejoras
La mejora mas destacable en haswell es sin duda la inclusion in die de los reguladores de voltaje. Estos actualmente se encuentran en las placas base junto con su correspondiente circuiteria, lo que ocupa mucho espacio, es costoso y lo mas importante no es desde el puto de vista de la eficiencia lo que esperaba intel.
Por lo que estos decidieron incluir un modulo de 20 celdas programable de energia denominadas " power cell ", las cuales actuan como pequeños VR que soportan hasta 25A en cada una de sus 16 fases dentro de su power cell independiente :
Este chip de 20 celdas permite desarrolar 320 pequeñas fases de alimentacion por cpu ( 20 power cell x 16 fases ) por chip, lo que permite un control mucho mas exhaustivo del voltaje, para lo que intel agregó un regulador de voltaje integrado ( IVR ).
Este IVR permite un control en todos los voltajes, no solo en los cores, sino en gpu, buses y en el llamado agente del sistema consiguiendo mejor eficiencia por watio segun la propia intel.
La buena noticia como digo es una mejor eficiencia y un mayor control sobre los voltajes, la mala, es que el tener el llamado " Fully Integrated Voltage Regulator " ( FIVR ) in die incrementa bastante la temperatura de la cpu al hacer overclock y limita logicamente el % de subida a la vez que degrada mas el silicio debido a la sobre-tension que soporta.
Segun Asus en software como Intel Burn Test la cpu puede llegar a tener un peak de 400w in die, algo nada despreciable.
En cuanto a instrucciones, las mejoras han sido moderadas, avx2 con FMA, mejoras en el desempeño de la indexacion y criptografia, un lavado de cara con algunas novedades:
Se han mejorado la prediccion de saltos, el prefetcher, la eficiencia, la precision de la predicción manteniendo la pipeline. Son pequeños cambios como se puede ver en estos esquemas:
Como digo, son pequeñas mejoras que se han ido implementado con el paso de las arquitecturas, pero la que realmente destaca es el llamado motor/puerto de ejecucion.
La primera generacion, conroe, presento 6 puertos de ejecución que se han mantenido hasta ivy bridge sin apenas cambios, en sandy bridge se introdujeron cambios para soportar instrucciones avx 256 bits y ahora en haswell se introducen dos nuevos puertos que intel denomina como: integer math ( integrador matematico ) y store adress calculation ( calculadora de direcciones ).
El funcionamiento de los mismos para el que tenga curiosidad se basa en esto:
The extra ALU and port does one of two things: either improve performance for integer heavy code, or allow integer work to continue while FP math occupies ports 0 and 1. Remember that Haswell, like its predecessors, is an SMT design meaning each core will see instructions from up to two threads at the same time. Although a single app is unlikely to mix heavy vector FP and integer code, it's quite possible that two applications running at the same time may produce such varied instructions. Having more integer ALUs is never a bad thing.
Also using port 6 is another unit that can handle x86 branch instructions. Branch heavy code can now enjoy two independent branch units, or if port 0 is occupied with other math the machine can still execute branches on port 6. Haswell moved the original Core branch unit from port 5 over to port 0, the most capable port in the system, so a branch unit on a lightly populated port makes helps ensure there's no performance regression as a result of the change.
Sandy Bridge made ports 2 & 3 equal class citizens, with both capable of being used for load or store address calculation. In the past you could only do loads on port 2 and store addresses on port 3. Sandy Bridge's flexibility did a lot for load heavy code, which is quite common. Haswell's dedicated store address port should help in mixed workloads with lots of loads and stores.
Gracias a todo esto el rendimiento de la arquitectura haswell se ha visto duplicado en FP por lo que logicamente se iba a demandar unas caches mas rapidas para poder mantener ese rendimiento, por lo que se duplico el ancho de banda de la L1 y la interfaz entre L1 y L2.
Sorprendentemente las latencias y tamaño de la L1/L2 no se han visto aumentadas, no asi la L3.
La caché L3 tambien ha sufrido mejoras, pero para entenderlas tenemos que remontarnos a nehalem. En nehalem intel introdujo tres relojes completamente diferentes, cpu, uncore y un tercero que reservo para gpu ( aunque no se utilizo ).
Uncore se definió como la velocidad de esta caché L3, el motivo de separar buses es que se pensó que una cache L3 a menos velocidad consumiria menos equilibrando el rendimiento ya que las cargas mas pesadas las seguian haciendo los cores.
En sandy bridge se hizo un unico clock para core y uncore manteniendo y utilizando el de gpu in die. La ventaja de este paso es que se ganaba rendimiento al empujar mas la caché y gracias a la reduccion de nm se mejoraba el consumo.
El problema? La gpu, el consumo aumentaba si esta necesitaba acceder a la L3 ya que al ser un unico bus ( core y uncore ) la frecuencia de ambos se elevaria a la par.
La solucion vino en Ivy bridge con una caché L3 propia para la gpu.
Volviendo a haswell, nos encontramos con 3 clocks de nuevo, uno para los cores, otro para la gpu, y otro para la cache y bus interno. Esto tiene logicamente ventajas e inconvenientes, la pega, se aumentan los tiempos de acceso a L3, la ventaja, reduccion de consumo, la gpu no tiene que pedirle acceso a la cpu, coge los datos libremente y al incluir los vrm dentro del die puedes gestionar mucho mejor la entrega de esa potencia.
A esto hay que sumarle el aumento del rendimiento de la L3 y un mejor ancho de banda para el controlador de memoria.
Creo que con esto doy por finalizada la explicacion breve de la arquitectura, me salto el tema del capado de las tsx, las caracteristicas de las gpu y los nuevos estados de energia SX, que es largo y no es relevante para haswell-E.
En resumen:
2º Haswell-E
Esta nueva revision de la arquitectura marca un punto de inflexión en los pc de sobremesa, incluyendo por primera vez un procesador de 8 nucleos ( con 20 mb de L3 ) y memoria DDR4.
El socket es una actualizacion de sandy e ivy bridge ( 2011 ) el cual intel ha denominado 2011-3 ( no siendo retrocompatible ) dando vida al nuevo chipset X99.
Empecemos por las cpu:
Como se puede ver se introducen 3 modelos a diferentes frecuencias 5820k, 5930k y 5960x, dos de ellos con 6 nucleos ( 15mb L3 ) y el tope de gama con 8 nucleos ( 20mb L3 ). Cabe destacar que el 5820k tiene 28 lineas pci express mientras que sus hermanos mayores 40 y todos comparten un tdp de 140w y un controlador ddr4 2133 mhz.
La base de silicio es la misma que en anteriores modelos al igual que su disposicion, L3 central y nucleos tanto a derecha como a izquierda:
Cabe destacar que los modelos 5930k y 5820k tienen desactivados dos cores con sus respectivos L3, la peculiaridad es que se desactivan uno a izquierda y otro a derecha.
Lo mas destacable es que depende del procesador que elijamos tendremos una configuracion de velocidades distinta de los pcix para las graficas siendo:
5820k: 16x –> 16x/8x --> 8x/8x/8x --> No permite 4 Way SLI
5930k/5960x: 16x --> 16x/16x --> 16x/8x/8x --> 16x/8x/8x/8x
En todos los casos recomiendo consultar las spects de la placa base en cuestion, ya que las configuraciones pueden variar.
2.1 El chipset X99
Poco que comentar sobre el, aunque primero dejo el esquema:
Como se aprecia el chipset incluye 10 sata 6Gb/s de los cuales solo 6 se pueden configurar para RAID, una limitación poco entendible <:(.
2.2 Memoria DDR4
Solo unos breves incisos, las mejoras a dia de hoy son pocas y dedicarle tiempo aqui no me parece correcto, las enumero y listo :
- Menor Voltaje.
- Mayores Frecuencias.
- Mas densidad por modulo.
- Menores interferencias electromagneticas.
- Mayor ancho de banda.
- Mayores latencias.
- Cada modulo se conecta a un unico canal.
Si alguien se pregunta donde esta la mejora por tener mas ancho de banda ( dependerá del imc ) y mas latencia, la respuesta es sencilla, en entornos de edicion de video no creo que haga falta explicarlo, mas velocidad, mas capacidad, menos consumo.
En terminos gaming, donde prima la mejor relacion entre ancho de banda / MHZ / Latencia, la mejora consiste en que a mayor velocidad ejecutas muchisimos mas ciclos por segundo aun teniendo una latencia mas lenta, por lo que aunque la relacion MHz/cas sea desfavorable el mayor ancho de banda y mhz lo compensan:
Ejemplo de lo mas bestia que se puede comprar a dia de hoy:
DDR3 3200 cas 13 –> 13 / 3200 X 2000 --> 8.12 ns
DDR4 3600 cas 16 --> 16 / 3600 X 2000 --> 8.88 ns
Diferencia 9.35 %
Entonces si con ddr3 puedo ejecutar 3200 millones de operaciones en 1 segundo, con ddr4 a 3600 ejecutaré un 12.15% mas en el mismo segundo.
Por lo que la diferencia seria de un 2.8% a favor de las DDR4 sin contar las mejoras en los imc, canales de ram y ancho de banda.
Esto son datos teoricos, se estaria comparando X79 con X99 para "igualar" lo maximo posible el ejemplo.
Se entiende que la diferencia se agrandará conforme la velocidad de las ddr4 aumente.
Aqui un ejemplo:
Listado Completo Haswell Sobremesa
Comparativa Bench
Para terminar con el tochopost, nada mejor que una comparativa entre todos los buque insignia de las arquitecturas, los datos reflejados en las tablas son con los micros capados a 4 cores y 3.2 GHz y SIN HT, las memorias segun los respectivos JEDEC de los IMC.
El resumen de los datos clock por clock es: Haswell es un 8% mas rapido que Ivy, un 13% mas rapido que Sandy y un 28% mas rapido que Nehalem.
Comparativa Gaming
Mismo procedimiento:
Fuentes:
AnandTech | The Intel Haswell-E CPU Review: Core i7-5960X, i7-5930K and i7-5820K Tested
AnandTech | Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
AnandTech | Intel Announces first 22nm 3D Tri-Gate Transistors, Shipping in 2H 2011
Haswell - Wikipedia, la enciclopedia libre
Intel's Haswell Takes A Major Step Forward, Integrates Voltage Regulator
Si hay algun error comentadlo please, lo actualizaré en cuanto pueda XD.