Hogar › Internet › El impacto de la capacidad de la memoria caché en el rendimiento del Core i5 de tercera generación. Un nuevo enfoque para el almacenamiento en caché de la CPU

El impacto de la capacidad de la memoria caché en el rendimiento del Core i5 de tercera generación. Un nuevo enfoque para el almacenamiento en caché de la CPU

¿Qué importancia tiene la caché L3 para los procesadores AMD?

De hecho, tiene sentido equipar los procesadores multinúcleo con memoria dedicada que será compartida por todos los núcleos disponibles. En esta función, una caché rápida de tercer nivel (L3) puede acelerar significativamente el acceso a los datos que se solicitan con mayor frecuencia. Entonces los núcleos, si es posible, no tendrán que acceder a una memoria principal (RAM) lenta.

Al menos en teoría. AMD recientemente anunció el procesador Athlon II X4, que es un modelo Phenom II X4 sin caché L3, insinuando que no es tan necesario. Decidimos comparar directamente dos procesadores (con y sin caché L3) para probar cómo el caché afecta el rendimiento.

Haga clic en la imagen para ampliar.

¿Cómo funciona el caché?

Antes de sumergirnos en las pruebas, es importante comprender algunos conceptos básicos. El principio del caché es bastante simple. La caché almacena los datos lo más cerca posible de los núcleos de procesamiento del procesador para reducir las solicitudes de la CPU a memorias más distantes y lentas. En las plataformas de escritorio modernas, la jerarquía de caché incluye hasta tres niveles que preceden al acceso a la RAM. Además, las memorias caché del segundo y, en particular, del tercer nivel no sólo sirven para almacenar datos en el buffer. Su finalidad es evitar que el bus del procesador se sobrecargue cuando los núcleos necesitan intercambiar información.

Aciertos y errores

La eficacia de las arquitecturas de caché se mide por la tasa de aciertos. Las solicitudes de datos que la memoria caché puede satisfacer se consideran aciertos. Si este caché no contiene los datos necesarios, entonces la solicitud se pasa a lo largo del canal de memoria y se cuenta un error. Por supuesto, los errores hacen que se requiera más tiempo para obtener información. Como resultado, aparecen “burbujas” (inactividades) y retrasos en el proceso informático. Los golpes, por el contrario, te permiten mantener el máximo rendimiento.

Entrada de caché, exclusividad, coherencia.

Las políticas de reemplazo dictan cómo se libera espacio en la caché para nuevas entradas. Debido a que los datos escritos en la memoria caché eventualmente deben aparecer en la memoria principal, los sistemas pueden hacerlo al mismo tiempo que escriben en la memoria caché (escritura directa), o pueden marcar las áreas de datos como "sucias" (escritura diferida) y escribir en memoria cuando se expulsa de la memoria caché.

Los datos en varios niveles de caché se pueden almacenar de forma exclusiva, es decir, sin redundancia. Entonces no encontrará las mismas líneas de datos en dos jerarquías de caché diferentes. O los cachés pueden funcionar de manera inclusiva, es decir, se garantiza que los niveles de caché inferiores contengan datos presentes en los niveles de caché superiores (más cercanos al núcleo del procesador). AMD Phenom utiliza un caché L3 exclusivo, mientras que Intel sigue una estrategia de caché inclusiva. Los protocolos de coherencia garantizan la integridad y actualización de los datos en diferentes núcleos, niveles de caché e incluso procesadores.

Tamaño de caché

Una caché más grande puede contener más datos, pero tiende a aumentar la latencia. Además, una memoria caché grande consume una cantidad considerable de transistores del procesador, por lo que es importante encontrar un equilibrio entre el presupuesto del transistor, el tamaño del chip, el consumo de energía y el rendimiento/latencia.

asociatividad

Las entradas en la RAM se pueden asignar directamente al caché, es decir, solo hay una posición de caché para una copia de datos de la RAM, o pueden ser asociativas de n vías, es decir, hay n ubicaciones posibles en el caché donde esta los datos pueden ser almacenados. Los grados más altos de asociatividad (hasta cachés totalmente asociativas) proporcionan una mayor flexibilidad de almacenamiento en caché porque no es necesario reescribir los datos existentes en el caché. En otras palabras, un alto grado n de asociatividad garantiza una mayor tasa de aciertos, pero también aumenta la latencia porque lleva más tiempo comprobar todas esas asociaciones en busca de un acierto. Normalmente, el grado más alto de asociación es razonable para el último nivel de almacenamiento en caché, ya que allí está disponible la capacidad máxima y la búsqueda de datos fuera de este caché hará que el procesador acceda a una RAM lenta.

Aquí hay algunos ejemplos: Core i5 e i7 usan 32 KB de caché L1 con asociatividad de 8 vías para datos y 32 KB de caché L1 con asociatividad de 4 vías para instrucciones. Es comprensible que Intel quiera que las instrucciones estén disponibles más rápido y que la caché de datos L1 tenga una tasa de aciertos máxima. La caché L2 de los procesadores Intel tiene asociatividad de 8 vías y la caché L3 de Intel es aún más inteligente, ya que implementa asociatividad de 16 vías para maximizar los accesos.

Sin embargo, AMD está siguiendo una estrategia diferente con los procesadores Phenom II X4, que utiliza un caché L1 asociativo de 2 vías para reducir la latencia. Para compensar posibles fallos, se duplicó la capacidad de la caché: 64 KB para datos y 64 KB para instrucciones. La caché L2 tiene asociatividad de 8 vías, como el diseño de Intel, pero la caché L3 de AMD funciona con asociatividad de 48 vías. Pero la decisión de elegir una arquitectura de caché particular no se puede evaluar sin considerar toda la arquitectura de la CPU. Es bastante natural que los resultados de las pruebas tengan importancia práctica, y nuestro objetivo era precisamente una prueba práctica de toda esta compleja estructura de almacenamiento en caché de varios niveles.

Cada procesador moderno tiene un caché dedicado que almacena las instrucciones y los datos del procesador, listos para su uso casi al instante. Este nivel se conoce comúnmente como caché de nivel 1 o L1 y se introdujo por primera vez en los procesadores 486DX. Recientemente, los procesadores AMD se han vuelto estándar con 64 KB de caché L1 por núcleo (para datos e instrucciones), y los procesadores Intel usan 32 KB de caché L1 por núcleo (también para datos e instrucciones).

La caché L1 apareció por primera vez en los procesadores 486DX, después de lo cual se convirtió en una característica integral de todas las CPU modernas.

El caché de segundo nivel (L2) apareció en todos los procesadores después del lanzamiento del Pentium III, aunque sus primeras implementaciones en el paquete fueron en el procesador Pentium Pro (pero no en el chip). Los procesadores modernos están equipados con hasta 6 MB de caché L2 en chip. Por regla general, este volumen se divide entre dos núcleos, por ejemplo en un procesador Intel Core 2 Duo. Las configuraciones L2 típicas proporcionan 512 KB o 1 MB de caché por núcleo. Los procesadores con una caché L2 más pequeña tienden a tener un nivel de precio más bajo. A continuación se muestra un diagrama de las primeras implementaciones de caché L2.

El Pentium Pro tenía la caché L2 en el paquete del procesador. En las generaciones posteriores de Pentium III y Athlon, la caché L2 se implementó a través de chips SRAM separados, lo cual era muy común en ese momento (1998, 1999).

El posterior anuncio de una tecnología de proceso de hasta 180 nm permitió a los fabricantes integrar finalmente la caché L2 en el procesador.

Los primeros procesadores de doble núcleo simplemente utilizaban diseños existentes que incluían dos matrices por paquete. AMD introdujo un procesador de doble núcleo en un chip monolítico, agregó un controlador de memoria y un conmutador, e Intel simplemente ensambló dos chips de un solo núcleo en un paquete para su primer procesador de doble núcleo.

Por primera vez, la caché L2 se compartió entre dos núcleos en los procesadores Core 2 Duo. AMD fue más allá y creó su primer Phenom de cuatro núcleos desde cero, e Intel volvió a utilizar un par de matrices, esta vez dos matrices Core 2 de doble núcleo, para su primer procesador de cuatro núcleos para reducir costos.

La caché de tercer nivel existe desde los primeros días del procesador Alpha 21165 (96 KB, procesadores introducidos en 1995) o IBM Power 4 (256 KB, 2001). Sin embargo, en las arquitecturas basadas en x86, la caché L3 apareció por primera vez con los modelos Intel Itanium 2, Pentium 4 Extreme (Gallatin, ambos procesadores en 2003) y Xeon MP (2006).

Las primeras implementaciones simplemente proporcionaron otro nivel en la jerarquía de la caché, aunque las arquitecturas modernas utilizan la caché L3 como un gran búfer compartido para la transferencia de datos entre núcleos en procesadores de múltiples núcleos. Esto se ve enfatizado por el alto grado n de asociatividad. Es mejor buscar datos en la caché un poco más de tiempo que terminar con una situación en la que varios núcleos utilizan un acceso muy lento a la RAM principal. AMD introdujo por primera vez la caché L3 en un procesador de escritorio con la línea Phenom ya mencionada. El Phenom X4 de 65 nm contenía 2 MB de caché L3 compartido, y el moderno Phenom II X4 de 45 nm ya tiene 6 MB de caché L3 compartido. Los procesadores Intel Core i7 e i5 utilizan 8 MB de caché L3.

Los procesadores modernos de cuatro núcleos tienen cachés L1 y L2 dedicados para cada núcleo, así como un caché L3 grande compartido por todos los núcleos. La caché L3 compartida también permite el intercambio de datos en los que los núcleos pueden trabajar en paralelo.

El primer procesador fabricado con caché L2 fue el Pentium Pro en 1995. Tenía 256 o 512 KB de caché L2 en el chip, lo que le daba una ventaja significativa sobre los procesadores Pentium convencionales, cuyo caché se encontraba en la placa base. Con la llegada del Pentium II, la memoria caché dedicada se "instaló" junto al procesador en el módulo de la ranura 1. Pero sólo el Pentium III de segunda generación para Socket 370 trasladó la memoria caché al chip del procesador. Esto continúa hasta el día de hoy, pero hay procesadores con poca cantidad de caché y otros con mucha. ¿Vale la pena gastar dinero en un modelo con un caché grande? En el pasado, la memoria caché adicional no siempre tenía un impacto notable en el rendimiento.

Si bien siempre es posible encontrar diferencias mensurables entre dos procesadores con diferentes tamaños de caché, era completamente posible comprar procesadores con cachés más pequeños para ahorrar dinero. Pero ningún procesador anterior al Core 2 Duo estaba disponible con tres opciones de caché diferentes.

El Pentium 4 en su primera generación (Willamette, 180 nm) estaba equipado con 256 KB de caché, y en la segunda generación más exitosa (Northwood, 130 nm), ya 512 KB de caché. En ese momento, se producían procesadores Celeron baratos con cachés más pequeños en los mismos núcleos informáticos. Celeron pertenece a la primera generación de productos con la misma base tecnológica para modelos de gama alta y de bajo coste, diferenciándose sólo en el tamaño de caché disponible y las frecuencias FSB/núcleo. Posteriormente se agregaron diferencias en funciones para diferenciar aún más los segmentos del mercado.

Con el lanzamiento del núcleo Prescott de 90 nm, la caché L2 aumentó a 1 MB y este procesador se convirtió en el pilar de la línea de procesadores de escritorio de Intel hasta la introducción del Cedar Mill de 2 MB y 65 nm. Intel incluso utilizó dos de estos núcleos para crear los procesadores Pentium D 900 de segunda generación. Sin embargo, velocidades de reloj más rápidas y un mayor tamaño de caché no significaron mucho incluso entonces. Hoy la situación ha cambiado: el mejor rendimiento del Core 2 Duo (Conroe, 65 nm) y el menor consumo de energía se deben en gran medida al tamaño de la caché.

AMD se mostró muy reservado a la hora de aumentar el tamaño de la caché. Lo más probable es que esto se deba al área del chip (presupuesto de transistores), ya que la cantidad de procesadores de 65 nm no puede satisfacer la demanda del mercado, y para los modelos menos rentables de 90 nm este problema es aún más grave. Intel, por otro lado, tiene la ventaja de producir todos los procesadores convencionales utilizando la tecnología de proceso de 65 nm, y la capacidad de la caché L2 seguirá creciendo. Por ejemplo, el Core 2 de próxima generación con el núcleo Penryn de 45 nm estará equipado con hasta 6 MB de caché L2. ¿Puede verse esto como una medida de marketing, o el aumento de la capacidad L2 realmente proporcionará un aumento del rendimiento? Vamos a ver.

Gran caché L2: ¿marketing o crecimiento de la productividad?

Los cachés del procesador desempeñan un papel muy específico: reducen la cantidad de accesos a la memoria al almacenar en el búfer los datos de uso frecuente. Hoy en día, la capacidad de RAM oscila entre 512 MB y 4 GB, y la capacidad de caché oscila entre 256 KB y 8 MB, según el modelo. Sin embargo, incluso un tamaño de caché pequeño de 256 o 512 KB es suficiente para proporcionar un alto rendimiento, algo que hoy en día se da por sentado.

Hay diferentes formas de organizar la jerarquía de la caché. La mayoría de las computadoras modernas tienen procesadores con una pequeña caché de primer nivel (L1, hasta 128 KB), que generalmente se divide en una caché de datos y una caché de instrucciones. La caché L2 más grande se utiliza normalmente para el almacenamiento de datos y se comparte entre los dos núcleos del procesador Core 2 Duo, aunque el Athlon 64 X2 o el Pentium D tienen cachés independientes por núcleo. La caché L2 puede ser exclusiva o inclusiva, lo que significa que puede almacenar una copia del contenido de la caché L1 o no. AMD pronto presentará procesadores con un tercer nivel de caché, que se compartirá entre cuatro núcleos en los procesadores AMD Phenom. Se espera lo mismo para la arquitectura Nehalem, que Intel introducirá en 2008 para sustituir al actual Core 2.

La caché L1 siempre ha sido parte del procesador, pero la caché L2 se instaló inicialmente en las placas base, como era el caso de muchas computadoras 486DX y Pentium. Para el caché de primer nivel, se utilizaron chips de memoria estática simples (SRAM, Static RAM). Pronto fueron reemplazados por caché de ráfaga canalizada en los procesadores Pentium hasta que fue posible instalar el caché en el chip. El Pentium Pro a 150 - 200 MHz se convirtió en el primer procesador que contiene 256 KB de caché L2 en el chip, rompiendo el récord del tamaño de paquete cerámico más grande para PC de escritorio y estaciones de trabajo. El Pentium III para Socket 370, que operaba en frecuencias de 500 MHz a 1,13 GHz, fue el primer procesador con 256 KB de caché L2 en el chip, que tenía la ventaja de una menor latencia porque el caché funciona a la velocidad de la CPU.

La caché L2 incorporada proporcionó un aumento significativo del rendimiento en casi cualquier aplicación. El aumento de rendimiento resultó ser tan significativo que la aparición de una caché L2 integrada puede considerarse el factor de rendimiento más importante para los procesadores x86. Deshabilitar la caché L2 reducirá el rendimiento más que deshabilitar el segundo núcleo de un procesador de doble núcleo.

Sin embargo, la memoria caché afecta algo más que el rendimiento. Se ha convertido en una poderosa herramienta que permite crear diferentes modelos de procesadores para los segmentos de gama baja, convencional y alta, ya que el fabricante puede seleccionar procesadores de manera flexible en función del rechazo y las velocidades de reloj. Si no hay defectos en el cristal, entonces se puede activar todo el caché L2 y las frecuencias serán altas. Si no se pueden alcanzar las frecuencias de reloj deseadas, entonces el Crystal puede convertirse en un modelo básico en la línea de gama alta, por ejemplo, Core 2 Duo 6000 con 4 MB de caché y bajas frecuencias. Si hay defectos en la caché L2, entonces el fabricante tiene la oportunidad de desactivar parte de ella y crear un modelo básico con un tamaño de caché más pequeño, por ejemplo, un Core 2 Duo E4000 con 2 MB de caché L2 o incluso un Pentium Dual Core con sólo 1 MB de caché. Todo esto es cierto, pero la pregunta es: ¿en qué medida afecta la diferencia en el tamaño de la caché al rendimiento?

CONTENIDO

¿Qué importancia tiene la caché L3 para los procesadores AMD?

Al menos en teoría. AMD anunció recientemente el procesador Athlon II X4, que es un modelo del Phenom II X4 sin caché L3, insinuando que no es tan necesario. Decidimos comparar directamente dos procesadores (con y sin caché L3) para probar cómo el caché afecta el rendimiento.

¿Cómo funciona el caché?

Aciertos y errores

Entrada de caché, exclusividad, coherencia.

Las políticas de reemplazo dictan cómo se libera espacio en la caché para nuevas entradas. Debido a que los datos escritos en la memoria caché eventualmente deben aparecer en la memoria principal, los sistemas pueden hacerlo al mismo tiempo que escriben en la memoria caché (escritura directa), o pueden marcar las áreas de datos como sucias (escritura posterior) y escribir en la memoria. cuando es desalojado del caché.

Tamaño de caché

asociatividad

Buenos días a todos. Hoy intentaremos explicarte el concepto de caché. La memoria caché del procesador es una matriz de procesamiento de datos ultrarrápida, cuya velocidad supera a la RAM estándar entre 16 y 17 veces, si hablamos de DDR4.

De este artículo aprenderás:

Es el volumen de memoria caché lo que permite que la CPU funcione a velocidades máximas sin esperar a que la RAM procese ningún dato y envíe los resultados de los cálculos completados al chip para su posterior procesamiento. Se puede ver un principio similar en el disco duro, solo que utiliza un búfer de 8 a 128 MB. Otra cosa es que las velocidades son mucho menores, pero el proceso de trabajo es similar.

¿Qué es la caché del procesador?

¿Cómo funciona generalmente el proceso de cálculo? Todos los datos se almacenan en la RAM, que está diseñada para el almacenamiento temporal de información importante del usuario y del sistema. El procesador selecciona por sí mismo una cierta cantidad de tareas, que se introducen en un bloque ultrarrápido llamado memoria caché, y comienza a abordar sus responsabilidades directas.

Los resultados del cálculo se envían nuevamente a la RAM, pero en cantidades mucho más pequeñas (en lugar de mil valores de salida, obtenemos muchos menos) y se toma una nueva matriz para procesar. Y así sucesivamente hasta terminar el trabajo.

La velocidad de funcionamiento está determinada por la eficiencia de la RAM. Pero ni un solo módulo DDR4 moderno, incluidas las soluciones de overclocking con frecuencias inferiores a 4000 MHz, se acerca a las capacidades del procesador más atrofiado con su caché "lento".

Esto se debe a que la velocidad de la CPU supera el rendimiento de la RAM en promedio 15 veces, o incluso más. Y no se limite a mirar los parámetros de frecuencia; además de ellos, hay muchas diferencias.
En teoría, resulta que incluso los superpoderosos Intel Xeon y AMD Epyc se ven obligados a estar inactivos, pero en realidad ambos chips de servidor funcionan al límite de sus capacidades. Y todo porque recopilan la cantidad necesaria de datos según el tamaño de la caché (hasta 60 MB o más) y los procesan instantáneamente. La RAM sirve como una especie de almacén del que se extraen las matrices para los cálculos. La eficiencia informática de la computadora aumenta y todos están contentos.

Una breve excursión a la historia.

Las primeras menciones a la memoria caché se remontan a finales de los años 80. Hasta ese momento, la velocidad del procesador y la memoria eran aproximadamente las mismas. El rápido desarrollo de los chips requirió encontrar algún tipo de "muleta" para aumentar el nivel de rendimiento de la RAM, pero el uso de chips ultrarrápidos era muy costoso y, por lo tanto, decidieron conformarse con una opción más económica: introducir un procesador de alta velocidad. velocidad de la matriz de memoria en la CPU.

El módulo de memoria caché apareció por primera vez en el Intel 80386. En ese momento, las latencias operativas de la DRAM fluctuaban alrededor de 120 nanosegundos, mientras que el módulo SRAM más moderno reducía la latencia a unos impresionantes 10 nanosegundos para esos tiempos. Una imagen aproximada se demuestra más claramente en la confrontación entre HDD y SSD.

Inicialmente, la memoria caché se soldaba directamente a las placas base, debido al nivel de proceso técnico de la época. A partir del Intel 80486, se incorporaron 8 KB de memoria directamente en el procesador, lo que aumentó aún más el rendimiento y redujo el área del procesador.

Esta tecnología de disposición siguió siendo relevante solo hasta el lanzamiento del Pentium MMX, después de lo cual la memoria SRAM fue reemplazada por SDRAM más avanzada.
Y los procesadores se han vuelto mucho más pequeños y, por lo tanto, no hay necesidad de circuitos externos.

Niveles de caché

En el etiquetado de las CPU modernas, además de y , puede encontrar el concepto de tamaño de caché de niveles 1, 2 y 3. ¿Cómo se determina y en qué afecta? Entendámoslo en términos simples.

La caché de nivel 1 (L1) es el chip más importante y rápido de la arquitectura de la CPU. Un procesador puede acomodar una cantidad de módulos igual a la cantidad de núcleos. Cabe destacar que el chip puede almacenar en la memoria los datos más populares e importantes sólo desde su núcleo. El tamaño de la matriz suele estar limitado a 32-64 KB.
Caché de segundo nivel (L2): la caída de velocidad se compensa con un aumento en el tamaño del búfer, que alcanza 256 o incluso 512 KB. El principio de funcionamiento es el mismo que el de L1, pero la frecuencia de las solicitudes de memoria es menor debido al almacenamiento de datos de menor prioridad en ella.
La caché de tercer nivel (L3) es la sección más lenta y voluminosa de todas. Y aún así esta matriz es mucho más rápida que la RAM. El tamaño puede alcanzar los 20 e incluso los 60 MB cuando se trata de chips de servidor. Los beneficios del conjunto son enormes: es un vínculo clave en el intercambio de datos entre todos los núcleos del sistema. Sin L3, todos los elementos del chip estarían dispersos.

A la venta puede encontrar estructuras de memoria de dos y tres niveles. ¿Cuál es mejor? Si sólo usas el procesador para programas de oficina y juegos casuales, no sentirás ninguna diferencia. Si el sistema se monta para juegos 3D complejos, archivar, renderizar y trabajar con gráficos, el aumento en algunos casos oscilará entre el 5 y el 10%.
Una caché de tercer nivel sólo se justifica si tiene la intención de trabajar regularmente con aplicaciones multiproceso que requieren cálculos complejos regulares. Por esta razón, los modelos de servidor suelen utilizar cachés L3 de gran tamaño. Aunque hay casos en los que esto no es suficiente y, por lo tanto, es necesario instalar adicionalmente los llamados módulos L4, que parecen un chip separado conectado a la placa base.

¿Cómo puedo saber la cantidad de niveles y el tamaño de la caché en mi procesador?

Para empezar, esto se puede hacer de 3 formas:

a través de la línea de comando (solo caché L2 y L3);
buscando especificaciones en Internet;
utilizando utilidades de terceros.

Si tomamos como base el hecho de que para la mayoría de los procesadores L1 es de 32 KB, y L2 y L3 pueden fluctuar mucho, entonces los 2 últimos valores son los que necesitamos. Para buscarlos, abra la línea de comando a través de "Inicio" (ingrese el valor "cmd" a través de la barra de búsqueda).

El sistema mostrará un valor sospechosamente alto para L2. Debe dividirlo por la cantidad de núcleos de procesador y averiguar el resultado final.

Si planea buscar datos en la red, primero averigüe el nombre exacto de la CPU. Haga clic derecho en el icono "Mi PC" y seleccione "Propiedades". En la columna "Sistema" habrá un elemento "Procesador", que realmente necesitamos. Reescribe su nombre en Google o Yandex y mira el significado en los sitios. Para obtener información fiable, es mejor elegir los portales oficiales del fabricante (Intel o AMD).
El tercer método tampoco causa problemas, pero requiere la instalación de software adicional como GPU-Z, AIDA64 y otras utilidades para estudiar las especificaciones de la piedra. Una opción para quienes gustan del overclocking y de retocar los detalles.

Resultados

Ahora comprende qué es la memoria caché, de qué depende su tamaño y para qué se utiliza una matriz de datos ultrarrápida. Por el momento, las soluciones más interesantes del mercado en cuanto a gran memoria caché son los dispositivos AMD Ryzen 5 y 7 con sus 16 MB L3.

En los siguientes artículos cubriremos temas como los procesadores, los beneficios de los chips y más. y estad atentos. Hasta la próxima, adiós.

Un caché es un búfer intermedio de acceso rápido que contiene información que es más probable que se solicite. Acceder a los datos en el caché es más rápido que recuperar los datos originales de la memoria operativa (RAM) y más rápido que la memoria externa (disco duro o unidad de estado sólido), lo que reduce el tiempo promedio de acceso y aumenta el rendimiento general del sistema informático.

Varios modelos de unidad central de procesamiento (CPU) tienen su propia caché para minimizar el acceso a la memoria de acceso aleatorio (RAM), que es más lenta que los registros. La memoria caché puede proporcionar importantes beneficios de rendimiento cuando la velocidad del reloj de la RAM es significativamente menor que la velocidad del reloj de la CPU. La velocidad del reloj de la memoria caché no suele ser mucho menor que la velocidad de la CPU.

Niveles de caché

La caché de la CPU se divide en varios niveles. En un procesador de uso general actual, el número de niveles puede llegar a 3. La caché de nivel N+1 suele ser mayor en tamaño y más lenta en velocidad de acceso y transferencia de datos que la caché de nivel N.

La memoria más rápida es la caché de primer nivel: caché L1. De hecho, es parte integral del procesador, ya que está ubicado en el mismo chip y forma parte de los bloques funcionales. En los procesadores modernos, la caché L1 suele dividirse en dos cachés, la caché de instrucciones y la caché de datos (arquitectura Harvard). La mayoría de los procesadores sin caché L1 no pueden funcionar. La caché L1 funciona a la frecuencia del procesador y, en general, se puede acceder a ella en cada ciclo de reloj. A menudo es posible realizar múltiples operaciones de lectura/escritura simultáneamente. La latencia de acceso suele ser de 2 a 4 ciclos de reloj centrales. El volumen suele ser pequeño: no más de 384 KB.

El segundo más rápido es el caché L2, un caché de segundo nivel, generalmente ubicado en el chip, como el L1. En procesadores más antiguos, un conjunto de chips en la placa base. Volumen de caché L2 de 128 KB a 1?12 MB. En los procesadores multinúcleo modernos, la caché de segundo nivel, ubicada en el mismo chip, es una memoria separada: con un tamaño de caché total de nM MB, cada núcleo tiene nM/nC MB, donde nC es el número de núcleos del procesador. Normalmente, la latencia de la caché L2 ubicada en el chip central es de 8 a 20 ciclos de reloj central.

El caché de tercer nivel es el menos rápido, pero puede tener un tamaño muy impresionante: más de 24 MB. La caché L3 es más lenta que las cachés anteriores, pero sigue siendo significativamente más rápida que la RAM. En sistemas multiprocesador es de uso común y está destinado a sincronizar datos de diferentes L2.

A veces también hay un caché de cuarto nivel, que suele estar ubicado en un chip separado. El uso de caché de nivel 4 se justifica sólo para servidores y mainframes de alto rendimiento.

El problema de la sincronización entre diferentes cachés (tanto de uno como de múltiples procesadores) se resuelve mediante la coherencia de la caché. Hay tres opciones para intercambiar información entre cachés de diferentes niveles o, como dicen, arquitecturas de caché: inclusiva, exclusiva y no exclusiva.

Popular en la categoría: