Análisis de regresión: IMACEC e índices de confianza

En este artículo se muestra un análisis de regresión, en que se evaluó la capacidad de predicción de los índices de confianza de consumidores y empresarios. La variables a predecir fue la tasa de crecimiento anual del IMACEC.

El código utilizado en este análisis se puede encontrar en GitHub.

Introducción: descripción de la evaluación

Se evaluó la capacidad de predecir de los índices individuales o como combinaciones: (1) índices individuales; (2) índices de consumidores o empresarios en conjunto; (3) combinaciones de índices de consumidores y empresarios; y (4) todos los índices disponibles simultáneamente.

El modelo utilizado para hacer las predicciones fue la regresión lineal, donde la variable dependiente fue la tasa de crecimiento anual del IMACEC, y los predictores fueron los índices de confianza de consumidores y empresarios.

Para evaluar la capacidad de predecir se usaron diferentes métricas:

  • CV_RMSE. Error de predicción de k-fold-cross-validation, que es una estimación del error de predicción fuera de la muestra. En esta técnica se divide la muestra en k partes. Cada modelo se ajusta K veces a los datos, usando (k-1) partes de los datos, y se hace una predicción para la parte excluida. El proceso se repite iterativamente hasta obtener K métricas de error, que luego se promedian para obtener una métrica general. Se usó un k=5, y como métrica se utilizó la raíz del error cuadrático medio.
  • RMSE. Raíz cuadrada del error cuadrático medio (MSE) dentro de la muestra. El error cuadrático medio es el promedio de los errores de predicción al cuadrado. La diferencia entre esta métrica y la anterior es una medida del sobreajuste del modelo: si el CV_RMSE es significativamente mayor al RMSE significa que el modelo no generaliza bien, lo que se debería a un exceso de varianza en las predicciones. Generalmente, al aumentar el número de variables en una regresión disminuye el sesgo de la predicción, mientras que aumenta su varianza.
  • AdjR2. Coeficiente de determinación ajustado (dentro de la muestra). El R2 se puede interpretar como una medida estandarizada del MSE, que se distribuye entre 0 y 1, donde 1 es mejor. El R2 ajustado es un R2 corregido, en que se penaliza la inclusión de una mayor cantidad de variables en los modelos.
  • MAE. Error absoluto medio (dentro de la muestra). Promedio de los errores de predicción en valor absoluto. Se puede interpretar como el margen de error de la predicción.

Se consideró como métrica principal el CV_RMSE, ya que lo más importante para un modelo es que haga buenas predicciones fuera de la muestra.

Para evaluar la capacidad de predicción se usó una muestra en común para ajustar los modelos y hacer predicciones. De esta manera se garantiza que todos los modelos hayan sido evaluados con los mismos datos. También se usó una semilla aleatoria para asegurar que el CV_RMSE se haya calculado con las mismas observaciones.

Análisis de correlaciones

Como referencia se muestra la matriz de correlaciones entre la tasa de crecimiento anual del IMACEC y los índices de confianza de consumidores y empresarios. Se observa que los índices más a menos correlacionados con el IMACEC son: IMCE (0.68, confianza empresarial), IPECO (0.66, confianza de los consumidores), ICE (0.65, confianza empresarial), IPEC (0.60, confianza de los consumidores). También se observa una alta correlación entre los índices de empresarios (0.89, IMCE e ICE) y consumidores (0.84, IPECO e IPEC).

Gráfico

Descripción generada automáticamente
Matriz de correlaciones

Predictores

Como se mencionó anteriormente, los predictores son los índices de confianza de consumidores y empresarios (valores contemporáneos), en forma individual o en distintas combinaciones, que son las siguientes:

  • IPECO (índice individual)
  • IPEC (índice individual)
  • ICE (índice individual)
  • IMCE (índice individual)
  • Consumidores (IPECO + IPEC)
  • Empresarios (ICE + IMCE)
  • IPECO + ICE
  • IPEC + ICE
  • IPECO + IMCE
  • IPEC + IMCE
  • Todos (IPECO + IPEC + ICE + IMCE)

Primera evaluación: índices de confianza

En la primera evaluación se usaron los cuatro índices de confianza en su estado original, tal como se publican. Tras eliminar los missing values se obtuvo una muestra que abarca el periodo 2004-12 a 2021-04.

Las métricas obtenidas son las siguientes:

El mejor modelo según CV_RMSE es el que combina los índices de consumidores y empresarios: IPECO + ICE. Dentro de la muestra el mejor modelo fue el que utilizó todos los índices, que obtuvo un R2 ajustado de 0.53. sin embargo, se aprecia que el R2 es bajo, lo que sugiere que utilizar exclusivamente índices de confianza no es suficiente para hacer buenas predicciones de una variable como la tasa de crecimiento anual del IMACEC.

A continuación se muestran las predicciones del mejor modelo según CV_RMSE:

Gráfico, Gráfico de líneas

Descripción generada automáticamente
Predicciones del modelo en base a IPECO + ICE

Segunda evaluación: promedios móviles de los índices de confianza

En artículos anteriores se observó que la correlación entre IMACEC e índices de confianza aumentaba cuando se usaban los promedios móviles de los indicadores, lo que se debería a que de esta manera se reduce la alta volatilidad que muestran los índices de confianza, permitiendo diferenciar mejor la señal del ruido. Otra explicación es que las fluctuaciones del IMACEC, más que deberse a la confianza de un solo periodo en particular, se expliquen por la confianza promedio de los N meses anteriores, lo que implica asumir que los efectos de la confianza sobre la actividad económica tienen cierta persistencia.

Ver artículos anteriores:

ICE, Indicadores Sectoriales y el IMACEC

IPECO, sus distintas dimensiones y el IMACEC.

En los análisis anteriores se encontró que las más altas correlaciones se daban con los promedios semestrales de los índices de confianza, por lo que se repetirá el ejercicio anterior usando los promedios móviles semestrales de los índices como predictores del IMACEC. Al tomar promedios móviles se pierden observaciones al inicio de la muestra, por lo que el nuevo periodo de evaluación comprende datos entre 2005-10 y 2021-04.

Los resultados son los siguientes:

Texto

Descripción generada automáticamente

Las mejores métricas las obtuvo el modelo que ocupa todos los indicadores. El R2 ajustado fue de 0.60, mayor al obtenido en el caso anterior, que fue de 0.53, aunque sigue siendo bajo. Se puede decir que al usar los promedios móviles semestrales de los cuatro índices de confianza como predictores, se logra explicar un 60% de la varianza de la tasa de crecimiento anual del IMACEC.

Predicciones del mejor modelo según CV_RMSE:

Gráfico, Gráfico de líneas

Descripción generada automáticamente
Predicciones del modelo en base a todos los índices

Tercera evaluación: índices de percepciones/sectores

Los índices de confianza son promedios (simples o ponderados) de otras variables, que denominamos índices de percepciones o índices sectoriales, y que se construyen a partir de las preguntas de las encuestas a consumidores y de las respuestas de empresarios de sectores económicos específicos, respectivamente.

Se podría esperar que las predicciones mejoren si se usan los índices de percepciones/sectores como predictores de la tasa de crecimiento anual del IMACEC debido a que se cuenta con una mayor cantidad y variedad de información. Parte de dicha información se pierde cuando se agregan las percepciones/sectores para producir los índices de confianza. Asimismo, es posible que la forma de agregar las percepciones/sectores no sea la óptima, o que la mejor forma de agregar los índices cambie dependiendo de la variable que se quiere predecir. Esta hipótesis se prueba en esta sección. El periodo de evaluación comprende observaciones entre 2005-07 y 2021-04.

Los resultados son los siguientes:

Texto

Descripción generada automáticamente

Nuevamente se aprecia que el mejor modelo es uno que combina las percepciones/sectores de consumidores y empresarios, aunque en este caso corresponden a percepciones/sectores del IPECO + IMCE. Dentro de la muestra se encontró que el mejor modelo fue el que consideró a todos los índices como predictores, cuyo R2 ajustado fue de 0.68. En comparación, el modelo que usó los índices de confianza (promedio de las percepciones) tuvo un R2 ajustado de 0.53, y que ocupó promedios móviles semestrales de los índices de confianza tuvo un R2 ajustado de 0.60.

Predicciones del mejor modelo según CV_RMSE:

Gráfico, Gráfico de líneas

Descripción generada automáticamente
Predicciones del modelo en base a IPECO + IMCE

Cuarta evaluación: promedios móviles de las percepciones/sectores

Para finalizar se repite el ejercicio anterior pero esta vez usando los promedios móviles semestrales de las percepciones/sectores. El periodo de evaluación abarca datos entre 2005-12 y 2021-04.

Resultados:

Texto

Descripción generada automáticamente

En esta oportunidad el mejor modelo según CV_RMSE fue el que utilizó los índices sectoriales de las encuestas a empresarios: ICE + IMCE. Por otro lado, el mejor R2 ajustado lo obtuvo nuevamente el modelo que consideró todas las variables, igual a 0.70. Como referencia, el primer mejor modelo, que usó sólo los índices de confianza originales, tuvo un R2 ajustado de 0.53; el mejor modelo entre los que ocuparon promedios móviles semestrales de los índices de confianza tuvo un R2 ajustado de 0.60; y el mejor modelo entre los que ocuparon índices de percepciones/sectores tuvo un R2 ajustado de 0.68.

Predicciones del mejor modelo según CV_RMSE:

Gráfico, Gráfico de líneas

Descripción generada automáticamente
Predicciones del modelo en base a ICE + IMCE

Conclusiones

El análisis permite realizar las siguientes conclusiones:

  • Al predecir la tasa de crecimiento anual del IMACEC es mejor utilizar variables de distintas encuestas que sólo variables de encuestas individuales.
  • En la gran mayoría de los casos la mejor combinación de variables consideró tanto indicadores de encuestas a consumidores como de las encuestas a empresarios.
  • Se obtienen mejores resultados al usar los índices de percepciones/sectores que al usar los índices de confianza, que son promedios de los índices de percepciones/sectores. Así se cuenta con más cantidad y variedad de información para los modelos.
  • Se obtienen mejores resultados al usar los promedios móviles semestrales de los índices de confianza/percepciones/sectores, probablemente debido a que se reduce el ruido de los índices originales, o a que el efecto de la confianza sobre la actividad económica es persistente.
  • Por último, se destaca que usar solamente índices de confianza o de percepciones no es suficiente para hacer buenas predicciones de la tasa de crecimiento anual del IMACEC.

Contenido relacionado