El Criterio de información de Akaike (AIC) es un método matemático para evaluar qué tan bien se ajusta un modelo a los datos a partir de los cuales se generó. En Estadística, la AIC se utiliza para comparar diferentes modelos posibles y determinar cuál es el más adecuado para los datos. AIC se calcula a partir de:
- El número de variables independientes utilizadas para construir el modelo.
- La estimación de máxima verosimilitud del modelo (qué tan bien el modelo reproduce los datos).,
el modelo de mejor ajuste según AIC es el que explica la mayor cantidad de variación utilizando el menor número posible de variables independientes.
cuándo usar AIC
en estadísticas, AIC se usa con mayor frecuencia para la selección de modelos. Al calcular y comparar las puntuaciones AIC de varios modelos posibles, Puede elegir el que mejor se ajuste a los datos.,
al probar una hipótesis, puede recopilar datos sobre variables de las que no está seguro, especialmente si está explorando una nueva idea. Desea saber cuál de las variables independientes que ha medido explica la variación en su variable dependiente.
una buena manera de averiguarlo es crear un conjunto de modelos, cada uno conteniendo una combinación diferente de las variables independientes que ha medido., Estas combinaciones deben basarse en:
- Su conocimiento del sistema de estudio-evite el uso de parámetros que no están conectados lógicamente, ya que puede encontrar correlaciones espurias entre casi cualquier cosa!
- Su diseño experimental-por ejemplo, si ha dividido dos tratamientos entre los sujetos de prueba, entonces probablemente no hay razón para probar una interacción entre los dos tratamientos.
una vez que haya creado varios modelos posibles, puede usar AIC para compararlos. Las puntuaciones AIC más bajas son mejores, y AIC penaliza a los modelos que usan más parámetros., Por lo tanto, si dos modelos explican la misma cantidad de variación, el que tenga menos parámetros tendrá una puntuación AIC más baja y será el modelo de mejor ajuste.
cómo comparar modelos utilizando AIC
AIC determina el valor de información relativa del modelo utilizando la estimación de máxima verosimilitud y el número de parámetros (variables independientes) en el modelo. La fórmula para AIC es:
K es el número de variables independientes utilizadas y L es la estimación de log-verosimilitud (también conocida como la probabilidad de que el modelo podría haber producido los valores y observados)., La K por defecto es siempre 2, así que si tu modelo usa una variable independiente tu K será 3, si usa dos variables independientes tu K será 4, y así sucesivamente.
para comparar modelos utilizando AIC, debe calcular el AIC de cada modelo. Si un modelo es más de 2 unidades AIC más bajo que otro, entonces se considera significativamente mejor que ese modelo.
Puede calcular fácilmente AIC a mano si tiene el log-verosimilitud de su modelo, pero calcular log-verosimilitud es complicado! La mayoría del software estadístico incluirá una función para calcular AIC., Usaremos R para ejecutar nuestro análisis AIC.
AIC R
Para comparar varios modelos, usted puede crear primero el conjunto completo de los modelos que quiere comparar y, a continuación, ejecute aictab()
en el set.,
para los datos de bebidas endulzadas con azúcar, crearemos un conjunto de modelos que incluyen las tres variables predictoras (edad, sexo y consumo de bebidas) en varias combinaciones. Descargue el conjunto de datos y ejecute las líneas de código en R para probarlo usted mismo.
descargar el conjunto de datos de muestra
crear los modelos
primero, podemos probar cómo funciona cada variable por separado.,
a continuación, queremos saber si la combinación de edad y sexo es mejor para describir la variación en el IMC por sí sola, sin incluir el consumo de bebidas.
También queremos saber si la combinación de edad, sexo y consumo de bebidas es mejor para describir la variación en el IMC que cualquiera de los modelos anteriores.,
por último, podemos comprobar si la interacción de la edad, el sexo y el consumo de bebidas puede explicar IMC mejor que cualquiera de los modelos anteriores.
Comparar los modelos
comparar estos modelos y encontrar cuál es el mejor ajuste para los datos, usted puede poner juntos en una lista y utilice el aictab() para comparar todos ellos a la vez. Para usar aictab(), primero cargue la biblioteca AICcmodavg.,
luego coloque los modelos en una lista (‘modelos’) y nombre cada uno de ellos para que la tabla AIC sea más fácil de leer (‘modelo.nombre’).
finalmente, ejecute aictab()
para hacer la comparación.
interpretando los resultados
el código anterior producirá la siguiente tabla de salida:
el modelo de mejor ajuste siempre aparece primero., La tabla de selección del modelo incluye información sobre:
- K: el número de parámetros en el modelo. El valor predeterminado K es 2, por lo que un modelo con un parámetro tendrá una K de 2 + 1 = 3.
- AICc: la puntuación de información del modelo (la » c » minúscula indica que el valor se ha calculado a partir de la prueba AIC corregida para tamaños de muestra pequeños). Cuanto menor sea el valor AIC, mejor se ajustará el modelo.
- Delta_AICc: la diferencia en la puntuación AIC entre el mejor modelo y el modelo que se compara. En esta tabla, el siguiente mejor modelo tiene un delta-AIC de 6.,69 en comparación con el modelo superior, y el tercer mejor modelo tiene un delta-AIC de 15.96 en comparación con el modelo superior.
- AICcWt: Peso AICc, que es la proporción de la cantidad total de potencia predictiva proporcionada por el conjunto completo de modelos contenidos en el modelo que se evalúa. En este caso, el modelo superior contiene el 97% de la explicación total que se puede encontrar en el conjunto completo de modelos.
- Cum.Wt: suma de los pesos del AICc. Aquí los dos mejores modelos contienen el 100% del peso acumulado de AICc.
- LL: Log-likelihood., Este es el valor que describe la probabilidad del modelo, dados los datos. La puntuación AIC se calcula a partir de la LL y K.
de esta tabla podemos ver que el mejor modelo es el modelo combinado – el modelo que incluye todos los parámetros pero sin interacciones ( IMC ~ edad + sexo + consumo).
el modelo es mucho mejor que todos los demás, ya que lleva el 96% del peso acumulado del modelo y tiene la puntuación AIC más baja. El siguiente mejor modelo es más de 2 unidades AIC más alto que el mejor modelo (6.33 unidades) y lleva solo el 4% del peso acumulado del modelo.,
En base a esta comparación, elegiríamos el modelo de combinación para usar en nuestro análisis de datos.
informar de los resultados
si está utilizando la selección del modelo AIC en su investigación, puede indicarlo en la sección Métodos. Informe de que ha utilizado la selección del modelo AIC, explique brevemente el modelo que mejor se ajusta y especifique el peso AIC del modelo.,
después de encontrar el modelo más adecuado, puede seguir adelante y ejecutar el modelo y evaluar los resultados. El resultado de la evaluación de su modelo se puede informar en la sección de resultados de su artículo.,
Preguntas Frecuentes sobre AIC
El Criterio de información de Akaike es una prueba matemática utilizada para evaluar qué tan bien un modelo se ajusta a los datos que se pretende describir. Penaliza los modelos que utilizan variables más independientes (parámetros) como una forma de evitar el ajuste excesivo.
la AIC se usa con mayor frecuencia para comparar la bondad de ajuste relativa entre los diferentes modelos en consideración y luego elegir el modelo que mejor se adapte a los datos.
en Estadística, un modelo es la colección de una o más variables independientes y sus interacciones predichas que los investigadores utilizan para tratar de explicar la variación en su variable dependiente.
puede probar un modelo utilizando una prueba estadística. Para comparar qué tan bien se ajustan los diferentes modelos a sus datos, puede utilizar el criterio de información de Akaike para la selección de modelos.
en Estadística, la selección de modelos es un proceso que los investigadores utilizan para comparar el valor relativo de diferentes modelos estadísticos y determinar cuál es el mejor ajuste para los datos observados.
El Criterio de información de Akaike es uno de los métodos más comunes de selección de modelos. AIC pondera la capacidad del modelo para predecir los datos observados contra el número de parámetros que el modelo requiere para alcanzar ese nivel de precisión.
la selección del modelo AIC puede ayudar a los investigadores a encontrar un modelo que explique la variación observada en sus datos mientras evita el sobreajuste.,
El Criterio de información de Akaike se calcula a partir del log-verosimilitud máximo del modelo y del número de parámetros (K) utilizados para alcanzar esa verosimilitud. La función AIC es 2K-2 (log-verosimilitud).
los valores de AIC más bajos indican un modelo de mejor ajuste, y un modelo con un delta-AIC (la diferencia entre los dos valores de AIC que se comparan) de más de -2 se considera significativamente mejor que el modelo con el que se está comparando.