Le critère D’information Akaike (AIC) est une méthode mathématique pour évaluer dans quelle mesure un modèle correspond aux données à partir desquelles il a été généré. En statistiques, L’AIC est utilisé pour comparer différents modèles possibles et déterminer lequel convient le mieux aux données. AIC est calculé à partir de:
- Le nombre de variables indépendantes utilisées pour construire le modèle.
- estimation du maximum de vraisemblance du modèle (dans quelle mesure le modèle reproduit les données).,
le modèle de meilleur ajustement selon AIC est celui qui explique la plus grande quantité de variation en utilisant le moins de variables indépendantes possibles.
Quand utiliser AIC
Dans les statistiques, l’AIC est le plus souvent utilisé pour la sélection de modèle. En calculant et en comparant les scores AIC de plusieurs modèles possibles, vous pouvez choisir celui qui convient le mieux aux données.,
lorsque vous testez une hypothèse, vous pouvez collecter des données sur des variables dont vous n’êtes pas certain, surtout si vous explorez une nouvelle idée. Vous voulez savoir laquelle des variables indépendantes que vous avez mesurées explique la variation de votre variable dépendante.
Un bon moyen de le savoir est de créer un ensemble de modèles, chacun contenant une combinaison différente des variables indépendantes mesurées., Ces combinaisons doivent être basées sur:
- votre connaissance du système d’étude-évitez d’utiliser des paramètres qui ne sont pas logiquement connectés, car vous pouvez trouver des corrélations fausses entre presque n’importe quoi!
- votre plan expérimental – par exemple, si vous avez divisé deux traitements entre les sujets de test, il n’y a probablement aucune raison de tester une interaction entre les deux traitements.
Une fois que vous avez créé plusieurs modèles possibles, vous pouvez utiliser AIC pour les comparer. Les scores AIC inférieurs sont meilleurs, et AIC pénalise les modèles qui utilisent plus de paramètres., Donc, si deux modèles expliquent la même quantité de variation, celui avec moins de paramètres aura un score AIC inférieur et sera le modèle le mieux adapté.
comment comparer des modèles avec AIC
AIC détermine la valeur d’information relative du modèle en utilisant l’estimation du maximum de vraisemblance et le nombre de paramètres (variables indépendantes) dans le modèle. La formule pour AIC est la suivante:
K est le nombre de variables indépendantes utilisées et L est l’estimation de log-vraisemblance (alias la probabilité que le modèle ait pu produire vos valeurs y observées)., Le K par défaut est toujours 2, donc si votre modèle utilise une variable indépendante, Votre K sera 3, s’il utilise deux variables indépendantes, votre K sera 4, et ainsi de suite.
pour comparer des modèles à l’aide de L’AIC, vous devez calculer l’AIC de chaque modèle. Si un modèle est inférieur de plus de 2 unités AIC à un autre, il est considéré comme nettement meilleur que ce modèle.
Vous pouvez facilement calculer AIC à la main si vous avez la log-vraisemblance de votre modèle, mais le calcul de la log-vraisemblance est compliqué! La plupart des logiciels statistiques comprendront une fonction de calcul de L’AIC., Nous utiliserons R pour exécuter notre analyse AIC.
AIC dans R
Pour comparer plusieurs modèles, vous pouvez d’abord créer l’ensemble des modèles que vous souhaitez comparer et puis exécutez aictab()
sur le plateau.,
pour les données sur les boissons sucrées, nous allons créer un ensemble de modèles qui incluent les trois variables prédictives (âge, sexe et consommation de boissons) dans diverses combinaisons. Téléchargez l’ensemble de données et exécutez les lignes de code dans R pour l’essayer vous-même.
Télécharger l’échantillon de données,
Créer les modèles
tout d’Abord, nous pouvons tester le fonctionnement de chaque variable effectue séparément.,
ensuite, nous voulons savoir si la combinaison de l’âge et du sexe est meilleure pour décrire la variation de l’IMC par elle-même, sans inclure la consommation de boissons.
nous voulons également savoir si la combinaison de l’âge, du sexe et de la consommation de boissons décrit mieux la variation de L’IMC que les modèles précédents.,
Enfin, on peut vérifier si l’interaction de l’âge, le sexe et la consommation de boissons peut expliquer l’IMC mieux que tous les modèles précédents.
Comparer les modèles
Pour comparer ces modèles, et trouver qui est le meilleur ajustement pour les données, vous pouvez les mettre ensemble dans une liste et d’utiliser le aictab() la commande de comparer tous à la fois. Pour utiliser aictab(), chargez d’abord la bibliothèque AICcmodavg.,
Ensuite, mettez les modèles dans une liste (‘modèles’) et nommez chacun d’eux afin que la table AIC soit plus facile à lire (‘modèle.nom’).
enfin, exécutezaictab()
pour effectuer la comparaison.
l’Interprétation des résultats
Le code ci-dessus va produire le tableau de sortie suivant:
Le meilleur ajustement du modèle est toujours listé en premier., Le tableau de sélection du modèle contient des informations sur:
- K: le nombre de paramètres dans le modèle. Le K par défaut est 2, donc un modèle avec un paramètre aura un K de 2 + 1 = 3.
- AICc: le score d’information du modèle (le » c » minuscule indique que la valeur a été calculée à partir du test AIC corrigé pour les petits échantillons). Plus la valeur AIC est petite, meilleur est l’ajustement du modèle.
- Delta_AICc: la différence de score AIC entre le meilleur modèle et le modèle à comparer. Dans ce tableau, le premier modèle a un delta-AIC de 6.,69 par rapport au modèle haut de gamme, et le troisième meilleur modèle a un delta-AIC de 15, 96 par rapport au modèle haut de gamme.
- aiccwt: poids AICc, qui est la proportion de la quantité totale de puissance prédictive fournie par l’ensemble complet des modèles contenus dans le modèle Évalué. Dans ce cas, le modèle supérieur contient 97% de l’explication totale qui peut être trouvée dans l’ensemble complet des modèles.
- sperme.Poids: la somme des poids AICc. Ici, les deux premiers modèles contiennent 100% du poids cumulé de L’AICc.
- LL: log-vraisemblance., Il s’agit de la valeur décrivant la probabilité du modèle, compte tenu des données. Le score AIC est calculé à partir du LL et du K.
à partir de ce tableau, nous pouvons voir que le meilleur modèle est le modèle de combinaison – le modèle qui inclut tous les paramètres mais aucune interaction (IMC ~ âge + sexe + consommation).
le modèle est beaucoup mieux que tous les autres, car il porte 96% du poids cumulatif du modèle et a le score AIC le plus bas. Le modèle next-best est supérieur de plus de 2 unités AIC au modèle best (6,33 unités) et ne porte que 4% du poids cumulatif du modèle.,
sur la base de cette comparaison, nous choisirions le modèle de combinaison à utiliser dans notre analyse de données.
rapport des résultats
Si vous utilisez la sélection de modèles AIC dans votre recherche, vous pouvez l’indiquer dans votre section Méthodes. Signalez que vous avez utilisé la sélection du modèle AIC, expliquez brièvement le modèle le mieux adapté que vous avez trouvé et indiquez le poids AIC du modèle.,
Après avoir trouvé le modèle le mieux adapté, vous pouvez exécuter le modèle et évaluer les résultats. Les résultats de votre évaluation de modèle peuvent être rapportés dans la section résultats de votre document.,
Foire aux questions sur AIC
Le critère D’information Akaike est un test mathématique utilisé pour évaluer dans quelle mesure un modèle correspond aux données qu’il est censé décrire. Il pénalise les modèles qui utilisent des variables plus indépendantes (paramètres) comme moyen d’éviter le sur-Ajustement.
L’AIC est le plus souvent utilisé pour comparer l’adéquation relative entre les différents modèles considérés, puis pour choisir le modèle qui correspond le mieux aux données.
en statistique, un modèle est la collection d’une ou plusieurs variables indépendantes et de leurs interactions prédites que les chercheurs utilisent pour essayer d’expliquer la variation de leur variable dépendante.
Vous pouvez tester un modèle à l’aide d’un test statistique. Pour comparer la façon dont les différents modèles correspondent à vos données, vous pouvez utiliser le critère D’information D’Akaike pour la sélection du modèle.
En statistique, la sélection de modèles est un processus utilisé par les chercheurs pour comparer la valeur relative de différents modèles statistiques et déterminer lequel convient le mieux aux données observées.
Le critère D’information Akaike est l’une des méthodes les plus courantes de sélection de modèles. L’AIC pondère la capacité du modèle à prédire les données observées par rapport au nombre de paramètres dont le modèle a besoin pour atteindre ce niveau de précision.
la sélection du modèle AIC peut aider les chercheurs à trouver un modèle qui explique la variation observée dans leurs données tout en évitant le surajustement.,
Le critère D’information D’Akaike est calculé à partir de la log-vraisemblance maximale du modèle et du nombre de paramètres (K) utilisés pour atteindre cette vraisemblance. La fonction AIC est 2K-2 (log-vraisemblance).
des valeurs AIC plus faibles indiquent un modèle mieux ajusté, et un modèle avec un delta-AIC (la différence entre les deux valeurs AIC comparées) supérieur à -2 est considéré comme significativement meilleur que le modèle auquel il est comparé.