Critère d'information Akaike / quand et comment L'utiliser

Le critère D’information Akaike (AIC) est une méthode mathématique pour évaluer dans quelle mesure un modèle correspond aux données à partir desquelles il a été généré. En statistiques, L’AIC est utilisé pour comparer différents modèles possibles et déterminer lequel convient le mieux aux données. AIC est calculé à partir de:

Le nombre de variables indépendantes utilisées pour construire le modèle.
estimation du maximum de vraisemblance du modèle (dans quelle mesure le modèle reproduit les données).,

le modèle de meilleur ajustement selon AIC est celui qui explique la plus grande quantité de variation en utilisant le moins de variables indépendantes possibles.

exemple

vous voulez savoir si la consommation de boissons sucrées influence le poids corporel. Vous avez recueilli des données secondaires d’une enquête nationale sur la santé qui contient des observations sur la consommation de boissons sucrées, l’âge, le sexe et L’IMC (indice de masse corporelle).,

pour savoir lesquelles de ces variables sont importantes pour prédire la relation entre la consommation de boissons sucrées et le poids corporel, vous créez plusieurs modèles possibles et les comparez à l’aide de L’AIC.

Quand utiliser AIC

Dans les statistiques, l’AIC est le plus souvent utilisé pour la sélection de modèle. En calculant et en comparant les scores AIC de plusieurs modèles possibles, vous pouvez choisir celui qui convient le mieux aux données.,

lorsque vous testez une hypothèse, vous pouvez collecter des données sur des variables dont vous n’êtes pas certain, surtout si vous explorez une nouvelle idée. Vous voulez savoir laquelle des variables indépendantes que vous avez mesurées explique la variation de votre variable dépendante.

Un bon moyen de le savoir est de créer un ensemble de modèles, chacun contenant une combinaison différente des variables indépendantes mesurées., Ces combinaisons doivent être basées sur:

votre connaissance du système d’étude-évitez d’utiliser des paramètres qui ne sont pas logiquement connectés, car vous pouvez trouver des corrélations fausses entre presque n’importe quoi!
votre plan expérimental – par exemple, si vous avez divisé deux traitements entre les sujets de test, il n’y a probablement aucune raison de tester une interaction entre les deux traitements.

Une fois que vous avez créé plusieurs modèles possibles, vous pouvez utiliser AIC pour les comparer. Les scores AIC inférieurs sont meilleurs, et AIC pénalise les modèles qui utilisent plus de paramètres., Donc, si deux modèles expliquent la même quantité de variation, celui avec moins de paramètres aura un score AIC inférieur et sera le modèle le mieux adapté.

exemple de sélection de modèle

dans une étude de la façon dont les heures passées à étudier et le format du test (choix multiple vs réponses écrites) affectent les résultats des tests, vous créez deux modèles:

score final du test en réponse aux heures passées à étudier
score Final 0,45 avec une valeur p inférieure à 0,05 pour le modèle 1, et un r2 de 0.,46 avec une valeur p inférieure à 0,05 pour le modèle 2. Le modèle 2 correspond légèrement mieux aux données – mais cela valait-il la peine d’ajouter un autre paramètre juste pour obtenir cette petite augmentation de l’ajustement du modèle?
vous exécutez un test AIC pour le savoir, ce qui montre que le modèle 1 a le score AIC le plus bas car il nécessite moins d’informations pour prédire avec presque le même niveau de précision. Une autre façon de penser à cela est que la précision accrue dans le modèle 2 aurait pu se produire par hasard.

à partir du test AIC, vous décidez que le modèle 1 est le meilleur modèle pour votre étude.,

comment comparer des modèles avec AIC

AIC détermine la valeur d’information relative du modèle en utilisant l’estimation du maximum de vraisemblance et le nombre de paramètres (variables indépendantes) dans le modèle. La formule pour AIC est la suivante:

K est le nombre de variables indépendantes utilisées et L est l’estimation de log-vraisemblance (alias la probabilité que le modèle ait pu produire vos valeurs y observées)., Le K par défaut est toujours 2, donc si votre modèle utilise une variable indépendante, Votre K sera 3, s’il utilise deux variables indépendantes, votre K sera 4, et ainsi de suite.

pour comparer des modèles à l’aide de L’AIC, vous devez calculer l’AIC de chaque modèle. Si un modèle est inférieur de plus de 2 unités AIC à un autre, il est considéré comme nettement meilleur que ce modèle.

Vous pouvez facilement calculer AIC à la main si vous avez la log-vraisemblance de votre modèle, mais le calcul de la log-vraisemblance est compliqué! La plupart des logiciels statistiques comprendront une fonction de calcul de L’AIC., Nous utiliserons R pour exécuter notre analyse AIC.

qu’est-Ce que votre score de plagiat?

Comparez votre article avec plus de 60 milliards de pages web et 30 millions de publications.,

Meilleur plagiat vérificateur de 2020
rapport de Plagiat & pourcentage
Plus gros plagiat de la base de données

Scribbr Plagiarism Checker

AIC dans R

Pour comparer plusieurs modèles, vous pouvez d’abord créer l’ensemble des modèles que vous souhaitez comparer et puis exécutez aictab() sur le plateau.,

pour les données sur les boissons sucrées, nous allons créer un ensemble de modèles qui incluent les trois variables prédictives (âge, sexe et consommation de boissons) dans diverses combinaisons. Téléchargez l’ensemble de données et exécutez les lignes de code dans R pour l’essayer vous-même.

Télécharger l’échantillon de données,

Créer les modèles

tout d’Abord, nous pouvons tester le fonctionnement de chaque variable effectue séparément.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

ensuite, nous voulons savoir si la combinaison de l’âge et du sexe est meilleure pour décrire la variation de l’IMC par elle-même, sans inclure la consommation de boissons.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

nous voulons également savoir si la combinaison de l’âge, du sexe et de la consommation de boissons décrit mieux la variation de L’IMC que les modèles précédents.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

Enfin, on peut vérifier si l’interaction de l’âge, le sexe et la consommation de boissons peut expliquer l’IMC mieux que tous les modèles précédents.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

Comparer les modèles

Pour comparer ces modèles, et trouver qui est le meilleur ajustement pour les données, vous pouvez les mettre ensemble dans une liste et d’utiliser le aictab() la commande de comparer tous à la fois. Pour utiliser aictab(), chargez d’abord la bibliothèque AICcmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

Ensuite, mettez les modèles dans une liste (‘modèles’) et nommez chacun d’eux afin que la table AIC soit plus facile à lire (‘modèle.nom’).

enfin, exécutezaictab() pour effectuer la comparaison.

aictab(cand.set = models, modnames = model.names)

l’Interprétation des résultats

Le code ci-dessus va produire le tableau de sortie suivant:

Le meilleur ajustement du modèle est toujours listé en premier., Le tableau de sélection du modèle contient des informations sur:

K: le nombre de paramètres dans le modèle. Le K par défaut est 2, donc un modèle avec un paramètre aura un K de 2 + 1 = 3.
AICc: le score d’information du modèle (le » c » minuscule indique que la valeur a été calculée à partir du test AIC corrigé pour les petits échantillons). Plus la valeur AIC est petite, meilleur est l’ajustement du modèle.
Delta_AICc: la différence de score AIC entre le meilleur modèle et le modèle à comparer. Dans ce tableau, le premier modèle a un delta-AIC de 6.,69 par rapport au modèle haut de gamme, et le troisième meilleur modèle a un delta-AIC de 15, 96 par rapport au modèle haut de gamme.
aiccwt: poids AICc, qui est la proportion de la quantité totale de puissance prédictive fournie par l’ensemble complet des modèles contenus dans le modèle Évalué. Dans ce cas, le modèle supérieur contient 97% de l’explication totale qui peut être trouvée dans l’ensemble complet des modèles.
sperme.Poids: la somme des poids AICc. Ici, les deux premiers modèles contiennent 100% du poids cumulé de L’AICc.
LL: log-vraisemblance., Il s’agit de la valeur décrivant la probabilité du modèle, compte tenu des données. Le score AIC est calculé à partir du LL et du K.

à partir de ce tableau, nous pouvons voir que le meilleur modèle est le modèle de combinaison – le modèle qui inclut tous les paramètres mais aucune interaction (IMC ~ âge + sexe + consommation).

le modèle est beaucoup mieux que tous les autres, car il porte 96% du poids cumulatif du modèle et a le score AIC le plus bas. Le modèle next-best est supérieur de plus de 2 unités AIC au modèle best (6,33 unités) et ne porte que 4% du poids cumulatif du modèle.,

sur la base de cette comparaison, nous choisirions le modèle de combinaison à utiliser dans notre analyse de données.

rapport des résultats

Si vous utilisez la sélection de modèles AIC dans votre recherche, vous pouvez l’indiquer dans votre section Méthodes. Signalez que vous avez utilisé la sélection du modèle AIC, expliquez brièvement le modèle le mieux adapté que vous avez trouvé et indiquez le poids AIC du modèle.,

exemples de méthodes

nous avons utilisé la sélection de modèles AIC pour distinguer parmi un ensemble de modèles possibles décrivant la relation entre l’âge, le sexe, la consommation de boissons sucrées et l’indice de masse corporelle. Le modèle le mieux adapté, portant 97% du poids cumulé du modèle, comprenait tous les paramètres sans effets d’interaction.

Après avoir trouvé le modèle le mieux adapté, vous pouvez exécuter le modèle et évaluer les résultats. Les résultats de votre évaluation de modèle peuvent être rapportés dans la section résultats de votre document.,

Foire aux questions sur AIC

Quel est le critère D’information Akaike?

Le critère D’information Akaike est un test mathématique utilisé pour évaluer dans quelle mesure un modèle correspond aux données qu’il est censé décrire. Il pénalise les modèles qui utilisent des variables plus indépendantes (paramètres) comme moyen d’éviter le sur-Ajustement.

L’AIC est le plus souvent utilisé pour comparer l’adéquation relative entre les différents modèles considérés, puis pour choisir le modèle qui correspond le mieux aux données.

qu’est Ce qu’un modèle?,

en statistique, un modèle est la collection d’une ou plusieurs variables indépendantes et de leurs interactions prédites que les chercheurs utilisent pour essayer d’expliquer la variation de leur variable dépendante.

Vous pouvez tester un modèle à l’aide d’un test statistique. Pour comparer la façon dont les différents modèles correspondent à vos données, vous pouvez utiliser le critère D’information D’Akaike pour la sélection du modèle.

Ce que l’on entend par sélection de modèle?,

En statistique, la sélection de modèles est un processus utilisé par les chercheurs pour comparer la valeur relative de différents modèles statistiques et déterminer lequel convient le mieux aux données observées.

Le critère D’information Akaike est l’une des méthodes les plus courantes de sélection de modèles. L’AIC pondère la capacité du modèle à prédire les données observées par rapport au nombre de paramètres dont le modèle a besoin pour atteindre ce niveau de précision.

la sélection du modèle AIC peut aider les chercheurs à trouver un modèle qui explique la variation observée dans leurs données tout en évitant le surajustement.,

Comment est-AIC-il calculé?

Le critère D’information D’Akaike est calculé à partir de la log-vraisemblance maximale du modèle et du nombre de paramètres (K) utilisés pour atteindre cette vraisemblance. La fonction AIC est 2K-2 (log-vraisemblance).

des valeurs AIC plus faibles indiquent un modèle mieux ajusté, et un modèle avec un delta-AIC (la différence entre les deux valeurs AIC comparées) supérieur à -2 est considéré comme significativement meilleur que le modèle auquel il est comparé.

une introduction au critère D’information Akaike