la régression Multiple peut être une analyse séduisante et tentante. Il est si facile d’ajouter plus de variables que vous pensez d’eux, ou tout simplement parce que les données sont pratiques. Certains des prédicteurs seront significatifs. Peut-être y a-t-il une relation, ou est-ce juste par hasard? Vous pouvez ajouter des polynômes d’ordre supérieur pour plier et tordre cette ligne ajustée comme vous le souhaitez, mais ajustez-vous de vrais motifs ou connectez-vous simplement les points?, Pendant ce temps, la valeur R-squared (R2) augmente, vous taquine et vous incite à ajouter plus de variables!
précédemment, j’ai montré comment R-squared peut être trompeur lorsque vous évaluez la qualité de l’Ajustement pour l’analyse de régression linéaire. Dans cet article, nous verrons pourquoi vous devriez résister à l’envie d’ajouter trop de prédicteurs à un modèle de régression, et comment le R-carré ajusté et le R-carré prédit peuvent vous aider!,
quelques problèmes avec R-squared
Dans mon dernier article, j’ai montré comment R-squared ne peut pas déterminer si les estimations et les prédictions du coefficient sont biaisées, c’est pourquoi vous devez évaluer les graphiques résiduels. Cependant, R-squared a des problèmes supplémentaires que le R-squared ajusté et le R-squared prédit sont conçus pour résoudre.
Problème 1: chaque fois que vous ajoutez un prédicteur à un modèle, le R-carré augmente, même si cela est dû au hasard seul. Il diminue jamais. Par conséquent, un modèle avec plus de termes peut sembler mieux adapté simplement parce qu’il a plus de termes.,
problème 2: si un modèle a trop de prédicteurs et de polynômes d’ordre supérieur, il commence à modéliser le bruit aléatoire dans les données. Cette condition est connue sous le nom de sur-Ajustement du modèle et produit des valeurs R au carré trompeuses et une capacité réduite à faire des prédictions.
Qu’est-ce que le R-carré ajusté?
Le R-carré ajusté compare le pouvoir explicatif des modèles de régression qui contiennent différents nombres de prédicteurs.
supposons que vous compariez un modèle à cinq prédicteurs avec un R au carré supérieur à un modèle à un prédicteur., Le modèle à cinq prédicteurs a-t-il un R au carré plus élevé parce que c’est mieux? Ou le R-carré est-il plus élevé parce qu’il a plus de prédicteurs? Il suffit de comparer les valeurs ajustées au carré R pour le savoir!
Le R carré ajusté est une version modifiée de R-carré ajusté pour le nombre de prédicteurs dans le modèle. Le R-carré ajusté n’augmente que si le nouveau terme améliore le modèle plus que ce qui serait prévu par hasard. Il diminue lorsqu’un prédicteur améliore le modèle de moins que prévu par hasard. Le R-carré ajusté peut être négatif, mais ce n’est généralement pas le cas., Il est toujours inférieur au R-carré.
dans la sortie de régression simplifiée des meilleurs sous-ensembles ci-dessous, vous pouvez voir où le R-carré ajusté culmine, puis diminue. Pendant ce temps, le R-carré continue d’augmenter.
Vous pouvez inclure seulement trois prédicteurs dans ce modèle. Dans mon dernier blog, nous avons vu comment un modèle sous-spécifié (un modèle trop simple) peut produire des estimations biaisées. Cependant, un modèle trop spécifique (un modèle trop complexe) est plus susceptible de réduire la précision des estimations des coefficients et des valeurs prédites., Par conséquent, vous ne souhaitez pas inclure plus de termes dans le modèle que nécessaire. (Lisez un exemple d’utilisation de la régression Best Subsets de Minitab.)
enfin, une utilisation différente pour le R-carré ajusté est qu’il fournit une estimation impartiale de la population R-carré.
Quel est le R-carré prédit?
Le R-carré prédit indique dans quelle mesure un modèle de régression prédit les réponses aux nouvelles observations. Cette statistique vous aide à déterminer quand le modèle correspond aux données d’origine, mais est moins capable de fournir des prédictions valides pour de nouvelles observations., (Lisez un exemple d’utilisation de la régression pour faire des prédictions.)
Minitab calcule le R-carré prédit en supprimant systématiquement chaque observation de l’ensemble de données, en estimant l’équation de régression et en déterminant dans quelle mesure le modèle prédit l’observation supprimée. Comme R-carré ajusté, R-carré prédit peut être négatif et il est toujours inférieur à R-carré.
même si vous ne prévoyez pas d’utiliser le modèle pour les prédictions, le R-carré prédit fournit toujours des informations cruciales.
un avantage clé du R-carré prédit est qu’il peut vous empêcher de surajuster un modèle., Comme mentionné précédemment, un modèle overfit contient trop de prédicteurs et il commence à modéliser le bruit aléatoire.
comme il est impossible de prédire le bruit aléatoire, le R-carré prédit doit baisser pour un modèle surfit. Si vous voyez un R-carré prédit qui est beaucoup plus bas que le R-carré régulier, vous avez presque certainement trop de termes dans le modèle.
exemples de Modèles D’Overfit et de R-squared prédits
Vous pouvez essayer ces exemples par vous-même en utilisant ce fichier de projet Minitab qui contient deux feuilles de calcul., Si vous voulez jouer le jeu et que vous ne l’avez pas déjà, veuillez télécharger l’essai gratuit de 30 jours du logiciel statistique Minitab!
Il y a un moyen facile pour vous de voir un modèle de surfit en action. Si vous analysez un modèle de régression linéaire qui a un prédicteur pour chaque degré de liberté, vous obtiendrez toujours un R-carré de 100%!
dans la feuille de calcul données aléatoires, j’ai créé 10 lignes de données aléatoires pour une variable de réponse et neuf prédicteurs. Parce qu’il y a neuf prédicteurs et neuf degrés de liberté, nous obtenons un R-carré de 100%.,
Il semble que le modèle tienne compte de toute la variation. Cependant, nous savons que les prédicteurs aléatoires n’ont aucune relation avec la réponse aléatoire! Nous ajustons juste la variabilité aléatoire.
c’est un cas extrême, mais regardons quelques données réelles dans la feuille de calcul du classement du Président.
Ces données proviennent de mon post sur les grands Présidents. Je n’ai trouvé aucune association entre la cote d’approbation la plus élevée de chaque Président et le classement de l’historien. En fait, j’ai décrit ce tracé de ligne ajustée (ci-dessous) comme un exemple d’absence de relation, une ligne plate avec un R-carré de 0.7%!,
disons que nous ne savions pas mieux et que nous avons surfit le modèle en incluant la plus haute cote d’approbation en tant que polynôme cubique.
Wow, le R-carré et le R-carré ajusté ont l’air plutôt bien! De plus, les estimations des coefficients sont toutes significatives parce que leurs valeurs p sont inférieures à 0,05. Les parcelles résiduelles (non montrées) ont également l’air bien. Très bien!
Pas si vite…tout ce que nous faisons est de plier excessivement la ligne ajustée pour relier artificiellement les points plutôt que de trouver une vraie relation entre les variables.,
notre modèle est trop compliqué et le R-carré prédit donne cela. Nous avons en fait une valeur R-carré prédite négative. Cela peut ne pas sembler intuitif, mais si 0% est terrible, un pourcentage négatif est encore pire!
Le R-carré prédit n’a pas besoin d’être négatif pour indiquer un modèle de surfit. Si vous voyez que le r au carré prédit commence à baisser lorsque vous ajoutez des prédicteurs, même s’ils sont significatifs, vous devriez commencer à vous inquiéter de l’ajustement excessif du modèle.,
réflexions finales sur R-carré ajusté et R-carré prédit
toutes les données contiennent une quantité naturelle de variabilité inexplicable. Malheureusement, R-squared ne respecte pas ce plafond naturel. La poursuite d’une valeur R au carré élevée peut nous pousser à inclure trop de prédicteurs pour tenter d’expliquer l’inexplicable.
dans ces cas, vous pouvez obtenir une valeur R au carré plus élevée, mais au prix de résultats trompeurs, d’une précision réduite et d’une capacité réduite à faire des prédictions.,
Le R-carré ajusté et le R-carré prédit fournissent des informations qui vous aident à évaluer le nombre de prédicteurs dans votre modèle:
- utilisez le R-carré ajusté pour comparer des modèles avec différents nombres de prédicteurs
- utilisez le R-carré prédit pour déterminer dans quelle mesure le modèle prédit de nouvelles observations et si le modèle est trop compliqué
l’analyse de régression est puissante, mais vous ne voulez pas être séduit par cette puissance et l’utiliser de manière imprudente!
Si vous apprenez la régression, lisez mon tutoriel de régression!