regressão múltipla pode ser uma análise Guiling, cheia de tentações. É tão fácil adicionar mais variáveis como você pensa delas, ou só porque os dados são úteis. Alguns dos predictores serão significativos. Talvez haja uma relação, ou é por acaso? Você pode adicionar polinômios de ordem superior para dobrar e torcer essa linha equipada como quiser, mas você está encaixando padrões reais ou apenas conectando os pontos?, Todo o tempo, o valor R-quadrado (R2) aumenta, provocando-o, e pressionando-o a adicionar mais variáveis!

anteriormente, eu mostrei como o R-quadrado pode ser enganoso quando você avalia a bondade do ajuste para a análise de regressão linear. Neste post, vamos olhar por que você deve resistir ao impulso de adicionar muitos preditores a um modelo de regressão, e como o R-quadrado ajustado e previsto R-quadrado pode ajudar!,

alguns problemas com o R-quadrado

no meu último post, eu mostrei como o R-quadrado não pode determinar se as estimativas do coeficiente e as previsões são parciais, e é por isso que você deve avaliar as parcelas residuais. No entanto, o R-quadrado tem problemas adicionais que o R-quadrado ajustado e o R-quadrado previsto são projetados para resolver.

Problema 1: cada vez que você adiciona um predictor a um modelo, o R-quadrado aumenta, mesmo que apenas devido ao acaso. Nunca diminui. Consequentemente, um modelo com mais termos pode parecer ter um ajuste melhor simplesmente porque tem mais termos.,

Problema 2: Se um modelo tem muitos predictores e polinômios de ordem superior, ele começa a modelar o ruído aleatório nos dados. Esta condição é conhecida como sobrepor o modelo e produz valores R-ao quadrado enganosamente altos e uma capacidade menor para fazer previsões.

Qual é o R-quadrado ajustado?

o R-quadrado ajustado compara a potência explicativa dos modelos de regressão que contêm diferentes números de predictores.

suponha que você compare um modelo de cinco predictores com um maior R-quadrado com um modelo de um predictor., O modelo dos cinco predictores tem um R-quadrado mais alto porque é melhor? Ou o R-quadrado é mais alto porque tem mais predictores? Basta comparar os valores R-ao quadrado ajustados para descobrir!

O R-quadrado ajustado é uma versão modificada do R-quadrado que foi ajustado para o número de predictores no modelo. O R-quadrado ajustado só aumenta se o novo termo melhorar o modelo mais do que seria esperado pelo acaso. Ele diminui quando um predictor melhora o modelo por menos do que o esperado por acaso. O R-quadrado ajustado pode ser negativo, mas normalmente não é., É sempre menor que o R-quadrado.

nos subconjuntos simplificados de regressão saída abaixo, você pode ver onde os picos R-ao quadrado ajustados, e então declina. Entretanto, o R-quadrado continua a aumentar.

Você pode querer incluir apenas três predictores neste modelo. No meu último blog, vimos como um modelo mal especificado (um que era muito simples) pode produzir estimativas tendenciosas. No entanto, um modelo superespecializado (um que é muito complexo) é mais provável para reduzir a precisão das estimativas de coeficiente e valores previstos., Consequentemente, você não quer incluir mais termos no modelo do que o necessário. (Read an example of using Minitab’s Best Subcets Regression.)

finalmente, um uso diferente para o R-quadrado ajustado é que ele fornece uma estimativa imparcial da população R-quadrado.

Qual é o R-quadrado previsto?

o R-quadrado previsto indica quão bem um modelo de regressão prevê respostas para novas observações. Esta estatística ajuda você a determinar quando o modelo se encaixa nos dados originais, mas é menos capaz de fornecer previsões válidas para novas observações., (Leia um exemplo de usar regressão para fazer previsões.)

Minitab calcula o R-quadrado previsto, removendo sistematicamente cada observação do conjunto de dados, estimando a equação de regressão, e determinando quão bem o modelo prevê a observação removida. Como R-quadrado ajustado, R-quadrado previsto pode ser negativo e é sempre menor que R-quadrado.

mesmo que você não planeie usar o modelo para previsões, O R-quadrado previsto ainda fornece informações cruciais.

um dos principais benefícios do R-quadrado previsto é que ele pode evitar que você sobrefete um modelo., Como mencionado anteriormente, um modelo overfit contém muitos predictores e começa a modelar o ruído aleatório.

porque é impossível prever o ruído aleatório, O R-quadrado previsto deve cair para um modelo overfit. Se você vê um R-quadrado previsto que é muito menor do que o R-quadrado regular, você quase certamente tem muitos termos no modelo.

exemplos de modelos Overfit e R-quadrado previsto

pode tentar estes exemplos por si mesmo usando este ficheiro de Projecto do Minitab que contém duas folhas de trabalho., Se você quer jogar junto e você ainda não tem, por favor baixe o teste gratuito de 30 dias do software estatístico Minitab!

Há uma maneira fácil para você ver um modelo overfit em ação. Se você analisar um modelo de regressão linear que tem um predictor para cada grau de liberdade, você sempre terá um R-quadrado de 100%!

na planilha de dados aleatórios, eu criei 10 linhas de dados aleatórios para uma variável de resposta e nove predictores. Porque há nove preditores e nove graus de liberdade, temos um R-quadrado de 100%.,

parece que o modelo é responsável por toda a variação. No entanto, sabemos que os preditores aleatórios não têm qualquer relação com a resposta aleatória! Estamos apenas a ajustar a variabilidade aleatória.

é um caso extremo, mas vamos olhar para alguns dados reais na planilha de classificação do Presidente.estes dados vêm do meu post sobre grandes presidentes. Não encontrei nenhuma associação entre a maior classificação de aprovação de cada Presidente e a classificação do historiador. Na verdade, eu descrevi essa parcela de linha ajustada (abaixo) como um exemplo de nenhuma relação, uma linha plana com um R-quadrado de 0,7%!,vamos dizer que não sabíamos melhor e exageramos o modelo, incluindo a maior classificação de aprovação como um polinômio cúbico.Uau, tanto o R-quadrado e R-quadrado ajustado parecem muito bem! Além disso, as estimativas do coeficiente são todas significativas porque os seus valores p são inferiores a 0,05. As parcelas residuais (não mostradas) também parecem boas. Muito bom!mais devagar…tudo o que estamos a fazer é dobrar excessivamente a linha ajustada para ligar artificialmente os pontos, em vez de encontrar uma verdadeira relação entre as variáveis.,

nosso modelo é muito complicado e o R-quadrado previsto dá isso. Na verdade, temos um valor R ao quadrado previsto negativo. Isso pode não parecer intuitivo, mas se 0% é terrível, uma porcentagem negativa é ainda pior!

O R-quadrado previsto não tem que ser negativo para indicar um modelo overfit. Se você ver o R-quadrado previsto começar a cair à medida que você adiciona predictores, mesmo que eles sejam significativos, você deve começar a se preocupar com a sobrefitting do modelo.,todos os dados contêm uma quantidade natural de variabilidade inexplicável. Infelizmente, o quadrado R não respeita este tecto natural. Perseguir um valor R-quadrado elevado pode levar-nos a incluir demasiados predictores numa tentativa de explicar o inexplicável.

nestes casos, você pode alcançar um valor R mais elevado ao quadrado, mas ao custo de resultados enganosos, precisão reduzida, e uma capacidade menor para fazer previsões.,

Ambos ajustado de R-quadrado e o previsto R-quadrado fornecer informação que ajuda a avaliar o número de preditores no modelo:

  • Use o ajustado R-quadrado para comparar modelos com diferentes números de preditores
  • Use o previsto R-quadrado para determinar o quão bem o modelo prevê novas observações, e se o modelo é muito complicado

a análise de Regressão é poderoso, mas você não quer ser seduzido pelo poder e usá-lo imprudentemente!se está a aprender sobre regressão, leia o meu tutorial de regressão!

Articles

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *