La regressione multipla può essere un’analisi seducente e piena di tentazioni. E ‘ così facile aggiungere più variabili come si pensa di loro, o semplicemente perché i dati sono a portata di mano. Alcuni dei predittori saranno significativi. Forse c’è una relazione, o è solo per caso? Puoi aggiungere polinomi di ordine superiore per piegare e torcere quella linea adattata come preferisci, ma stai adattando modelli reali o semplicemente collegando i punti?, Per tutto il tempo, il valore R-squared (R2) aumenta, stuzzicandoti e spingendoti ad aggiungere più variabili!

In precedenza, ho mostrato come R-squared può essere fuorviante quando si valuta la bontà di adattamento per l’analisi di regressione lineare. In questo post, vedremo perché dovresti resistere all’impulso di aggiungere troppi predittori a un modello di regressione e come l’R-quadrato regolato e l’R-quadrato predetto possono aiutare!,

Alcuni problemi con R-squared

Nel mio ultimo post, ho mostrato come R-squared non possa determinare se le stime e le previsioni del coefficiente sono distorte, motivo per cui è necessario valutare i grafici residui. Tuttavia, R-squared ha ulteriori problemi che l’R-squared aggiustato e l’R-squared previsto sono progettati per affrontare.

Problema 1: Ogni volta che si aggiunge un predittore a un modello, l’R-quadrato aumenta, anche se a causa del solo caso. Non diminuisce mai. Di conseguenza, un modello con più termini può sembrare più adatto semplicemente perché ha più termini.,

Problema 2: Se un modello ha troppi predittori e polinomi di ordine superiore, inizia a modellare il rumore casuale nei dati. Questa condizione è nota come overfitting del modello e produce valori R-quadrati fuorvianti e una capacità ridotta di fare previsioni.

Qual è il R-quadrato regolato?

L’R-quadrato regolato confronta la potenza esplicativa dei modelli di regressione che contengono diversi numeri di predittori.

Supponiamo di confrontare un modello a cinque predittori con un R-quadrato più alto con un modello a un predittore., Il modello a cinque predittori ha un R-quadrato più alto perché è migliore? O l’R-quadrato è più alto perché ha più predittori? Basta confrontare i valori R-quadrato regolati per scoprirlo!

L’R-squared rettificato è una versione modificata di R-squared che è stata regolata per il numero di predittori nel modello. L’R-squared aggiustato aumenta solo se il nuovo termine migliora il modello più di quanto ci si aspetterebbe per caso. Diminuisce quando un predittore migliora il modello di meno del previsto per caso. L’R-quadrato regolato può essere negativo, ma di solito non lo è., È sempre inferiore al R-quadrato.

Nell’output di regressione dei sottoinsiemi semplificati di seguito, puoi vedere dove il R-quadrato regolato raggiunge i picchi e quindi diminuisce. Nel frattempo, l’R-squared continua ad aumentare.

È possibile includere solo tre predittori in questo modello. Nel mio ultimo blog, abbiamo visto come un modello sotto specificato (uno che era troppo semplice) può produrre stime di parte. Tuttavia, è più probabile che un modello eccessivamente specificato (troppo complesso) riduca la precisione delle stime dei coefficienti e dei valori previsti., Di conseguenza, non si desidera includere più termini nel modello del necessario. (Leggi un esempio di utilizzo della regressione dei sottoinsiemi migliori di Minitab.)

Infine, un uso diverso per l’R-quadrato aggiustato è che fornisce una stima imparziale della popolazione R-quadrato.

Qual è il R-quadrato previsto?

Il R-quadrato previsto indica quanto bene un modello di regressione predice le risposte per nuove osservazioni. Questa statistica consente di determinare quando il modello si adatta ai dati originali, ma è meno in grado di fornire previsioni valide per nuove osservazioni., (Leggi un esempio di utilizzo della regressione per fare previsioni.)

Minitab calcola R-quadrato previsto rimuovendo sistematicamente ogni osservazione dal set di dati, stimando l’equazione di regressione e determinando quanto bene il modello predice l’osservazione rimossa. Come R-quadrato aggiustato, R-quadrato predetto può essere negativo ed è sempre inferiore a R-quadrato.

Anche se non si prevede di utilizzare il modello per le previsioni, l’R-squared previsto fornisce ancora informazioni cruciali.

Un vantaggio chiave di R-squared previsto è che può impedirti di sovralimentare un modello., Come accennato in precedenza, un modello di overfit contiene troppi predittori e inizia a modellare il rumore casuale.

Poiché è impossibile prevedere il rumore casuale, l’R-quadrato previsto deve cadere per un modello di overfit. Se vedi un R-quadrato previsto che è molto più basso del normale R-quadrato, quasi certamente hai troppi termini nel modello.

Esempi di modelli Overfit e predetto R-squared

Puoi provare questi esempi usando questo file di progetto Minitab che contiene due fogli di lavoro., Se vuoi giocare e non lo hai già, scarica la versione di prova gratuita di 30 giorni del software statistico Minitab!

C’è un modo semplice per vedere un modello overfit in azione. Se analizzi un modello di regressione lineare che ha un predittore per ogni grado di libertà, otterrai sempre un R-quadrato del 100%!

Nel foglio di lavoro random data, ho creato 10 righe di dati casuali per una variabile di risposta e nove predittori. Poiché ci sono nove predittori e nove gradi di libertà, otteniamo un R-quadrato del 100%.,

Sembra che il modello rappresenti tutte le variazioni. Tuttavia, sappiamo che i predittori casuali non hanno alcuna relazione con la risposta casuale! Stiamo solo adattando la variabilità casuale.

Questo è un caso estremo, ma diamo un’occhiata ad alcuni dati reali nel foglio di lavoro della classifica del Presidente.

Questi dati provengono dal mio post sui grandi Presidenti. Non ho trovato alcuna associazione tra il più alto indice di gradimento di ogni Presidente e la classifica dello storico. In effetti, ho descritto quella trama di linee adattate (sotto) come un esempio di nessuna relazione, una linea piatta con un R-quadrato dello 0,7%!,

Diciamo che non lo sapevamo meglio e abbiamo sovradattato il modello includendo il più alto punteggio di approvazione come polinomio cubico.

Wow, sia l’R-squared che l’R-squared regolato sembrano abbastanza buoni! Inoltre, le stime del coefficiente sono tutte significative perché i loro valori p sono inferiori a 0,05. Anche le trame residue (non mostrate) sembrano buone. Forte!

Non così in fretta…tutto ciò che stiamo facendo è piegare eccessivamente la linea montata per collegare artificialmente i punti piuttosto che trovare una vera relazione tra le variabili.,

Il nostro modello è troppo complicato e il predetto R-squared lo dà via. In realtà abbiamo un valore R-quadrato predetto negativo. Potrebbe non sembrare intuitivo, ma se 0% è terribile, una percentuale negativa è ancora peggio!

L’R-quadrato previsto non deve essere negativo per indicare un modello di overfit. Se vedi che l’R-squared previsto inizia a cadere mentre aggiungi i predittori, anche se sono significativi, dovresti iniziare a preoccuparti di sovralimentare il modello.,

Pensieri di chiusura su R-quadrato aggiustato e R-quadrato previsto

Tutti i dati contengono una quantità naturale di variabilità che è inspiegabile. Sfortunatamente, R-squared non rispetta questo soffitto naturale. Inseguire un alto valore R-quadrato può spingerci a includere troppi predittori nel tentativo di spiegare l’inspiegabile.

In questi casi, è possibile ottenere un valore R-quadrato più alto, ma a costo di risultati fuorvianti, precisione ridotta e una minore capacità di fare previsioni.,

Entrambi i adjusted R-squared e predetto R-quadrato di fornire informazioni che consentono di valutare il numero di predittori del modello:

  • Utilizzare il adjusted R-quadrato per confrontare i modelli con diverso numero di predittori
  • Utilizzare il predetto R-quadrato per determinare quanto bene il modello prevede nuove osservazioni e se il modello è troppo complicato

l’analisi di Regressione è potente, ma non si vuole essere sedotto dal potere e l’uso sbagliato!

Se stai imparando sulla regressione, leggi il mio tutorial di regressione!

Articles

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *