regresie multiplă poate fi o analiză seducătoare, plină de ispită. Este atât de ușor să adăugați mai multe variabile pe măsură ce vă gândiți la ele sau doar pentru că datele sunt la îndemână. Unii dintre predictori vor fi semnificativi. Poate că există o relație sau este doar din întâmplare? Puteți adăuga polinoame de ordin superior pentru a îndoi și răsuci acea linie montată după cum doriți, dar potriviți modele reale sau doar conectați punctele?, În tot acest timp, valoarea R-pătrat (R2) crește, te tachinează și te aruncă pentru a adăuga mai multe variabile!anterior, am arătat cum R-squared poate fi înșelător atunci când evaluați bunătatea de potrivire pentru analiza regresiei liniare. În acest post, ne vom uita la ce ar trebui să reziste nevoia de a adăuga prea multe predictori la un model de regresie, și modul în care ajustat R-pătrat și a prezis R-pătrat poate ajuta!,

unele probleme cu R-pătrat

în ultima mea postare, am arătat cum R-pătrat nu poate determina dacă estimările coeficientului și predicțiile sunt părtinitoare, motiv pentru care trebuie să evaluați parcelele reziduale. Cu toate acestea, R-pătrat are probleme suplimentare pe care R-pătrat ajustat și prezis R-pătrat sunt concepute pentru a aborda.

Problema 1: de fiecare dată când adăugați un predictor la un model, R-pătrat crește, chiar dacă numai din întâmplare. Nu scade niciodată. În consecință, un model cu mai mulți termeni poate părea să se potrivească mai bine pur și simplu pentru că are mai mulți termeni.,

Problema 2: Dacă un model are prea mulți predictori și polinoame de ordin superior, începe să modeleze zgomotul aleatoriu din date. Această condiție este cunoscută sub numele de supraîncărcare a modelului și produce valori R-pătrat înșelătoare și o capacitate mai mică de a face predicții.

care este R-pătrat ajustat?

r-pătrat ajustat compară puterea explicativă a modelelor de regresie care conțin un număr diferit de predictori.

Să presupunem că comparați un model cu cinci predictori cu un R-pătrat mai mare cu un model cu un predictor., Modelul celor cinci predictori are un R-pătrat mai mare pentru că este mai bun? Sau este R-pătrat mai mare, deoarece are mai mulți predictori? Pur și simplu comparați valorile R-pătrat ajustate pentru a afla!

R-pătrat ajustat este o versiune modificată a R-pătrat care a fost ajustată pentru numărul de predictori din model. R-pătrat ajustat crește numai dacă noul termen îmbunătățește modelul mai mult decât s-ar aștepta din întâmplare. Aceasta scade atunci când un predictor îmbunătățește modelul cu mai puțin decât se aștepta din întâmplare. R-pătrat ajustat poate fi negativ, dar de obicei nu este., Este întotdeauna mai mică decât R-pătrat.

în cele mai bune subseturi simplificate de ieșire de regresie de mai jos, puteți vedea în cazul în care vârfurile R-pătrat ajustate, și apoi scade. Între timp, R-pătrat continuă să crească.este posibil să doriți să includeți doar trei predictori în acest model. În ultimul meu blog, am văzut cum un model sub-specificat (unul prea simplu) poate produce estimări părtinitoare. Cu toate acestea, un model supraspecificat (unul prea complex) este mai probabil să reducă precizia estimărilor coeficienților și a valorilor prezise., În consecință, nu doriți să includeți mai mulți termeni în model decât este necesar. (Citiți un exemplu de utilizare a celor mai bune subseturi de regresie ale Minitab.în cele din urmă, o utilizare diferită pentru R-pătrat ajustat este că oferă o estimare imparțială a populației R-pătrat.

care este R-pătratul prezis?

r-pătrat prezis indică cât de bine un model de regresie prezice răspunsuri pentru noi observații. Această statistică vă ajută să determinați când modelul se potrivește cu datele originale, dar este mai puțin capabil să furnizeze predicții valide pentru noi observații., (Citiți un exemplu de utilizare a regresiei pentru a face predicții.Minitab calculează prezis R-pătrat prin eliminarea sistematică fiecare observație din setul de date, estimarea ecuația de regresie, și determinarea cât de bine modelul prezice observația eliminat. La fel ca R-pătrat ajustat, R-pătrat prezis poate fi negativ și este întotdeauna mai mic decât R-pătrat.

chiar dacă nu intenționați să utilizați modelul pentru predicții, R-squared-ul prezis oferă în continuare informații cruciale.

un beneficiu cheie al R-pătrat prezis este că vă poate împiedica să overfitting un model., Așa cum am menționat mai devreme, un model overfit conține prea mulți predictori și începe să modeleze zgomotul aleatoriu.

deoarece este imposibil de prezis zgomot aleatoriu, prezis R-pătrat trebuie să scadă pentru un model de overfit. Dacă vedeți un R-pătrat prezis care este mult mai mic decât R-pătrat obișnuit, aproape sigur aveți prea mulți termeni în model.puteți încerca aceste exemple pentru dvs. folosind acest fișier de proiect Minitab care conține două foi de lucru., Dacă doriți să jucați și nu îl aveți deja, vă rugăm să descărcați gratuit procesul de 30 de zile al software-ului statistic Minitab!

există o modalitate ușoară de a vedea un model overfit în acțiune. Dacă analizați un model de regresie liniară care are un predictor pentru fiecare grad de libertate, veți obține întotdeauna un R-pătrat de 100%!

în foaia de lucru random data, am creat 10 rânduri de date aleatorii pentru o variabilă de răspuns și nouă predictori. Deoarece există nouă predictori și nouă grade de libertate, obținem un R-pătrat de 100%.,

se pare că modelul reprezintă toate variațiile. Cu toate acestea, știm că predictorii aleatorii nu au nicio relație cu răspunsul aleatoriu! Ne potrivim cu variabilitatea aleatorie.

acesta este un caz extrem, dar să ne uităm la câteva date reale din foaia de lucru a clasamentului Președintelui.aceste date provin din postarea mea despre Marii președinți. Nu am găsit nicio asociere între cel mai mare rating de aprobare al fiecărui președinte și clasamentul istoricului. De fapt, am descris că complot linie montate (de mai jos) ca un exemplar de nici o relație, o linie plată cu un R-pătrat de 0,7%!,să presupunem că nu știam mai bine și că depășim Modelul prin includerea celui mai mare rating de aprobare ca polinom cubic.Uau, atât R-pătrat, cât și R-pătrat ajustat arată destul de bine! De asemenea, estimările coeficienților sunt semnificative, deoarece valorile lor p sunt mai mici de 0,05. Parcelele reziduale (nu sunt afișate) arată prea bine. Grozav!

nu atât de repede…tot ceea ce facem este să îndoim excesiv linia montată pentru a conecta artificial punctele, mai degrabă decât să găsim o relație adevărată între variabile.,

modelul nostru este prea complicat, iar R-pătratul prezis dă acest lucru. Avem de fapt o valoare R-pătrat negativă. Acest lucru poate să nu pară intuitiv, dar dacă 0% este teribil, un procent negativ este și mai rău!

R-pătrat prezis nu trebuie să fie negativ pentru a indica un model de overfit. Dacă vedeți că R-squared-ul prezis începe să scadă pe măsură ce adăugați predictori, chiar dacă sunt semnificativi, ar trebui să începeți să vă faceți griji cu privire la supraîncărcarea modelului.,

gânduri de închidere despre ajustat R-pătrat și prezis R-pătrat

toate datele conțin o cantitate naturală de variabilitate care este inexplicabilă. Din păcate, R-pătrat nu respectă acest plafon natural. Urmărirea unei valori ridicate R-pătrat ne poate împinge să includem prea mulți predictori în încercarea de a explica inexplicabilul.în aceste cazuri, puteți obține o valoare R-pătrat mai mare, dar cu prețul rezultatelor înșelătoare, al preciziei reduse și al capacității reduse de a face predicții.,

Ambele adjusted R-squared și a prezis R-square oferă informații care vă ajută să evalueze numărul de predictori în modelul dvs.:

  • Utilizați adjusted R-square pentru a compara modele cu diferite numere de predictori
  • Utilizarea prezis R-pătrat pentru a determina cât de bine modelul prezice noi observații și dacă modelul este prea complicat

analiza de Regresie este puternic, dar tu nu vrei să fii sedus de puterea și de a folosi în mod neînțelept!

dacă învățați despre regresie, citiți tutorialul meu de regresie!

Articles

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *