Multippel regresjon kan være en forførende, fristelser-fylt analyse. Det er så lett å legge til flere variabler som du tenker på dem, eller bare fordi dataene er nyttige. Noen av prediktorer vil være betydelig. Kanskje det er en sammenheng, eller er det bare en tilfeldighet? Du kan legge til høyere-ordens polynomer å bøye og vri det montert linje som du liker, men du er montering ekte mønstre eller bare koble prikkene?, All den stund, den R-kvadrerte (R2) verdi øker, erte deg, og egging du på for å legge til flere variabler!
Tidligere, jeg viste hvordan R-squared kan være misvisende når du vurdere godhet-of-fit for lineære regresjonsanalyser. I dette innlegget, vi skal se på hvorfor du bør motstå trangen til å legge til for mange prediktorer til en regresjonsmodell, og hvordan justert R-kvadrert og spådde R-squared kan hjelpe!,
Noen Problemer med R-squared
I mitt siste innlegg, jeg viste hvordan R-squared kan ikke avgjøre om koeffisient estimater og spådommer er partisk, som er grunnen til at du må vurdere gjenværende tomter. Imidlertid, R-squared har flere problemer som justert R-kvadrert og spådde R-squared er utformet for å løse.
feil 1: Hver gang du legger til en prediktor for en modell, den R-kvadrerte øker, selv om det skyldes tilfeldigheter alene. Det har aldri avtar. Følgelig, en modell med flere termer som kan synes å ha en bedre passform rett og slett fordi det er flere vilkår.,
Problemet 2: Hvis en modell har for mange prediktorer og høyere ordens polynomer, det begynner å modellere tilfeldig støy i data. Denne tilstanden er kjent som overfitting modellen og det gir villedende høy R-kvadrerte verdier og en redusert evne til å gjøre forutsigelser.
Hva Er Justert R-kvadrat?
justert R-kvadrert sammenligner den forklarende kraft av regresjonsmodeller som inneholder forskjellig antall prediktorer.
Tenk deg at du sammenligner en fem-prediktor-modell med en høyere R-squared til en en-prediktor-modellen., Gjør de fem prediktor modellen har en høyere R-squared fordi det er bedre? Eller er den R-kvadrerte høyere fordi det har flere prediktorer? Bare sammenligne justert R-kvadrerte verdier for å finne ut!
justert R-kvadrert er en modifisert versjon av R-squared som har blitt justert for antall prediktorer i modellen. Justert R-kvadrert øker bare hvis den nye begrepet forbedrer modellen mer enn det som ville være forventet ved en tilfeldighet. Det minsker når en prediktor forbedrer modellen ved mindre enn forventet ved en tilfeldighet. Justert R-kvadrert kan være negativ, men det er vanligvis ikke., Det er alltid lavere enn den R-kvadrerte.
I forenklet Beste Undergrupper Regresjon utgang nedenfor, kan du se hvor justert R-kvadrert topper, og deretter avtar. I mellomtiden, den R-kvadrerte fortsetter å øke.
Du vil kanskje ta med bare tre prediktorer i denne modellen. I min siste blogg, så vi hvordan en under-spesifisert modell (som var for enkel) kan produsere partisk estimater. Imidlertid, en overspecified modell (en som er for komplekse) er mer sannsynlig å redusere presisjonen av koeffisient estimater og predikerte verdier., Derfor, om du ikke ønsker å inkludere flere vilkår i modellen enn nødvendig. (Les et eksempel på bruk av Minitab ‘ s Beste Undergrupper Regresjon.)
til Slutt, en annen bruk for den justerte R-squared er at det gir en objektiv beregning av befolkningen R-squared.
Hva Er Spådd R-squared?
De foreslåtte R-squared viser hvor godt en regresjonsmodell spår svar for nye observasjoner. Denne statistikken hjelper deg å finne ut når den modell som passer de opprinnelige dataene, men er mindre i stand til å gi gyldig spådommer for nye observasjoner., (Les et eksempel på bruk av regresjon til å gjøre forutsigelser.)
Minitab beregner spådd R-squared ved systematisk å fjerne hver observasjon fra datasettet, estimering regresjonsligningen, og som avgjør hvor godt modellen forutsier fjernet observasjon. Liker justert R-kvadrert, spådde R-squared kan være negativ, og det er alltid lavere enn R-squared.
Selv om du ikke planlegger å bruke modellen for spådommer, spådde R-squared gir likevel viktig informasjon.
En av hovedfordelene ved spådd R-squared er at det kan hindre deg fra overfitting en modell., Som nevnt tidligere, en overfit modellen inneholder også mange prediktorer og det begynner å modellere tilfeldig støy.
Fordi det er umulig å forutsi tilfeldig støy, spådde R-squared må slippe for en overfit modell. Hvis du ser et anslått R-squared som er mye lavere enn vanlig R-squared, er du nesten sikkert ikke ha for mange begreper i modellen.
Eksempler på Overfit Modeller og Spådde R-squared
Du kan prøve disse eksemplene for deg selv ved hjelp av denne Minitab prosjektet fil som inneholder to regneark., Hvis du ønsker å spille sammen, og du ikke allerede har gjort det, kan du laste ned gratis 30-dagers prøveversjon av Minitab Statistisk Programvare!
Det er en enkel måte for deg å se en overfit modell i aksjon. Hvis du analyserer en lineær regresjonsmodell som har en prediktor for hver grad av frihet, vil du alltid få en R-squared på 100%!
I de tilfeldige data regneark, jeg opprettet 10 rader av tilfeldige data for en responsvariabel og ni prediktorer. Fordi det er ni prediktorer og ni grader av frihet, får vi en R-squared av 100%.,
Det ser ut til at modellen står for alt av variasjonen. Imidlertid, vi vet at tilfeldig prediktorer ikke har noe forhold til tilfeldige svar! Vi er like passende for tilfeldig variasjon.
Det er et ekstremt tilfelle, men la oss se på noen virkelige data i President ‘ s ranking regneark.
Disse dataene kommer fra mitt innlegg om store Presidenter. Jeg fant ingen assosiasjon mellom hver President ‘ s høyeste oppslutning og historikeren rangeringen. Faktisk, jeg beskrevet det montert linje tomt (nedenfor) som et forbilde på ingen sammenheng, en flat linje med en R-squared på 0,7%!,
La oss si at vi visste ikke bedre, og vi overfit modellen ved å inkludere den høyeste oppslutning som en kubisk polynom.
Wow, både R-squared og justert R-kvadrert ser ganske bra! Også, koeffisient estimater er alle vesentlige fordi deres p-verdier som er mindre enn 0.05. Den gjenværende tomter (ikke vist) ser bra ut også. Flott!
Ikke så fort…alt vi gjør er overdrevet bøye utstyrt linje for kunstig koble prikkene snarere enn å finne en sann sammenheng mellom variablene.,
Vår modell er for komplisert, og det er spådd R-squared gir dette bort. Vi har faktisk en negativ spådd R-kvadrerte verdien. Som kanskje ikke virker intuitivt, men hvis 0% er forferdelig, en negativ andelen er enda verre!
De foreslåtte R-squared trenger ikke å være negativ til å indikere en overfit modell. Hvis du ser spådd R-squared begynner å falle som du legger prediktorer, selv om de er betydelig, bør du begynner å bekymre deg for om overfitting modellen.,
Avsluttende Tanker om Justert R-kvadrert og Spådde R-squared
Alle data som inneholder et naturlig mengden av variasjon som er uforklarlige. Dessverre, R-squared ikke respekterer dette naturlig tak. Jage en høy R-kvadrerte verdien kan presse oss til å omfatte for mange prediktorer i et forsøk på å forklare det uforklarlige.
I disse tilfellene, kan du oppnå en høyere R-kvadrerte verdien, men på bekostning av misvisende resultater, redusert presisjon, og en redusert evne til å gjøre forutsigelser.,
Begge justert R-kvadrert og spådde R-square gi informasjon som hjelper deg med å vurdere antall prediktorer i modellen:
- Bruke justert R-kvadrat for å sammenligne modeller med forskjellig antall prediktorer
- Bruk spådd R-square for å finne ut hvor godt modellen forutsier nye observasjoner og hvorvidt modellen er for komplisert
regresjonsanalyser er kraftig, men du ikke ønsker å bli forført av at makt og bruke det uklokt!
Hvis du lærer om regresjon, les min regresjon tutorial!