Multiple regression kan være et forførende, fristelse-fyldt analyse. Det er så nemt at tilføje flere variabler, som du tænker på dem, eller bare fordi dataene er praktiske. Nogle af forudsigelserne vil være betydelige. Måske er der et forhold, eller er det bare tilfældigt? Du kan tilføje polynomier i højere rækkefølge for at bøje og vride den monterede linje, som du vil, men passer du på rigtige mønstre eller bare forbinder prikkerne?, Alt imens, r-s !uared (R2) værdi stiger, drille dig, og egging dig på at tilføje flere variabler!tidligere viste jeg, hvordan R-S .uared kan være vildledende, når du vurderer godheden til lineær regressionsanalyse. I dette indlæg vil vi se på, hvorfor du bør modstå trangen til at tilføje for mange prædiktorer for en regressionsmodel, og hvordan justeret R-kvadreret og forudsagde, R-squared kan hjælpe!,
nogle problemer med R-S .uared
i mit sidste indlæg viste jeg, hvordan R-S .uared ikke kan bestemme, om koefficientestimaterne og forudsigelserne er partiske, hvorfor du skal vurdere de resterende plot. R-S .uared har dog yderligere problemer, som den justerede R-S .uared og forudsagte R-S .uared er designet til at adressere.Problem 1: Hver gang du tilføjer en forudsigelse til en model, øges R-kvadratet, selvom det skyldes tilfældigheder alene. Det falder aldrig. Derfor kan en model med flere vilkår synes at have en bedre pasform, simpelthen fordi det har flere vilkår.,Problem 2: Hvis en model har for mange forudsigere og højere ordens polynomier, begynder den at modellere den tilfældige støj i dataene. Denne tilstand er kendt som overfitting af modellen, og den producerer vildledende høje r-kvadrerede værdier og en formindsket evne til at fremsætte forudsigelser.
Hvad er den justerede R-kvadreret?
den justerede R-S .uared sammenligner den forklarende effekt af regressionsmodeller, der indeholder forskellige antal forudsigere.
Antag, at du sammenligner en fem-prediktormodel med en højere R-kvadreret til en en-prediktormodel., Har de fem predictor model en højere R-kvadreret, fordi det er bedre? Eller er R-kvadratet højere, fordi det har flere forudsigere? Sammenlign blot de justerede R-kvadrerede værdier for at finde ud af det!
den justerede R-S .uared er en modificeret version af R-S .uared, der er justeret for antallet af forudsigere i modellen. Den justerede R-kvadreret øges kun, hvis det nye udtryk forbedrer modellen mere end forventet ved en tilfældighed. Det falder, når en forudsigelse forbedrer modellen med mindre end forventet ved en tilfældighed. Den justerede R-kvadreret kan være negativ, men det er normalt ikke., Det er altid lavere end R-kvadratet.
i den forenklede bedste delmængde Regression output nedenfor, kan du se, hvor de justerede R-kvadreret toppe, og derefter falder. I mellemtiden fortsætter R-kvadratet med at stige.
du vil måske kun medtage tre forudsigere i denne model. I min sidste blog så vi, hvordan en underspecificeret model (en der var for simpel) kan producere partiske estimater. Imidlertid er en overspecificeret model (en, der er for kompleks) mere tilbøjelig til at reducere præcisionen af koefficientestimater og forudsagte værdier., Derfor ønsker du ikke at medtage flere vilkår i modellen end nødvendigt. (Læs et eksempel på at bruge Minitabs bedste undergrupper Regression.)
endelig er en anden anvendelse for den justerede R-kvadreret, at den giver et upartisk skøn over befolkningen R-kvadreret.
Hvad er den forudsagte R-kvadreret?
den forudsagte R-kvadreret angiver, hvor godt en regressionsmodel forudsiger svar for nye observationer. Denne statistik hjælper dig med at bestemme, hvornår modellen passer til de originale data, men er mindre i stand til at give gyldige forudsigelser for nye observationer., (Læs et eksempel på at bruge regression til at lave forudsigelser.)
Minitab beregner forudsagt R-kvadreret ved systematisk at fjerne hver observation fra datasættet, estimere regressionsligningen og bestemme, hvor godt modellen forudsiger den fjernede observation. Ligesom justeret R-kvadreret kan forudsagt R-kvadreret være negativt, og det er altid lavere end R-kvadreret.
selvom du ikke planlægger at bruge modellen til forudsigelser, giver den forudsagte r-s .uared stadig vigtige oplysninger.
en vigtig fordel ved forudsagt R-kvadreret er, at det kan forhindre dig i at overfylde en model., Som tidligere nævnt indeholder en overfitmodel for mange forudsigere, og den begynder at modellere den tilfældige støj.
da det er umuligt at forudsige tilfældig støj, skal den forudsagte R-kvadreret falde for en overfitmodel. Hvis du ser en forudsagt R-kvadreret, der er meget lavere end den almindelige R-kvadreret, har du næsten helt sikkert for mange udtryk i modellen.
eksempler på Overfitmodeller og forudsagt r-s .uared
Du kan selv prøve disse eksempler ved hjælp af denne Minitab-projektfil, der indeholder to regneark., Hvis du ønsker at spille sammen, og du ikke allerede har det, skal du downloade den gratis 30-dages prøveversion af Minitab Statistiske Software!
Der er en nem måde for dig at se en overfitmodel i aktion. Hvis du analyserer en lineær regressionsmodel, der har en forudsigelse for hver frihedsgrad, får du altid en R-kvadreret på 100%!
i regnearket til tilfældige data oprettede jeg 10 rækker tilfældige data til en responsvariabel og ni forudsigere. Fordi der er ni forudsigere og ni frihedsgrader, får vi en R-kvadrat på 100%.,
det fremgår, at modellen tegner sig for alle variationen. Vi ved dog, at de tilfældige forudsigere ikke har noget forhold til det tilfældige svar! Vi passer bare på den tilfældige variabilitet.
det er et ekstremt tilfælde, men lad os se på nogle rigtige data i præsidentens ranking regneark.
disse data kommer fra mit indlæg om store præsidenter. Jeg fandt ingen sammenhæng mellem hver præsidents højeste godkendelsesvurdering og historikerens placering. Faktisk beskrev jeg det monterede linjeplot (nedenfor) som et eksempel på intet forhold, en flad linje med en R-kvadreret på 0.7%!,
lad os sige, at vi ikke vidste bedre, og vi overfitter modellen ved at inkludere den højeste godkendelsesvurdering som et kubisk polynom.
Wowo!, både R-S anduared og justeret R-S !uared ser ret godt ud! Koefficientestimaterne er også alle signifikante, fordi deres p-værdier er mindre end 0,05. De resterende tomter (ikke vist) ser også godt ud. Fedt!
ikke så hurtigt…alt, hvad vi laver, er at bøje den monterede linje for kunstigt at forbinde prikkerne i stedet for at finde et sandt forhold mellem variablerne.,
vores model er for kompliceret, og den forudsagte R-kvadreret giver dette væk. Vi har faktisk en negativ forudsagt R-kvadreret værdi. Det virker måske ikke intuitivt, men hvis 0% er forfærdeligt, er en negativ procentdel endnu værre!
den forudsagte R-kvadreret behøver ikke at være negativ for at indikere en overfitmodel. Hvis du ser den forudsagte R-kvadreret begynder at falde, når du tilføjer forudsigere, selvom de er betydelige, skal du begynde at bekymre dig om at overfylde modellen.,
lukning af tanker om justeret r-s .uared og forudsagt R-S .uared
alle data indeholder en naturlig mængde variabilitet, der er uforklarlig. Desværre respekterer R-S .uared ikke dette naturlige loft. Chasing en høj R-kvadreret værdi kan skubbe os til at inkludere for mange forudsigere i et forsøg på at forklare det uforklarlige.
i disse tilfælde kan du opnå en højere R-kvadreret værdi, men på bekostning af vildledende resultater, reduceret præcision og en formindsket evne til at lave forudsigelser.,
Både justeret R-kvadreret og forudsagde, R-square give oplysninger, som hjælper dig med at vurdere antallet af indikatorer i modellen:
- Brug justeret R-square for at sammenligne modeller med forskellige numre af prædiktorer
- Brug den forudsagte R-square til at afgøre, hvor godt modellen forudsiger nye observationer, og om den model er alt for kompliceret
regressionsanalyse er stærk, men du behøver ikke ønsker at blive forført af, at magt og bruge det uklogt!
Hvis du lærer om regression, skal du læse min regressionsvejledning!