multipel regression kan vara en beguiling, frestelse-fylld analys. Det är så lätt att lägga till fler variabler som du tycker om dem, eller bara för att data är praktiska. Några av förutsägarna kommer att vara betydande. Kanske finns det ett förhållande, eller är det bara av en slump? Du kan lägga till högre ordning polynom för att böja och vrida den monterade linjen som du vill, men passar du riktiga mönster eller bara kopplar prickarna?, Hela tiden ökar R-squared (R2) – värdet, retar dig och eggar dig på för att lägga till fler variabler!

tidigare visade jag hur R-squared kan vara vilseledande när du bedömer godheten för linjär regressionsanalys. I det här inlägget tittar vi på varför du borde motstå uppmaningen att lägga till för många prediktorer till en regressionsmodell, och hur den justerade R-kvadraten och förutspådda R-kvadraten kan hjälpa till!,

några problem med R-squared

i mitt senaste inlägg visade jag hur R-squared inte kan avgöra om koefficientberäkningarna och förutsägelserna är partiska, varför du måste bedöma de återstående tomterna. R-squared har dock ytterligare problem som den justerade R-squared och förutsagda R-squared är utformade för att ta itu med.

Problem 1: Varje gång du lägger till en prediktor till en modell ökar R-kvadraten, även om det beror på slumpen ensam. Det minskar aldrig. Följaktligen kan en modell med fler termer verkar ha en bättre passform helt enkelt eftersom det har fler villkor.,

Problem 2: om en modell har för många prediktorer och högre ordning polynom börjar den modellera det slumpmässiga bruset i data. Detta villkor är känt som overfitting modellen och det ger vilseledande höga R-kvadrat värden och en minskad förmåga att göra förutsägelser.

Vad är den justerade R-kvadraten?

den justerade R-kvadraten jämför den förklarande kraften hos regressionsmodeller som innehåller olika antal prediktorer.

Antag att du jämför en modell med fem prediktorer med en högre R-kvadrat med en modell med en prediktor., Har fem prediktor modellen en högre R-kvadrat eftersom det är bättre? Eller är R-kvadraten högre eftersom den har fler prediktorer? Helt enkelt jämföra de justerade R-kvadrat värden för att ta reda på!

den justerade R-squared är en modifierad version av R-squared som har justerats för antalet prediktorer i modellen. Den justerade R-kvadraten ökar endast om den nya termen förbättrar modellen mer än vad som förväntas av en slump. Det minskar när en prediktor förbättrar modellen med mindre än förväntat av en slump. Den justerade R-kvadraten kan vara negativ, men det är vanligtvis inte., Det är alltid lägre än R-kvadraten.

i den förenklade bästa Subsets Regressionsutgången nedan kan du se var de justerade R-kvadrerade topparna och sedan minskar. Under tiden fortsätter R-kvadraten att öka.

Du kanske bara vill inkludera tre prediktorer i den här modellen. I min senaste blogg såg vi hur en underspecificerad modell (en som var för enkel) kan producera partiska uppskattningar. En överspecificerad modell (en som är för komplex) är dock mer sannolikt att minska precisionen av koefficientberäkningar och förutspådda värden., Följaktligen vill du inte inkludera fler termer i modellen än nödvändigt. (Läs ett exempel på att använda Minitabs bästa subsets Regression.)

slutligen är en annan användning för den justerade R-kvadraten att den ger en opartisk uppskattning av befolkningen R-kvadrat.

Vad är den förutsagda R-kvadraten?

den förutsagda R-squared anger hur väl en regressionsmodell förutspår svar för nya observationer. Denna statistik hjälper dig att avgöra när modellen passar de ursprungliga uppgifterna men är mindre kapabel att ge giltiga förutsägelser för nya observationer., (Läs ett exempel på att använda regression för att göra förutsägelser.)

Minitab beräknar predicted R-squared genom att systematiskt ta bort varje observation från datauppsättningen, uppskatta regressionsekvationen och bestämma hur väl modellen förutspår den borttagna observationen. Liksom justerad R-kvadrat kan förutsagd R-kvadrat vara negativ och den är alltid lägre än R-kvadrat.

även om du inte planerar att använda modellen för förutsägelser, ger den förutsagda R-kvadraten fortfarande viktig information.

en viktig fördel med förutsagd R-squared är att det kan hindra dig från att överfitta en modell., Som tidigare nämnts innehåller en overfit-modell för många prediktorer och det börjar modellera det slumpmässiga bruset.

eftersom det är omöjligt att förutsäga slumpmässigt brus måste den förutsagda R-kvadraten sjunka för en overfit-modell. Om du ser en förutsagd R-squared som är mycket lägre än den vanliga R-squared, har du nästan säkert för många termer i modellen.

exempel på Overfit-modeller och förutsagda R-squared

Du kan prova dessa exempel själv med den här Minitab-projektfilen som innehåller två kalkylblad., Om du vill spela med och du inte redan har det, ladda ner gratis 30-dagars testversion av Minitab Statistical Software!

det finns ett enkelt sätt för dig att se en overfit-modell i aktion. Om du analyserar en linjär regressionsmodell som har en prediktor för varje grad av frihet får du alltid en R-kvadrat på 100%!

i det slumpmässiga databladet skapade jag 10 rader slumpmässiga data för en svarsvariabel och nio prediktorer. Eftersom det finns nio prediktorer och nio grader av frihet får vi en R-kvadrat på 100%.,

det verkar som om modellen står för all variation. Vi vet dock att de slumpmässiga förutsägarna inte har något samband med det slumpmässiga svaret! Vi passar bara den slumpmässiga variationen.

det är ett extremt fall, men låt oss titta på några riktiga data i presidentens ranking kalkylblad.

dessa data kommer från mitt inlägg om stora Presidenter. Jag fann inget samband mellan varje Presidents högsta godkännande betyg och historikern ranking. Faktum är att jag beskrev den monterade linjeplotten (nedan) som ett exempel på inget förhållande, en platt linje med en R-kvadrat på 0,7%!,

låt oss säga att vi inte visste bättre och vi överfitta modellen genom att inkludera högsta godkännande betyg som ett kubiskt polynom.

Wow, både R-squared och justerade R-squared ser ganska bra ut! Koefficienten är också alla signifikanta eftersom deras p-värden är mindre än 0,05. De återstående tomterna (visas inte) ser också bra ut. Toppen!

inte så snabbt…allt vi gör är att böja den monterade linjen för att artificiellt ansluta prickarna istället för att hitta ett sant förhållande mellan variablerna.,

vår modell är för komplicerad och den förutsagda R-squared ger bort detta. Vi har faktiskt ett negativt förväntat R-kvadrerat värde. Det kanske inte verkar intuitivt, men om 0% är hemskt är en negativ procent ännu värre!

den förväntade R-kvadraten behöver inte vara negativ för att indikera en overfit-modell. Om du ser den förutsagda R-squared börjar falla när du lägger till prediktorer, även om de är signifikanta, bör du börja oroa dig för att överfitta modellen.,

avslutande tankar om justerade R-kvadrat och förutsagda R-kvadrat

Alla data innehåller en naturlig mängd variabilitet som är oförklarlig. Tyvärr respekterar R-squared inte detta naturliga tak. Att jaga ett högt R-kvadrerat värde kan få oss att inkludera för många prediktorer i ett försök att förklara det oförklarliga.

i dessa fall kan du uppnå ett högre R-kvadrerat värde, men på bekostnad av vilseledande resultat, minskad precision och en minskad förmåga att göra förutsägelser.,R-kvadrat ger information som hjälper dig att bedöma antalet prediktorer i din modell:

  • använd den justerade R-kvadraten för att jämföra modeller med olika antal prediktorer
  • använd den förutsagda R-kvadraten för att bestämma hur bra modellen förutsäger nya observationer och om modellen är för komplicerad

regressionsanalys är kraftfull, men du vill inte bli förförd av den kraften och använda den oklokt!

om du lär dig om regression, läs min regressionshandledning!

Articles

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *