op te nemen meervoudige regressie kan een verleidelijke, verleidelijke analyse zijn. Het is zo gemakkelijk om meer variabelen toe te voegen als je er aan denkt, of gewoon omdat de gegevens handig zijn. Sommige voorspellers zullen significant zijn. Misschien is er een relatie, of is het gewoon bij toeval? U kunt hogere-orde veeltermen toe te voegen om te buigen en te draaien die ingerichte lijn als je wilt, maar bent u passen echte patronen of gewoon het aansluiten van de stippen?, Ondertussen neemt de R-kwadraat (R2) waarde toe, plaagt je, en eggt je op om meer variabelen toe te voegen!
eerder liet ik zien hoe R-kwadraat misleidend kan zijn als je de goodness-of-fit voor lineaire regressieanalyse beoordeelt. In deze post, zullen we kijken naar waarom je moet weerstaan aan de drang om te veel voorspellers toe te voegen aan een regressiemodel, en hoe de aangepaste R-kwadraat en voorspelde R-kwadraat kan helpen!,
enkele problemen met R-kwadraat
in mijn laatste bericht heb ik laten zien hoe R-kwadraat niet kan bepalen of de schattingen van de coëfficiënt en voorspellingen zijn bevooroordeeld, dat is waarom je de resterende plots moet beoordelen. Echter, R-kwadraat heeft extra problemen die de aangepaste R-kwadraat en voorspelde R-kwadraat zijn ontworpen om aan te pakken.
Probleem 1: Elke keer dat u een voorspeller toevoegt aan een model, neemt het R-kwadraat toe, zelfs als dit alleen door toeval gebeurt. Het neemt nooit af. Bijgevolg kan een model met meer termen een betere pasvorm lijken te hebben, simpelweg omdat het meer termen heeft.,
Probleem 2: als een model te veel voorspellers en hogere orde veeltermen heeft, begint het de willekeurige ruis in de gegevens te modelleren. Deze voorwaarde staat bekend als overfitting het model en het produceert misleidend hoge R-kwadraatwaarden en een verminderd vermogen om voorspellingen te doen.
Wat is de gecorrigeerde R-kwadraat?
Het aangepaste R-kwadraat vergelijkt het verklarende vermogen van regressiemodellen die verschillende aantallen voorspellers bevatten.
stel dat je een vijf-voorspeller model vergelijkt met een hogere R-kwadraat met een één-voorspeller model., Heeft het vijf voorspellende model een hogere R-kwadraat omdat het beter is? Of is de R-kwadraat hoger omdat het meer voorspellers heeft? Vergelijk gewoon de aangepaste R-kwadraat waarden om erachter te komen!
De aangepaste R-kwadraat is een aangepaste versie van R-kwadraat die is aangepast voor het aantal voorspellers in het model. De aangepaste R-kwadraat stijgt alleen als de nieuwe termijn het model meer verbetert dan bij toeval zou worden verwacht. Het neemt af wanneer een voorspeller het model minder dan verwacht per toeval verbetert. De aangepaste R-kwadraat kan negatief zijn, maar meestal niet., Het is altijd lager dan het R-kwadraat.
in de onderstaande Simplified Best Subsets Regressieuitvoer kunt u zien waar de aangepaste R-kwadraat pieken en dan dalingen. Ondertussen blijft het R-kwadraat toenemen.
u wilt misschien slechts drie voorspellers in dit model opnemen. In mijn laatste blog zagen we hoe een onder-gespecificeerd model (een die te eenvoudig was) bevooroordeelde schattingen kan produceren. Echter, een overspecificeerd model (een die te complex is) is meer kans om de precisie van coëfficiënt schattingen en voorspelde waarden te verminderen., U wilt dus niet meer termen in het model opnemen dan nodig is. (Lees een voorbeeld van het gebruik van Minitab ‘ s Best Subsets regressie.)
een ander gebruik voor het gecorrigeerde R-kwadraat is dat het een onbevooroordeelde schatting van de populatie R-kwadraat geeft.
Wat is de voorspelde R-kwadraat?
de voorspelde R-kwadraat geeft aan hoe goed een regressiemodel responsen voorspelt voor nieuwe waarnemingen. Deze statistiek helpt u te bepalen wanneer het model past bij de oorspronkelijke gegevens, maar is minder geschikt voor het verstrekken van geldige voorspellingen voor nieuwe waarnemingen., (Lees een voorbeeld van het gebruik van regressie om voorspellingen te doen.)
Minitab berekent de voorspelde R-kwadraat door systematisch elke waarneming uit de gegevensverzameling te verwijderen, de regressievergelijking te schatten en te bepalen hoe goed het model de verwijderde waarneming voorspelt. Zoals aangepast R-kwadraat, kan voorspelde R-kwadraat negatief zijn en het is altijd lager dan R-kwadraat.
zelfs als u niet van plan bent om het model voor voorspellingen te gebruiken, biedt de voorspelde R-kwadraat nog steeds cruciale informatie.
een belangrijk voordeel van voorspelde R-kwadraat is dat het kan voorkomen dat u een model overstijgt., Zoals eerder vermeld, bevat een overfit-model te veel voorspellers en begint het de willekeurige ruis te modelleren.
omdat het onmogelijk is om willekeurige ruis te voorspellen, moet het voorspelde R-kwadraat dalen voor een overbit-model. Als je een voorspelde R-kwadraat ziet dat veel lager is dan de reguliere R-kwadraat, heb je vrijwel zeker te veel termen in het model.
voorbeelden van Overfitmodellen en voorspelde R-kwadraat
u kunt deze voorbeelden zelf proberen met behulp van dit Minitab-projectbestand dat twee werkbladen bevat., Als je mee wilt spelen en je hebt het nog niet, download dan de gratis 30-dagen proefversie van Minitab Statistical Software!
er is een eenvoudige manier voor u om een overfit model in actie te zien. Als je een lineair regressiemodel analyseert dat één voorspeller heeft voor elke vrijheidsgraad, krijg je altijd een R-kwadraat van 100%!
In het werkblad willekeurige gegevens heb ik 10 rijen willekeurige gegevens gemaakt voor een responsvariabele en negen voorspellers. Omdat er negen voorspellers en negen vrijheidsgraden zijn, krijgen we een R-kwadraat van 100%.,
Het lijkt erop dat het model voor alle variatie verantwoordelijk is. We weten echter dat de willekeurige voorspellers geen relatie hebben met de willekeurige reactie! We passen gewoon de willekeurige variabiliteit aan.
dat is een extreem geval, maar laten we eens kijken naar enkele echte gegevens in het Rangschikkingswerkblad van de President.
deze gegevens komen uit mijn bericht over grote Presidenten. Ik vond geen verband tussen de hoogste waardering van elke President en de ranglijst van de historicus. In feite, ik beschreef dat ingerichte lijn plot (hieronder) als een voorbeeld van geen relatie, een vlakke lijn met een R-kwadraat van 0,7%!,
laten we zeggen dat we niet beter wisten en dat we het model overstijgen door de hoogste goedkeuringsclassificatie als een kubieke veelterm op te nemen.
Wow, zowel het R-kwadraat als het aangepaste R-kwadraat zien er goed uit! Ook zijn de schattingen van de coëfficiënt allemaal significant omdat hun p-waarden lager zijn dan 0,05. De resterende percelen (niet afgebeeld) zien er ook goed uit. Geweldig!
niet zo snel…het enige wat we doen is overmatig buigen van de passende lijn om kunstmatig de punten te verbinden in plaats van het vinden van een echte relatie tussen de variabelen.,
Ons model is te ingewikkeld en de voorspelde R-kwadraat geeft dit weg. We hebben eigenlijk een negatieve voorspelde R-kwadraat waarde. Dat lijkt misschien niet intuïtief, maar als 0% verschrikkelijk is, is een negatief percentage nog erger!
het voorspelde R-kwadraat hoeft niet negatief te zijn om een overbit model aan te geven. Als je ziet dat de voorspelde R-kwadraat begint te dalen als je voorspellers toevoegt, zelfs als ze significant zijn, moet je je zorgen gaan maken over het overfitten van het model.,
Closing Thoughts about Adjusted R-squared and Predicted R-squared
alle gegevens bevatten een natuurlijke hoeveelheid variabiliteit die onverklaarbaar is. Helaas respecteert R-squared dit natuurlijke plafond niet. Het najagen van een hoge R-kwadraat waarde kan ons ertoe aanzetten om te veel voorspellers op te nemen in een poging om het onverklaarbare te verklaren.
in deze gevallen kunt u een hogere R-kwadraatwaarde bereiken, maar ten koste van misleidende resultaten, verminderde precisie en een verminderd vermogen om voorspellingen te doen.,
zowel het aangepaste R-kwadraat als het voorspelde R-kwadraat verschaffen informatie die u helpt het aantal voorspellers in uw model te beoordelen:
- gebruik het aangepaste R-kwadraat om modellen te vergelijken met verschillende aantallen voorspellers
- gebruik het voorspelde R-kwadraat om te bepalen hoe goed het model nieuwe waarnemingen voorspelt en of het model te ingewikkeld is
regressieanalyse is krachtig, maar u wilt niet verleid worden door die kracht en gebruik het onverstandig!
als je leert over regressie, lees dan mijn regressie tutorial!