Useita regressio voi olla houkutteleva, kiusaus täytetty analyysi. Muuttujia on niin helppo lisätä, kun niitä ajattelee, tai vain siksi, että tiedot ovat käteviä. Osa ennusteista on merkittäviä. Ehkä suhde on olemassa, vai onko se vain sattumaa? Voit lisätä korkeamman kertaluvun polynomi taivuttaa ja vääntää, että asennettu linja kuin haluat, mutta oletko sopiva todellisia kuvioita tai vain yhdistää pisteitä?, Kaikki samalla, R-neliö (R2) arvo kasvaa, kiusanteko sinua, ja egging sinut lisää muuttujia!

aiemmin osoitin, miten R-neliö voi olla harhaanjohtava, kun arvioit lineaarisen regressioanalyysin hyvyyttä. Tässä postitse me tarkastelemme miksi sinun pitäisi vastustaa kiusausta lisätä liian monia ennustajia regressiomalliin, ja miten säätää R-squared ja ennusti R-squared voi auttaa!,

Joitakin Ongelmia R-squared

minun viimeinen viesti, näytin miten R-squared voi määrittää, onko kerroin arviot ja ennusteet ovat puolueellisia, joka on, miksi sinun täytyy arvioida jäljellä tontteja. R-neliöllä on kuitenkin lisäongelmia, joihin oikaistulla R-neliöllä ja ennustetulla R-neliöllä on tarkoitus puuttua.

ongelma 1: aina kun malliin lisätään predikaattori, R-neliö kasvaa, vaikka pelkän sattuman takia. Se ei vähene koskaan. Näin ollen malli, jossa on enemmän ehtoja, voi näyttää olevan parempi yksinkertaisesti siksi, että sillä on enemmän ehtoja.,

Ongelma 2: Jos malli on liian monia ennustajia ja korkeamman asteen polynomi, se alkaa malli satunnainen melu tiedot. Tämä tila tunnetaan overfitting malli ja se tuottaa harhaanjohtavasti korkea R-squared arvot ja vähentynyt kyky tehdä ennusteita.

mikä on korjattu R-neliö?

oikaistu R-neliö vertailee regressiomallien selittävää tehoa, joka sisältää eri määrän predikaattoreita.

Oletetaan, että vertaat viiden predikaattorin mallia korkeampaan R-neliöön yhden predikaattorin malliin., Onko viiden ennustimen mallissa korkeampi R-neliö, koska se on parempi? Vai onko R-neliö korkeampi, koska siinä on enemmän prediktoreita? Yksinkertaisesti vertailla oikaistu R-neliö arvot selvittää!

adjusted R-squared on muokattu versio R-squared, että on oikaistu määrä ennustavat mallissa. Oikaistu R-neliö kasvaa vain, jos uusi kausi parantaa mallia enemmän kuin olisi sattuman varassa odotettavissa. Se pienenee, kun ennustin parantaa mallia odotettua vähemmän sattumalta. Oikaistu R-neliö voi olla negatiivinen, mutta se ei yleensä ole., Se on aina R-neliötä matalampi.

yksinkertaistetun Best Subsets Regressio näkyy alla, voit nähdä, missä adjusted R-squared huiput, ja sitten laskee. Samaan aikaan R-neliö kasvaa edelleen.

tähän malliin kannattaa sisällyttää vain kolme predikaattoria. Edellisessä blogissani näimme, miten liian yksinkertainen malli voi tuottaa puolueellisia arvioita. Kuitenkin Ylimitoitettu malli (joka on liian monimutkainen) todennäköisemmin vähentää kertoimen estimaattien ja ennustettujen arvojen tarkkuutta., Näin ollen, et halua sisällyttää enemmän ehtoja malliin kuin tarpeen. (Lue esimerkki Minitabin parhaiden osajoukkojen regressiosta.)

Lopulta, eri käyttö säätää R-squared on, että se tarjoaa puolueettoman arvion väestöstä R-squared.

mikä on ennustettu R-neliö?

ennustettu R-neliö osoittaa, kuinka hyvin regressiomalli ennustaa vasteita uusille havainnoille. Tämä tilasto auttaa sinua määrittämään, milloin malli sopii alkuperäiseen tietoon, mutta ei pysty tarjoamaan päteviä ennusteita uusille havainnoille., (Lue esimerkki regression käytöstä ennusteiden tekemiseen.)

Minitab laskee ennustettu R-squared järjestelmällisesti poistamalla kukin havainto aineistosta asettaa, arvioimalla regressio yhtälö, ja ratkaistaan, miten hyvin malli ennustaa poistaa havainto. Kuten adjusted R-squared, ennusti R-neliö voi olla negatiivinen ja se on aina pienempi kuin R-squared.

vaikka et aikoisikaan käyttää mallia ennusteisiin, ennustettu R-neliö antaa silti ratkaisevaa tietoa.

keskeinen hyöty ennusti R-squared on, että se voi estää overfitting malli., Kuten aiemmin mainittiin, overfit-mallissa on liikaa ennustimia ja se alkaa mallintaa satunnaista melua.

koska satunnaista kohinaa on mahdotonta ennustaa, ennustetun R-neliöisen on laskeuduttava ylimitoitetulle mallille. Jos näkee ennustetun R-neliöisen, joka on paljon pienempi kuin tavallinen R-neliö, on mallilla lähes varmasti liikaa termejä.

Esimerkkejä Overfit Malleja ja Ennusti R-squared

Voit kokeilla näitä esimerkkejä itsesi käyttämällä tätä Minitab projekti tiedosto, joka sisältää kaksi laskentataulukoita., Jos haluat pelata yhdessä, ja sinulla ei vielä ole sitä, lataa ilmainen 30 päivän kokeiluversio Minitab Tilastollinen Ohjelmisto!

on helppo tapa nähdä liika malli toiminnassa. Jos analysoit lineaarisen regressiomallin, jossa on yksi ennustin jokaiselle vapauden asteelle, saat aina R-neliöön 100%!

satunnainen tietoja laskentataulukossa, olen luonut 10 riviä satunnaisia tietoja vastemuuttuja ja yhdeksän ennustajia. Koska ennustimia on yhdeksän ja vapausasteita yhdeksän, saadaan R-neliö 100%.,

näyttää siltä, että malli vastaa kaikista muunnelmista. Kuitenkin, me tiedämme, että satunnainen ennustajia ei ole mitään suhdetta satunnainen vastaus! Sovimme satunnaisvaihteluun.

se on ääritapaus, mutta katsotaan presidentin ranking-laskentataulukossa jotain todellista dataa.

nämä tiedot tulevat postauksestani suurista presidenteistä. En löytänyt yhtymäkohtaa kunkin presidentin korkeimman hyväksymisluokituksen ja historioitsijan rankingin välillä. Itse kuvailin, että asennettu linja juoni (alla) esikuvana ei suhdetta, tasainen linja R-neliöinen 0,7%!,

sanotaan, että me ei tiedä paremmin, ja me overfit malli, jonka mukaan korkein hyväksynnän luokitus kuten kuutiometriä polynomi.

Wow, sekä R-neliöinen että oikaistu R-neliö näyttää aika hyvältä! Myös, kertoimen estimaatit ovat kaikki merkittäviä, koska niiden p-arvot ovat alle 0,05. Myös jäännöspalstat (ei esitetty) näyttävät hyviltä. Hienoa!

ei niin nopeasti…kaikki, että olemme tekemässä on liian taivutus varustettu linja keinotekoisesti yhdistää pisteitä pikemminkin kuin löytää oikea suhde muuttujien välillä.,

mallimme on liian monimutkainen ja ennustettu R-neliö antaa tämän pois. Meillä on negatiivinen ennustettu R-neliöarvo. Se ei ehkä tunnu intuitiiviselta, mutta jos 0% on kauhea, negatiivinen prosentti on vielä pahempi!

ennustettu R-squared ei tarvitse olla negatiivinen osoittavat overfit malli. Jos näet ennusti R-squared alkaa syksyllä, kun lisäät ennustajia, vaikka ne ovat merkittäviä, sinun pitäisi alkaa huolehtia overfitting malli.,

Sulkeminen Ajatuksia siitä, Adjusted R-squared ja Ennusti R-squared

Kaikki tiedot sisältävät luonnollisia määrän vaihtelu, joka on selittämätöntä. Valitettavasti R-neliö ei kunnioita tätä luonnollista kattoa. Suuren R-neliöisen arvon jahtaaminen voi saada meidät sisällyttämään liian monta ennustajaa selittämään selittämätöntä.

näissä tapauksissa voit saavuttaa korkeamman R-neliöarvon, mutta harhaanjohtavien tulosten kustannuksella, vähentää tarkkuutta ja vähentää kykyä tehdä ennusteita.,

Molemmat adjusted R-squared ja ennusti, R-square tarjota tietoa, joka auttaa sinua arvioimaan määrä ennustajia teidän malli:

  • Käytä oikaistu R-square vertailla malleja, joissa on eri määrä mittareita
  • Käytä ennusti R-square selvittää, miten hyvin malli ennustaa uusia havaintoja ja onko malli on liian monimutkainen

Regressio-analyysi on tehokas, mutta et halua olla vietteli, että teho ja käyttää sitä varomattomasti!

Jos opit regressiosta, Lue regressio-opetukseni!

Articles

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *