változók helyes számának megadásához a többszörös regresszió kezdeti, kísértéssel teli elemzés lehet. Ez olyan egyszerű, hogy adjunk több változó, mint gondol rájuk, vagy csak azért, mert az adatok kéznél vannak. Néhány prediktor jelentős lesz. Talán van kapcsolat, vagy csak véletlenül? Felveheti magasabb rendű polinomok hajlítani, csavar, hogy felszerelt vonal, ahogy tetszik, de Ön illeszkedő valódi minták, vagy csak összekötő pontok?, Mindeközben az R-négyzet (R2) értéke növekszik, ugrat téged, és egging, hogy még több változót adjon hozzá!

korábban megmutattam, hogy az R-négyzet félrevezető lehet, amikor felméri a lineáris regressziós analízis jóságát. Ebben a bejegyzésben megvizsgáljuk, hogy miért kell ellenállnia annak a késztetésnek, hogy túl sok előrejelzőt adjon hozzá egy regressziós modellhez, és hogyan segíthet a korrigált R-négyzet és az előre jelzett R-négyzet!,

néhány probléma az R-négyzetrel

az utolsó hozzászólásomban megmutattam, hogy az R-négyzet nem tudja meghatározni, hogy az együttható becslései és előrejelzései elfogultak-e, ezért meg kell vizsgálnia a maradék parcellákat. Az R-négyzetnek azonban további problémái vannak azzal, hogy a korrigált r-négyzetet és az előre jelzett r-négyzetet úgy tervezték, hogy kezelje.

1. probléma: minden alkalommal, amikor prediktort ad hozzá egy modellhez, az R-négyzet növekszik, még akkor is, ha csak a véletlen miatt. Soha nem csökken. Következésképpen úgy tűnik, hogy egy több kifejezéssel rendelkező modell jobban illeszkedik egyszerűen azért, mert több kifejezéssel rendelkezik.,

2. probléma: ha egy modellnek túl sok prediktora és magasabb rendű polinomja van, akkor elkezdi modellezni az adatok véletlen zaját. Ez a feltétel ismert, mint overfitting a modell, és ez termel félrevezetően magas R-négyzet értékek, valamint a csökkent képesség, hogy jóslatok.

mi a korrigált R-négyzet?

a korrigált R-négyzet összehasonlítja a regressziós modellek magyarázó erejét, amelyek különböző számú prediktort tartalmaznak.

tegyük fel, hogy összehasonlít egy öt prediktor modellt egy magasabb r-négyzetrel egy prediktor modellhez., Van-e az öt prediktor modellnek magasabb r-négyzete, mert jobb? Vagy az R-négyzet magasabb, mert több előrejelzője van? Egyszerűen hasonlítsa össze a korrigált R-négyzet értékeket, hogy megtudja!

a korrigált R-négyzet az R-négyzet módosított változata, amelyet a modell prediktorainak számához igazítottak. A korrigált R-négyzet csak akkor növekszik, ha az új kifejezés jobban javítja a modellt, mint amit véletlenül várnának. Csökken, ha a prediktor a vártnál kisebb mértékben javítja a modellt. A beállított R-négyzet negatív lehet, de általában nem., Mindig alacsonyabb, mint az R-négyzet.

az egyszerűsített legjobb részhalmazok regressziós kimenet alább látható, ahol a korrigált R-négyzet csúcsok, majd csökken. Eközben az R-négyzet tovább növekszik.

lehet, hogy csak három prediktort szeretne felvenni ebbe a modellbe. Az utolsó blogomban láttuk, hogy egy alul meghatározott modell (amely túl egyszerű volt) képes elfogult becsléseket készíteni. Azonban egy túlbecsült modell (ami túl bonyolult) nagyobb valószínűséggel csökkenti az együttható becsléseinek és az előre jelzett értékeknek a pontosságát., Következésképpen nem akarja, hogy a szükségesnél több feltétel szerepeljen a modellben. (Olvassa el a Minitab legjobb részhalmazainak regressziójának használatára vonatkozó példát.)

végül a korrigált R-négyzet eltérő felhasználása az, hogy elfogulatlan becslést ad az R-négyzet populációjáról.

mi az előre jelzett R-négyzet?

az előre jelzett R-négyzet azt jelzi, hogy a regressziós modell mennyire jósolja meg az új megfigyelésekre adott válaszokat. Ez a statisztika segít meghatározni, hogy a modell megfelel-e az eredeti adatoknak, de kevésbé képes érvényes előrejelzéseket adni az új megfigyelésekhez., (Olvassa el egy példát a regresszió használatával jóslatok készítéséhez.)

Minitab számítja előre R-négyzet által rendszeresen eltávolítja minden egyes megfigyelési adatokból meghatározott, becsüljük, hogy a regressziós egyenlet, valamint meghatározza, hogy a modell azt jósolja, az eltávolított megfigyelés. A korrigált R-négyzethez hasonlóan az előre jelzett R-négyzet negatív lehet, és mindig alacsonyabb, mint az R-négyzet.

még akkor is, ha nem tervezi a modell előrejelzésekhez való használatát, az előre jelzett R-négyzet továbbra is fontos információkat nyújt.

az előre jelzett R-négyzet egyik legfontosabb előnye, hogy megakadályozhatja a modell túlcsordulását., Mint korábban említettük, egy overfit modell túl sok prediktort tartalmaz, és elkezdi modellezni a véletlen zajt.

mivel lehetetlen megjósolni a véletlenszerű zajt, az előre jelzett r-négyzetnek le kell esnie egy overfit modellhez. Ha egy előre jelzett R-négyzetet lát, amely sokkal alacsonyabb, mint a szokásos R-négyzet, akkor szinte biztosan túl sok kifejezés van a modellben.

példák Overfit modellekre és előre jelzett r-négyzetre

ezeket a példákat kipróbálhatja magának a két munkalapot tartalmazó Minitab Projektfájl használatával., Ha azt szeretnénk, hogy játsszon együtt, és még nincs meg, kérjük, töltse le az ingyenes 30 napos próbaverzió Minitab statisztikai szoftver!

van egy egyszerű módja annak, hogy egy overfit modellt láthasson. Ha elemez egy lineáris regressziós modellt, amelynek minden szabadságfokához egy prediktora van, akkor mindig 100%-os r-négyzetet kap!

a random data munkalapon 10 sor véletlenszerű adatot készítettem egy válaszváltozóhoz és kilenc prediktorhoz. Mivel kilenc prediktor és kilenc szabadságfok van, 100%-os r-négyzetet kapunk.,

úgy tűnik, hogy a modell az összes variációt tartalmazza. Tudjuk azonban, hogy a véletlenszerű előrejelzőknek nincs kapcsolatuk a véletlenszerű válaszokkal! Csak a véletlenszerű változékonyságot illesztjük be.

Ez egy szélsőséges eset, de nézzük meg néhány valós adatot az elnök rangsorolási munkalapján.

ezek az adatok a nagy elnökökről szóló hozzászólásomból származnak. Nem találtam összefüggést az egyes elnök legmagasabb minősítése és a történész rangsor között. Valójában leírtam, hogy felszerelt vonal telek (lent), mint egy példa a Nincs kapcsolat, egy lapos vonal egy R-négyzet 0,7%!,

tegyük fel, hogy nem tudtuk jobban, és a modellt túlszárnyaltuk azzal, hogy köbös polinomként a legmagasabb jóváhagyási minősítést vettük figyelembe.

Wow, mind az R-négyzet, mind a beállított R-négyzet nagyon jól néz ki! Az együttható becslései szintén jelentősek, mivel p-értékeik kisebbek, mint 0,05. A maradék parcellák (nem látható) jól néz ki is. Zseniális!

nem olyan gyors…csak annyit teszünk, hogy túlságosan hajlítjuk a felszerelt vonalat, hogy mesterségesen összekapcsoljuk a pontokat, ahelyett, hogy valódi kapcsolatot találnánk a változók között.,

modellünk túl bonyolult, és az előre jelzett R-négyzet megadja ezt. Valójában van egy negatív előre jelzett R-négyzet értéke. Ez nem tűnik intuitívnak, de ha 0% szörnyű, a negatív százalék még rosszabb!

az előre jelzett r-négyzetnek nem kell negatívnak lennie ahhoz, hogy egy overfit modellt jelezzen. Ha úgy látja, hogy a jósolt R-négyzet csökkenni kezd, amikor előrejelzőket ad hozzá, még akkor is, ha jelentősek, akkor aggódnia kell a modell túlcsordulása miatt.,

A korrigált R-négyzetre és az előre jelzett R-négyzetre vonatkozó záró gondolatok

minden adat természetes változékonyságot tartalmaz, amely megmagyarázhatatlan. Sajnos az R-négyzet nem tartja tiszteletben ezt a természetes mennyezetet. A magas r-négyzetű érték üldözése arra késztethet bennünket, hogy túl sok előrejelzőt vonjunk be annak érdekében, hogy megmagyarázzuk a megmagyarázhatatlant.

ezekben az esetekben magasabb R-négyzet értéket érhet el, de a félrevezető eredmények, a csökkent pontosság és a jóslatok csökkent képességének költségén.,

a két korrigált R-négyzet, valamint a várható R-négyzet információt, amely segít értékelni a száma predictors a modell:

  • Használja a kiigazított R-négyzet összehasonlítani modellek különböző számú predictors
  • Használja a becsült R-négyzet, hogy meghatározza, hogy a modell azt jósolja, új megfigyelés, hogy a modell túl bonyolult

Regressziós elemzés erős, de nem akarom, hogy elcsábítsanak, hogy a hatalom használni oktalanul!

Ha a regresszióról tanul, olvassa el a regressziós bemutatómat!

Articles

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük