Multiple Regression kann eine betörende, versuchsreiche Analyse sein. Es ist so einfach, weitere Variablen hinzuzufügen, wenn Sie an sie denken, oder nur weil die Daten praktisch sind. Einige der Prädiktoren werden signifikant sein. Vielleicht gibt es eine Beziehung, oder ist es nur zufällig? Sie können Polynome höherer Ordnung hinzufügen, um diese angepasste Linie nach Belieben zu biegen und zu verdrehen, aber passen Sie echte Muster an oder verbinden Sie nur die Punkte?, Die ganze Zeit steigt der Wert des R-Quadrats (R2), neckt Sie und fordert Sie auf, weitere Variablen hinzuzufügen!

Zuvor habe ich gezeigt, wie R-squared irreführend sein kann, wenn Sie die Eignung für die lineare Regressionsanalyse beurteilen. In diesem Beitrag werden wir uns ansehen, warum Sie dem Drang widerstehen sollten, einem Regressionsmodell zu viele Prädiktoren hinzuzufügen, und wie das angepasste R-Quadrat und das vorhergesagte R-Quadrat helfen können!,

Einige Probleme mit R-squared

In meinem letzten Beitrag habe ich gezeigt, wie R-squared nicht bestimmen kann, ob die Koeffizientenschätzungen und-vorhersagen voreingenommen sind. R-Squared hat jedoch zusätzliche Probleme, die das angepasste R-Quadrat und das vorhergesagte R-Quadrat angehen sollen.

Problem 1: Jedes Mal, wenn Sie einem Modell einen Prädiktor hinzufügen, erhöht sich das R-Quadrat, auch wenn dies allein auf den Zufall zurückzuführen ist. Es nimmt nie ab. Folglich scheint ein Modell mit mehr Begriffen besser zu passen, nur weil es mehr Begriffe hat.,

Problem 2: Wenn ein Modell zu viele Prädiktoren und Polynome höherer Ordnung hat, beginnt es, das zufällige Rauschen in den Daten zu modellieren. Diese Bedingung wird als Überanpassung des Modells bezeichnet und erzeugt irreführend hohe R-Quadrat-Werte und eine verminderte Fähigkeit, Vorhersagen zu treffen.

Was ist das angepasste R-Quadrat?

Das angepasste R-Quadrat vergleicht die Erklärungskraft von Regressionsmodellen, die eine unterschiedliche Anzahl von Prädiktoren enthalten.

Angenommen, Sie vergleichen ein Fünf-Prädiktor-Modell mit einem höheren R-Quadrat mit einem Ein-Prädiktor-Modell., Hat das Fünf-Prädiktor-Modell ein höheres R-Quadrat, weil es besser ist? Oder ist das R-Quadrat höher, weil es mehr Prädiktoren hat? Vergleichen Sie einfach die angepassten R-Quadrat-Werte, um es herauszufinden!

Das angepasste R-Quadrat ist eine modifizierte Version von R-Quadrat, die für die Anzahl der Prädiktoren im Modell angepasst wurde. Das angepasste R-Quadrat erhöht sich nur, wenn der neue Begriff das Modell stärker verbessert, als es zufällig erwartet würde. Es nimmt ab, wenn ein Prädiktor das Modell durch weniger als zufällig erwartet verbessert. Das angepasste R-Quadrat kann negativ sein, ist es aber normalerweise nicht., Es ist immer niedriger als das R-Quadrat.

In der vereinfachten Regressionsausgabe der besten Teilmengen unten können Sie sehen, wo sich das angepasste R-Quadrat befindet und dann abnimmt. Inzwischen nimmt der R-Quadrat weiter zu.

Möglicherweise möchten Sie nur drei Prädiktoren in dieses Modell aufnehmen. In meinem letzten Blog haben wir gesehen, wie ein unterspezifiziertes Modell (eines, das zu einfach war) voreingenommene Schätzungen erzeugen kann. Ein überspezifisches Modell (eines, das zu komplex ist) verringert jedoch eher die Genauigkeit von Koeffizientenschätzungen und prognostizierten Werten., Folglich möchten Sie nicht mehr Begriffe in das Modell aufnehmen als nötig. (Lesen Sie ein Beispiel für die Verwendung der besten Teilmengen-Regression von Minitab.)

Schließlich ist eine andere Verwendung für das bereinigte R-Quadrat, dass es eine unvoreingenommene Schätzung der Bevölkerung R-Quadrat liefert.

Was ist das vorhergesagte R-Quadrat?

Das vorhergesagte R-Quadrat gibt an, wie gut ein Regressionsmodell Antworten für neue Beobachtungen vorhersagt. Diese Statistik hilft Ihnen festzustellen, wann das Modell zu den Originaldaten passt, ist jedoch weniger in der Lage, gültige Vorhersagen für neue Beobachtungen bereitzustellen., (Lesen Sie ein Beispiel für die Verwendung von Regression, um Vorhersagen zu treffen.)

Minitab berechnet das vorhergesagte R-Quadrat, indem jede Beobachtung systematisch aus dem Datensatz entfernt, die Regressionsgleichung geschätzt und bestimmt wird, wie gut das Modell die entfernte Beobachtung vorhersagt. Wie das angepasste R-Quadrat kann das vorhergesagte R-Quadrat negativ sein und ist immer niedriger als das R-Quadrat.

Auch wenn Sie das Modell nicht für Vorhersagen verwenden möchten, liefert das vorhergesagte R-Quadrat immer noch wichtige Informationen.

Ein wesentlicher Vorteil von R-squared ist, dass es verhindern kann, dass Sie ein Modell überarbeiten., Wie bereits erwähnt, enthält ein Overfit-Modell zu viele Prädiktoren und beginnt, das zufällige Rauschen zu modellieren.

Da es unmöglich ist, zufälliges Rauschen vorherzusagen, muss das vorhergesagte R-Quadrat für ein Überanpassungsmodell fallen. Wenn Sie ein vorhergesagtes R-Quadrat sehen, das viel niedriger ist als das reguläre R-Quadrat, haben Sie mit ziemlicher Sicherheit zu viele Begriffe im Modell.

Beispiele für Überfit-Modelle und prognostizierte R-Quadrat

Sie können diese Beispiele selbst ausprobieren, indem Sie diese Minitab-Projektdatei verwenden, die zwei Arbeitsblätter enthält., Wenn Sie mitspielen möchten und es noch nicht haben, laden Sie bitte die kostenlose 30-Tage-Testversion der statistischen Minitab-Software herunter!

Es gibt eine einfache Möglichkeit, ein Overfit-Modell in Aktion zu sehen. Wenn Sie ein lineares Regressionsmodell analysieren, das für jeden Freiheitsgrad einen Prädiktor hat, erhalten Sie immer ein R-Quadrat von 100%!

Im Zufallsdatenarbeitsblatt habe ich 10 Zufallszeilen für eine Antwortvariable und neun Prädiktoren erstellt. Da es neun Prädiktoren und neun Freiheitsgrade gibt, erhalten wir ein R-Quadrat von 100%.,

Es scheint, dass das Modell alle Variationen berücksichtigt. Wir wissen jedoch, dass die zufälligen Prädiktoren keine Beziehung zur zufälligen Antwort haben! Wir passen nur die zufällige Variabilität an.

Das ist ein Extremfall, aber schauen wir uns einige echte Daten im Ranking-Arbeitsblatt des Präsidenten an.

Diese Daten stammen aus meinem Beitrag über große Präsidenten. Ich fand keinen Zusammenhang zwischen der höchsten Zustimmungsrate jedes Präsidenten und der Rangliste des Historikers. Tatsächlich habe ich dieses angepasste Liniendiagramm (unten) als Beispiel für keine Beziehung beschrieben, eine flache Linie mit einem R-Quadrat von 0, 7%!,

Nehmen wir an, wir wussten es nicht besser und haben das Modell überholt, indem wir die höchste Zulassungsbewertung als kubisches Polynom aufgenommen haben.

Wow, sowohl das R-Quadrat als auch das R-Quadrat sehen ziemlich gut aus! Außerdem sind die Koeffizientenschätzungen alle signifikant, da ihre p-Werte kleiner als 0,05 sind. Die restlichen Plots (nicht gezeigt) sehen auch gut aus. Großartig!

Nicht so schnell…alles, was wir tun, ist, die angepasste Linie übermäßig zu biegen, um die Punkte künstlich zu verbinden, anstatt eine wahre Beziehung zwischen den Variablen zu finden.,

Unser Modell ist zu kompliziert und das vorhergesagte R-Quadrat verschenkt dies. Wir haben tatsächlich einen negativen vorhergesagten R-Quadrat-Wert. Das mag nicht intuitiv erscheinen, aber wenn 0% schrecklich ist, ist ein negativer Prozentsatz noch schlimmer!

Das vorhergesagte R-Quadrat muss nicht negativ sein, um ein Überanpassungsmodell anzuzeigen. Wenn Sie sehen, dass das vorhergesagte R-Quadrat zu fallen beginnt, wenn Sie Prädiktoren hinzufügen, selbst wenn sie signifikant sind, sollten Sie sich Sorgen machen, dass das Modell übermäßig angepasst wird.,

Schlussgedanken zu Angepasstem R-Quadrat und vorhergesagtem R-Quadrat

Alle Daten enthalten eine natürliche Variabilität, die nicht erklärbar ist. Leider respektiert R-Squared diese natürliche Decke nicht. Die Verfolgung eines hohen R-Quadrat-Wertes kann dazu führen, dass wir zu viele Prädiktoren einbeziehen, um das Unerklärliche zu erklären.

In diesen Fällen können Sie einen höheren R-Quadrat-Wert erzielen, jedoch auf Kosten irreführender Ergebnisse, reduzierter Präzision und verminderter Vorhersagefähigkeit.,

Sowohl das angepasste R-Quadrat als auch das vorhergesagte R-Quadrat liefern Informationen, mit denen Sie die Anzahl der Prädiktoren in Ihrem Modell beurteilen können:

  • Verwenden Sie das angepasste R-Quadrat, um Modelle mit unterschiedlichen Prädiktoren zu vergleichen
  • Verwenden Sie das vorhergesagte R-Quadrat, um festzustellen, wie gut das Modell neue Beobachtungen vorhersagt und ob das Modell zu kompliziert ist

Die Regressionsanalyse ist leistungsstark, aber Sie möchten sich nicht von dieser Leistung verführen lassen und es unklug verwenden!

Wenn Sie etwas über Regression lernen, lesen Sie mein Regressions-Tutorial!

Articles

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.