regresja wielokrotna może być urzekającą, wypełnioną pokusami analizą. Tak łatwo jest dodać więcej zmiennych, gdy o nich myślisz, lub po prostu dlatego, że dane są przydatne. Niektóre z predyktorów będą znaczące. Być może istnieje związek, czy jest to po prostu przypadek? Możesz dodać wielomiany wyższego rzędu, aby wyginać i skręcać dopasowaną linię, jak chcesz, ale czy pasujesz do prawdziwych wzorów, czy tylko łączysz kropki?, Przez cały czas wartość R-kwadrat (R2) wzrasta, drażni cię i prowokuje, aby dodać więcej zmiennych!

wcześniej pokazałem, jak R-kwadrat może być mylący, gdy oceniasz dobroć dopasowania do analizy regresji liniowej. W tym poście przyjrzymy się, dlaczego powinieneś oprzeć się pokusie dodawania zbyt wielu predyktorów do modelu regresji i w jaki sposób skorygowany R-kwadrat i przewidywany R-kwadrat mogą pomóc!,

niektóre problemy z R-kwadrat

w moim ostatnim poście, pokazałem, jak R-kwadrat nie może określić, czy szacunki współczynnika i przewidywania są stronnicze, dlatego należy ocenić działki resztkowe. Jednak R-kwadrat ma dodatkowe problemy, które skorygowane R-kwadrat i przewidywane R-kwadrat są przeznaczone do rozwiązania.

Problem 1: za każdym razem, gdy dodajesz predyktor do modelu, R-kwadrat zwiększa się, nawet jeśli tylko przypadek. Nigdy nie maleje. W związku z tym model z większą liczbą terminów może wydawać się lepiej dopasowany po prostu dlatego, że ma więcej terminów.,

Problem 2: jeśli model ma zbyt wiele predyktorów i wielomianów wyższego rzędu, zaczyna modelować losowy szum w danych. Warunek ten znany jest jako nadmiarowość modelu i daje mylnie wysokie wartości R-kwadrat i zmniejszoną zdolność do przewidywania.

Co To jest R-kwadrat?

skorygowany R-kwadrat porównuje moc wyjaśniającą modeli regresji, które zawierają różne liczby predyktorów.

Załóżmy, że porównamy model pięcio-predykcyjny z wyższym R-kwadratem do modelu jednoprzyciskowego., Czy model five predictor ma wyższy R-kwadrat, ponieważ jest lepszy? A może R-kwadrat jest wyższy, ponieważ ma więcej predyktorów? Po prostu porównaj skorygowane wartości R-kwadrat, aby się dowiedzieć!

adjusted R-squared jest zmodyfikowaną wersją R-squared, która została dostosowana do liczby predyktorów w modelu. Skorygowany R-kwadrat zwiększa się tylko wtedy, gdy nowy termin poprawia model bardziej niż można by się spodziewać przez przypadek. Zmniejsza się, gdy predyktor poprawia model o mniej niż oczekiwano Przez przypadek. Skorygowany R-kwadrat może być ujemny, ale zwykle tak nie jest., Jest zawsze niższa niż R-kwadrat.

w poniższym uproszczonym wyjściu regresji najlepszych podzbiorów możesz zobaczyć, gdzie skorygowane R-kwadrat szczyty, a następnie spadki. Tymczasem R-kwadrat nadal rośnie.

możesz chcieć włączyć tylko trzy predyktory w tym modelu. Na moim ostatnim blogu widzieliśmy, jak niedostatecznie określony model (taki, który był zbyt prosty) może generować stronnicze szacunki. Jednak nadmiernie sprecyzowany model (taki, który jest zbyt skomplikowany) jest bardziej prawdopodobny, aby zmniejszyć dokładność szacunków współczynnika i przewidywanych wartości., W związku z tym nie chcesz zawierać więcej terminów w modelu niż jest to konieczne. (Przeczytaj przykład użycia regresji najlepszych podzbiorów Minitab.)

wreszcie, innym zastosowaniem dla skorygowanego R-do kwadratu jest to, że zapewnia bezstronne oszacowanie populacji R-do kwadratu.

jaki jest przewidywany R-kwadrat?

przewidywany R-kwadrat wskazuje, jak dobrze model regresji przewiduje odpowiedzi na nowe obserwacje. Ta statystyka pomaga określić, kiedy model pasuje do oryginalnych danych, ale jest mniej zdolny do zapewnienia poprawnych prognoz dla nowych obserwacji., (Przeczytaj przykład użycia regresji do przewidywania.)

Minitab oblicza przewidywane R-kwadrat, systematycznie usuwając każdą obserwację ze zbioru danych, estymując równanie regresji i określając, jak dobrze model przewiduje usuniętą obserwację. Podobnie jak skorygowany R-kwadrat, przewidywany R-kwadrat może być ujemny i zawsze jest niższy niż R-kwadrat.

nawet jeśli nie planujesz użyć modelu do przewidywania, przewidywany R-kwadrat nadal dostarcza kluczowych informacji.

kluczową zaletą R-squared jest to, że może zapobiec przerobieniu modelu., Jak wspomniano wcześniej, model overfit zawiera zbyt wiele predyktorów i zaczyna modelować przypadkowy szum.

ponieważ nie można przewidzieć losowego szumu, przewidywany R-kwadrat musi spaść dla modelu overfit. Jeśli widzisz przewidywany R-kwadrat, który jest znacznie niższy niż zwykły R-kwadrat, prawie na pewno masz zbyt wiele terminów w modelu.

przykłady modeli Overfit i przewidywanych R-squared

możesz wypróbować te przykłady samodzielnie, korzystając z tego pliku projektu Minitab, który zawiera dwa arkusze robocze., Jeśli chcesz grać, a jeszcze go nie masz, pobierz bezpłatny 30-dniowy okres próbny oprogramowania statystycznego Minitab!

jest łatwy sposób na zobaczenie modelu overfit w akcji. Jeśli przeanalizujesz model regresji liniowej, który ma jeden predyktor dla każdego stopnia swobody, zawsze otrzymasz R-kwadrat 100%!

w arkuszu danych losowych utworzyłem 10 wierszy losowych danych dla zmiennej odpowiedzi i dziewięciu predykatorów. Ponieważ istnieje dziewięć predyktorów i dziewięć stopni swobody, otrzymujemy R-kwadrat 100%.,

wydaje się, że model odpowiada za całą odmianę. Wiemy jednak, że losowe predyktory nie mają żadnego związku z losową odpowiedzią! Dopasowujemy tylko losową zmienność.

to skrajny przypadek, ale spójrzmy na prawdziwe dane w rankingu prezydenta.

te dane pochodzą z mojego postu o wielkich prezydentach. Nie znalazłem związku między najwyższą aprobatą każdego prezydenta a rankingiem historyka. W rzeczywistości opisałem ten wykres linii dopasowanej (poniżej) jako przykład braku związku, linia płaska z R-kwadratem 0,7%!,

powiedzmy, że nie znaliśmy lepiej i przesadziliśmy z modelem, włączając najwyższą ocenę jako wielomian sześcienny.

Wow, zarówno R-kwadrat jak i R-kwadrat wyglądają całkiem nieźle! Również szacunki współczynnika są znaczące, ponieważ ich wartości p są mniejsze niż 0,05. Pozostałości działki (nie pokazano) wyglądają dobrze też. Świetnie!

nie tak szybko…wszystko, co robimy, to nadmierne wyginanie dopasowanej linii, aby sztucznie połączyć kropki, zamiast znajdowania prawdziwej relacji między zmiennymi.,

Nasz model jest zbyt skomplikowany i przewidywany R-squared to zdradza. W rzeczywistości mamy ujemną przewidywaną wartość R-kwadrat. To może nie wydawać się intuicyjne, ale jeśli 0% jest straszne, negatywny procent jest jeszcze gorszy!

przewidywany R-kwadrat nie musi być ujemny, aby wskazać model overfit. Jeśli przewidywane wartości R do kwadratu zaczynają spadać po dodaniu predykatorów, nawet jeśli są one znaczące, powinieneś zacząć martwić się o zbyt duże dopasowanie modelu.,

myśli końcowe o skorygowanym r-kwadracie i przewidywanym r-kwadracie

wszystkie dane zawierają naturalną ilość zmienności, która jest niewytłumaczalna. Niestety, R-squared nie respektuje tego naturalnego sufitu. Dążenie do wysokiej wartości R do kwadratu może skłonić nas do włączenia zbyt wielu predyktorów w celu wyjaśnienia niewytłumaczalnego.

w takich przypadkach można osiągnąć wyższą wartość R-kwadrat, ale kosztem wprowadzających w błąd wyników, zmniejszonej precyzji i zmniejszonej zdolności do przewidywania.,

zarówno skorygowany R-kwadrat, jak i przewidywany R-kwadrat dostarczają informacji, które pomagają ocenić liczbę predyktorów w modelu:

  • użyj skorygowanego r-kwadratu do porównywania modeli z różnymi liczbami predyktorów
  • użyj przewidywanego r-kwadratu, aby określić, jak dobrze model przewiduje nowe obserwacje i czy model jest zbyt skomplikowany

Analiza regresji jest potężna, ale nie chcesz dać się uwieść tej mocy i używać jej niemądrze!

Jeśli uczysz się o regresji, przeczytaj mój samouczek regresji!

Articles

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *