Kryterium informacyjne Akaike / kiedy i jak z niego korzystać

kryterium informacyjne Akaike (AIC) jest matematyczną metodą oceny, jak dobrze model pasuje do danych, z których został wygenerowany. W statystyce AIC służy do porównywania różnych możliwych modeli i określania, który z nich najlepiej pasuje do danych. AIC jest obliczany na podstawie:

liczby niezależnych zmiennych użytych do zbudowania modelu.
maksymalne oszacowanie prawdopodobieństwa modelu (jak dobrze model odtwarza dane).,

najlepiej dopasowany model według AIC to model, który wyjaśnia największą zmienność przy użyciu najmniejszej możliwej zmiennej niezależnej.

przykład

chcesz wiedzieć, czy picie napojów słodzonych cukrem wpływa na masę ciała. Zebrałeś wtórne dane z Narodowego badania zdrowia, które zawiera obserwacje dotyczące spożycia napojów słodzonych cukrem, wieku, płci i BMI (wskaźnik masy ciała).,

aby dowiedzieć się, które z tych zmiennych są ważne dla przewidywania związku między spożyciem napojów słodzonych cukrem a masą ciała, tworzysz kilka możliwych modeli i porównujesz je za pomocą AIC.

kiedy używać AIC

w statystykach, AIC jest najczęściej używany do wyboru modelu. Obliczając i porównując wyniki AIC kilku możliwych modeli, możesz wybrać ten, który najlepiej pasuje do danych.,

testując hipotezę, możesz zebrać dane na temat zmiennych, których nie jesteś pewien, zwłaszcza jeśli badasz nowy pomysł. Chcesz wiedzieć, które z zmiennych niezależnych, które mierzyłeś, wyjaśniają zmienność Twojej zmiennej zależnej.

dobrym sposobem, aby się dowiedzieć, jest utworzenie zestawu modeli, z których każdy zawiera inną kombinację niezależnych zmiennych, które mierzyłeś., Te kombinacje powinny opierać się na:

Twojej wiedzy o systemie badawczym – unikaj używania parametrów, które nie są logicznie powiązane, ponieważ możesz znaleźć fałszywe korelacje między prawie wszystkim!
Twój eksperymentalny projekt – na przykład, jeśli podzieliłeś dwa zabiegi między testerami, prawdopodobnie nie ma powodu, aby testować interakcję między tymi dwoma zabiegami.

Po utworzeniu kilku możliwych modeli możesz użyć AIC do ich porównania. Niższe wyniki AIC są lepsze, a AIC penalizuje modele, które wykorzystują więcej parametrów., Jeśli więc dwa modele wyjaśniają tę samą ilość zmian, ten z mniejszymi parametrami będzie miał niższy wynik AIC i będzie lepiej dopasowanym modelem.

przykład wyboru modelu

w badaniu, w jaki sposób godziny spędzone na nauce i format testu (wielokrotnego wyboru w porównaniu z pisemnymi odpowiedziami) wpływają na wyniki testu, tworzysz dwa modele:

końcowy wynik testu w odpowiedzi na godziny spędzone na nauce
końcowy wynik testu w odpowiedzi na godziny spędzone na nauce + format testu

znajdujesz r2 z 0,45 z wartością P mniejszą niż 0,05 dla modelu 1 i R2 równą 0.,46 o wartości p mniejszej niż 0,05 dla modelu 2. Model 2 pasuje do danych nieco lepiej – ale czy warto było dodać kolejny parametr tylko po to, aby uzyskać ten niewielki wzrost dopasowania modelu?

przeprowadzasz test AIC, który pokazuje, że model 1 ma niższy wynik AIC, ponieważ wymaga mniej informacji do przewidywania z niemal identyczną dokładnością. Innym sposobem na myślenie o tym jest to, że zwiększona precyzja w modelu 2 mogła się zdarzyć przez przypadek.

z testu AIC decydujesz, że model 1 jest najlepszym modelem do nauki.,

jak porównywać modele za pomocą AIC

AIC określa względną wartość informacyjną modelu przy użyciu oszacowania maksymalnego prawdopodobieństwa i liczby parametrów (zmiennych niezależnych) w modelu. Wzór dla AIC to:

K to liczba zmiennych niezależnych użytych, A L to oszacowanie prawdopodobieństwa logowania (a. k. a. prawdopodobieństwo, że model mógł wytworzyć zaobserwowane wartości y)., Domyślnym K jest zawsze 2, więc jeśli model używa jednej zmiennej niezależnej, to K będzie 3, jeśli używa dwóch zmiennych niezależnych, to K będzie 4, i tak dalej.

aby porównać modele za pomocą AIC, musisz obliczyć AIC każdego modelu. Jeśli model jest o więcej niż 2 jednostki AIC niższy od innego, to jest uważany za znacznie lepszy od tego modelu.

możesz łatwo obliczyć AIC ręcznie, jeśli masz prawdopodobieństwo logowania swojego modelu, ale obliczanie prawdopodobieństwa logowania jest skomplikowane! Większość programów statystycznych będzie zawierać funkcję do obliczania AIC., Użyjemy R do przeprowadzenia analizy AIC.

jaki jest Twój wynik plagiatu?

porównaj swoją pracę z ponad 60 miliardami stron internetowych i 30 milionami publikacji.,

najlepszy program sprawdzający plagiat w 2020 roku
raport o plagiacie & procent
największa baza danych plagiatów

Scribbr program sprawdzający plagiat

AIC w r

aby porównać kilka modeli, możesz najpierw utworzyć pełny zestaw modeli, które chcesz porównać, a następnie uruchomić aictab() na zestawie.,

dla danych napojów słodzonych cukrem stworzymy zestaw modeli, które zawierają trzy zmienne predykcyjne (wiek, płeć i spożycie napojów) w różnych kombinacjach. Pobierz zestaw danych i uruchom wiersze kodu w R, aby wypróbować go samodzielnie.

Pobierz przykładowy zestaw danych

Utwórz modele

najpierw możemy sprawdzić, jak każda zmienna działa osobno.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

następnie chcemy wiedzieć, czy połączenie wieku i płci jest lepsze w opisywaniu zmian BMI na własną rękę, bez uwzględniania spożycia napojów.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

chcemy również wiedzieć, czy kombinacja wieku, płci i spożycia napojów jest lepsza w opisywaniu zmian BMI niż którykolwiek z poprzednich modeli.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

wreszcie możemy sprawdzić, czy interakcja wieku, płci i konsumpcji napojów może wyjaśnić BMI lepiej niż którykolwiek z poprzednich modeli.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

Porównaj modele

aby porównać te modele i znaleźć, który z nich najlepiej pasuje do danych, możesz umieścić je razem na liście i użyć polecenia aictab (), aby porównać je wszystkie natychmiast. Aby użyć aictab (), najpierw załaduj bibliotekę aiccmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

następnie umieść modele na liście (’models') i nazwij każdy z nich, aby tabela AIC była łatwiejsza do odczytania (’model.nazwy”).

na koniec uruchom aictab(), aby wykonać porównanie.

aictab(cand.set = models, modnames = model.names)

interpretacja wyników

powyższy kod utworzy następującą tabelę wyjściową:

najlepiej dopasowany model jest zawsze wymieniony na pierwszym miejscu., Tabela wyboru modelu zawiera informacje o:

K: liczba parametrów w modelu. Domyślnym K jest 2, więc model z jednym parametrem będzie miał K 2 + 1 = 3.
AICc: wynik informacyjny modelu( małe litery „c” oznaczają, że wartość została obliczona na podstawie testu AIC skorygowanego dla małych rozmiarów próbek). Im mniejsza wartość AIC, tym lepiej pasuje model.
Delta_AICc: różnica w wyniku AIC między najlepszym modelem a porównywanym modelem. W tej tabeli, następny-najlepszy model ma delta-AIC 6.,69 w porównaniu z topowym modelem, a trzeci najlepszy model ma delta-AIC 15,96 w porównaniu z topowym modelem.
aiccwt: waga AICc, która jest proporcją całkowitej ilości mocy prognostycznej zapewnianej przez pełny zestaw modeli zawartych w ocenianym modelu. W tym przypadku top model zawiera 97% całkowitego wyjaśnienia, które można znaleźć w pełnym zestawie modeli.
Cum.Wt: suma wag AICc. Tutaj dwa najlepsze modele zawierają 100% łącznej wagi AICc.
LL: log-prawdopodobieństwo., Jest to wartość opisująca prawdopodobieństwo modelu, biorąc pod uwagę dane. Wynik AIC jest obliczany na podstawie LL I K.

z tej tabeli widać, że najlepszym modelem jest model kombinowany-model, który zawiera każdy parametr, ale bez interakcji (BMI ~ wiek + płeć + konsumpcja).

model jest znacznie lepszy niż wszystkie inne, ponieważ nosi 96% łącznej masy modelu i ma najniższy wynik AIC. Następny model jest o ponad 2 jednostki AIC wyższy niż najlepszy model (6,33 jednostki) i nosi tylko 4% łącznej masy modelu.,

na podstawie tego porównania wybralibyśmy model kombinowany do wykorzystania w naszej analizie danych.

raportowanie wyników

Jeśli korzystasz z wyboru modelu AIC w swoich badaniach, możesz to podać w sekcji metody. Zgłoś, że użyłeś wyboru modelu AIC, krótko wyjaśnij najlepiej dopasowany model, który znalazłeś, i podaj wagę modelu AIC.,

przykładowe metody

użyliśmy wyboru modelu AIC, aby rozróżnić zestaw możliwych modeli opisujących związek między wiekiem, płcią, spożyciem słodzonego napoju i wskaźnikiem masy ciała. Najlepiej dopasowany model, przenoszący 97% łącznej masy modelu, zawierał każdy parametr bez efektów interakcji.

Po znalezieniu najlepiej pasującego modelu możesz uruchomić model i ocenić wyniki. Wyniki oceny modelu można przedstawić w sekcji wyniki pracy.,

Najczęściej zadawane pytania dotyczące AIC

Jakie jest kryterium informacyjne Akaike?

kryterium informacyjne Akaike jest matematycznym testem służącym do oceny, jak dobrze model pasuje do danych, które ma opisać. Penalizuje modele, które wykorzystują więcej niezależnych zmiennych (parametrów) jako sposób na uniknięcie nadmiernego dopasowania.

AIC jest najczęściej używany do porównywania względnej dobroci dopasowania między różnymi analizowanymi modelami, a następnie do wyboru modelu, który najlepiej pasuje do danych.

Co to jest model?,

w statystyce, model jest zbiorem jednej lub więcej zmiennych niezależnych i ich przewidywanych interakcji, które naukowcy używają, aby spróbować wyjaśnić zmiany w ich zmiennej zależnej.

możesz przetestować model za pomocą testu statystycznego. Aby porównać, jak dobrze różne modele pasują do Twoich danych, możesz użyć kryterium informacyjnego Akaike do wyboru modelu.

co oznacza wybór modelu?,

w statystyce wybór modelu jest procesem wykorzystywanym przez badaczy do porównania względnej wartości różnych modeli statystycznych i określenia, który z nich jest najlepiej dopasowany do obserwowanych danych.

kryterium informacyjne Akaike jest jedną z najczęstszych metod wyboru modelu. AIC mierzy zdolność modelu do przewidywania obserwowanych danych względem liczby parametrów, których model wymaga, aby osiągnąć ten poziom precyzji.

wybór modelu AIC może pomóc badaczom znaleźć model, który wyjaśnia obserwowaną zmienność w ich danych, unikając nadmiernego dopasowania.,

jak oblicza się AIC?

kryterium informacyjne Akaike oblicza się na podstawie maksymalnego prawdopodobieństwa logowania modelu i liczby parametrów (K) użytych do osiągnięcia tego prawdopodobieństwa. Funkcja AIC to 2K-2 (log-prawdopodobieństwo).

niższe wartości AIC wskazują lepiej dopasowany model, a model z delta-AIC (różnica między dwoma wartościami AIC są porównywane) większa niż -2 jest uważany za znacznie lepszy niż model, z którym jest porównywany.

wprowadzenie do kryterium informacyjnego Akaike