Akaike Information Criterion | När och Hur man Använder Den

Akaike information criterion (AIC) är en matematisk metod för att utvärdera hur väl en modell som passar de uppgifter som den skapades från. I statistiken används AIC för att jämföra olika möjliga modeller och bestämma vilken som passar bäst för data. AIC beräknas från:

antalet oberoende variabler som används för att bygga modellen.
den maximala sannolikheten uppskattning av modellen (hur väl modellen återger data).,

den bäst anpassade modellen enligt AIC är den som förklarar den största variationen med hjälp av minsta möjliga oberoende variabler.

exempel

du vill veta om att dricka sockersötade drycker påverkar kroppsvikt. Du har samlat in sekundära data från en nationell hälsoundersökning som innehåller observationer om sockersötad dryckesförbrukning, ålder, kön och BMI (body mass index).,

för att ta reda på vilka av dessa variabler som är viktiga för att förutsäga förhållandet mellan sockersötad dryckesförbrukning och kroppsvikt skapar du flera möjliga modeller och jämför dem med AIC.

när man ska använda AIC

i statistiken används AIC oftast för modellval. Genom att beräkna och jämföra AIC-poängen för flera möjliga modeller kan du välja den som passar bäst för data.,

När du testar en hypotes kan du samla in data om variabler som du inte är säker på, särskilt om du utforskar en ny idé. Du vill veta vilka av de oberoende variablerna du har mätt förklara variationen i din beroende variabel.

ett bra sätt att ta reda på är att skapa en uppsättning modeller, som var och en innehåller en annan kombination av de oberoende variabler du har mätt., Dessa kombinationer bör baseras på:

din kunskap om studiesystemet – undvik att använda parametrar som inte är logiskt anslutna, eftersom du kan hitta falska korrelationer mellan nästan vad som helst!
din experimentella design – till exempel om du har delat upp två behandlingar bland försökspersoner, så finns det förmodligen ingen anledning att testa för en interaktion mellan de två behandlingarna.

När du har skapat flera möjliga modeller kan du använda AIC för att jämföra dem. Lägre AIC poäng är bättre, och AIC straffar modeller som använder fler parametrar., Så om två modeller förklarar samma mängd variation, kommer den med färre parametrar att ha en lägre AIC-poäng och blir den bättre passande modellen.

exempel på modellval

i en studie av hur timmar som spenderas på att studera och testa format (multiple choice vs written answers) påverkar testresultat skapar du två modeller:

Sluttestresultat som svar på timmar som spenderas på att studera
Sluttestresultat som svar på timmar som spenderas på att studera + testformat

Du hittar en R2 av 0,45 med ett p-värde mindre än 0,05 för modell 1 och en R2 av 0.,46 Med ett p-värde mindre än 0,05 för modell 2. Modell 2 passar data något bättre – men var det värt att lägga till en annan parameter bara för att få denna lilla ökning av modellpassningen?

Du kör ett AIC-test för att ta reda på, vilket visar att model 1 har den lägre AIC-poängen eftersom det kräver mindre information för att förutsäga med nästan samma precisionsnivå. Ett annat sätt att tänka på detta är att den ökade precisionen i Modell 2 kunde ha hänt av en slump.

från AIC-testet bestämmer du att model 1 är den bästa modellen för din studie.,

hur man jämför modeller med AIC

AIC bestämmer modellens relativa informationsvärde med hjälp av den maximala sannolikhetsuppskattningen och antalet parametrar (oberoende variabler) i modellen. Formeln för AIC är:

K är antalet oberoende variabler som används och L är Log-likelihood-uppskattningen (Alias sannolikheten för att modellen kunde ha producerat dina observerade y-värden)., Standard K är alltid 2, Så om din modell använder en oberoende variabel kommer din K att vara 3, om den använder två oberoende variabler kommer din K att vara 4 och så vidare.

för att jämföra modeller med AIC måste du beräkna AIC för varje modell. Om en modell är mer än 2 AIC-enheter lägre än en annan, anses den vara betydligt bättre än den modellen.

Du kan enkelt beräkna AIC för hand om du har log-sannolikheten för din modell, men beräkning log-sannolikheten är komplicerad! De flesta statistiska program kommer att innehålla en funktion för att beräkna AIC., Vi kommer att använda R för att köra vår AIC-analys.

vad har du för plagiat?

jämför ditt papper med över 60 miljarder webbsidor och 30 miljoner publikationer.,

bästa plagiat checker av 2020
plagiat rapport& procent
största plagiat databas

Scribbr plagiat Checker

AIC i r

för att jämföra flera modeller kan du först skapa den fullständiga uppsättningen modeller du vill jämföra och sedan köraaictab() på uppsättningen.,

för de sockerhaltiga dryckesdata skapar vi en uppsättning modeller som inkluderar de tre prediktorvariablerna (ålder, kön och dryckesförbrukning) i olika kombinationer. Ladda ner datauppsättningen och kör kodraderna i R för att prova det själv.

ladda ner provdatauppsättningen

skapa modellerna

först kan vi testa hur varje variabel presterar separat.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

därefter vill vi veta om kombinationen av ålder och kön är bättre på att beskriva variation i BMI på egen hand, utan att inkludera dryckesförbrukning.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

vi vill också veta om kombinationen av ålder, kön och dryckesförbrukning är bättre på att beskriva variationen i BMI än någon av de tidigare modellerna.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

slutligen kan vi kontrollera om interaktionen mellan ålder, kön och dryckesförbrukning kan förklara BMI bättre än någon av de tidigare modellerna.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

jämför modellerna

för att jämföra dessa modeller och hitta vilken som passar bäst för data, kan du sätta ihop dem i en lista och använda kommandot aictab() för att jämföra dem alla på en gång. För att använda aictab(), ladda först biblioteket AICcmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

lägg sedan modellerna i en lista (’modeller’) och namnge var och en av dem så att AIC-tabellen är lättare att läsa (’modell.namn’).

kör slutligenaictab() för att göra jämförelsen.

aictab(cand.set = models, modnames = model.names)

tolka resultaten

koden ovan kommer att producera följande utdatatabell:

modellen med bästa passform listas alltid först., Tabellen för modellval innehåller information om:

K: antalet parametrar i modellen. Standard K är 2, Så en modell med en parameter kommer att ha en K på 2 + 1 = 3.
AICc: modellens informationspoäng (det lägre fallet ” c ” indikerar att värdet har beräknats från AIC-testet korrigerat för små provstorlekar). Ju mindre AIC-värdet desto bättre passar modellen.
Delta_AICc: skillnaden i AIC-poäng mellan den bästa modellen och modellen som jämförs. I den här tabellen har den näst bästa modellen en delta-AIC på 6.,69 jämfört med toppmodellen, och den tredje bästa modellen har en delta-AIC på 15,96 jämfört med toppmodellen.
AICcWt: AICc vikt, vilket är andelen av den totala mängden prediktiv effekt som tillhandahålls av den fullständiga uppsättningen modeller som ingår i modellen som bedöms. I det här fallet innehåller toppmodellen 97% av den totala förklaringen som finns i hela uppsättningen modeller.
Cum.Wt: summan av AICc vikter. Här innehåller de två bästa modellerna 100% av den kumulativa AICc-vikten.
LL: Log-Sannolikhet., Detta är värdet som beskriver hur sannolikt modellen är, med tanke på data. AIC-poängen beräknas från LL och K.

från den här tabellen kan vi se att den bästa modellen är kombinationsmodellen – modellen som innehåller varje parameter men inga interaktioner (BMI ~ ålder + kön + konsumtion).

modellen är mycket bättre än alla andra, eftersom den bär 96% av den kumulativa modellvikten och har den lägsta AIC-poängen. Den näst bästa modellen är mer än 2 AIC-enheter högre än den bästa modellen (6,33 enheter) och bär endast 4% av den kumulativa modellvikten.,

baserat på denna jämförelse skulle vi välja den kombinationsmodell som ska användas i vår dataanalys.

rapportera resultaten

om du använder AIC-modellval i din forskning kan du ange detta i avsnittet metoder. Rapportera att du använde AIC-modellval, förklara kortfattat den bäst anpassade modellen du hittade och ange modellens AIC-vikt.,

Exempelmetoder

vi använde AIC modellval för att skilja mellan en uppsättning möjliga modeller som beskriver förhållandet mellan ålder, kön, sötad dryckesförbrukning och kroppsmassindex. Den bäst anpassade modellen, som bär 97% av den kumulativa modellens vikt, inkluderade varje parameter utan interaktionseffekter.

Efter att ha hittat den bäst anpassade modellen kan du gå vidare och köra modellen och utvärdera resultaten. Resultatet av din modellutvärdering kan rapporteras i resultatavsnittet i ditt papper.,

vanliga frågor om AIC

Vad är Akaike informationskriterium?

Akaike informationskriteriet är ett matematiskt test som används för att utvärdera hur väl en modell passar de data den är tänkt att beskriva. Det straffar modeller som använder mer oberoende variabler (parametrar) som ett sätt att undvika övermontering.

AIC används oftast för att jämföra den relativa godheten mellan olika modeller som behandlas och sedan välja den modell som bäst passar data.

Vad är en modell?,

i statistiken är en modell en samling av en eller flera oberoende variabler och deras förväntade interaktioner som forskare använder för att försöka förklara variation i deras beroende variabel.

Du kan testa en modell med hjälp av ett statistiskt test. För att jämföra hur väl olika modeller passar dina data kan du använda Akaikes informationskriterium för modellval.

vad menas med modellval?,

i statistiken är modellval en processforskare använder för att jämföra det relativa värdet av olika statistiska modeller och bestämma vilken som passar bäst för de observerade uppgifterna.

Akaike informationskriteriet är en av de vanligaste metoderna för modellval. AIC vikter förmågan hos modellen att förutsäga de observerade data mot antalet parametrar som modellen kräver för att nå den nivån av precision.

AIC-modellval kan hjälpa forskare att hitta en modell som förklarar den observerade variationen i deras data samtidigt som man undviker överfittning.,

hur beräknas AIC?

Informationskriteriet Akaike beräknas utifrån den maximala log-sannolikheten för modellen och antalet parametrar (K) som används för att nå denna sannolikhet. AIC-funktionen är 2K-2 (log-Sannolikhet).

lägre AIC-värden indikerar en bättre passform, och en modell med en delta-AIC (skillnaden mellan de två AIC-värdena som jämförs) på mer än -2 anses vara betydligt bättre än den modell som den jämförs med.

En introduktion till Akaike information criterion