Akaike information criterion (AIC) er en matematisk metode for å vurdere hvor godt modellen passer til de data det ble generert fra. I statistikken, AIC brukes til å sammenligne forskjellige mulige modeller for og finne ut hvilken som er best egnet for data. AIC er beregnet ut fra:
- antall uavhengige variabler som brukes til å bygge modellen.
- maximum likelihood estimatet av modellen (hvor godt modellen gjengir data).,
best-fit-modellen i henhold til AIC er den som forklarer den største mengden av variasjon ved hjelp av færrest mulig uavhengige variabler.
Når du skal bruke AIC
I statistikk, AIC er oftest brukt for valg av modell. Ved å beregne og sammenlikne AIC score av flere mulige modeller, kan du velge den som er best egnet for data.,
Ved testing av en hypotese, kan du samle inn data på variabler som du ikke er sikker på, spesielt hvis du utforsker en ny idé. Ønsker du å vite hvilke av de uavhengige variablene du har målt forklare variasjonen i avhengig variabel.
En god måte å finne dette ut på er å lage et sett med modeller, som hver inneholder en annen kombinasjon av de uavhengige variablene du har målt., Disse kombinasjonene skal være basert på:
- Dine kunnskaper om studien system – unngå å bruke parametere som ikke er logisk koblet til, siden du kan finne falske korrelasjoner mellom nesten hva som helst!
- eksperimentelle design – for eksempel, hvis du har delt to behandlinger opp blant forsøkspersonene, så det er trolig ingen grunn til å teste en interaksjon mellom to behandlinger.
Når du har opprettet flere mulige modeller, kan du bruke AIC å sammenligne dem. Lavere AIC score er bedre, og AIC straffer modeller som du kan bruke flere parametre., Så hvis to modeller til å forklare den samme mengden av variasjon, den ene med færre parametre vil ha en lavere AIC score og vil være bedre-fit-modellen.
Hvordan for å sammenligne modeller ved hjelp av AIC
AIC bestemmer den relative informasjon verdien av modellen ved hjelp av maximum likelihood estimatet og antall parametre (uavhengige variabler) i modellen. Formelen for AIC er:
K er antall uavhengige variabler som brukes og L er den log-likelihood estimatet (en.k.a. sannsynligheten for at modellen kan ha produsert ditt observert y-verdier)., Standard K er alltid 2, så hvis modellen bruker en uavhengig variabel K vil være 3, hvis den bruker to uavhengige variabler K vil være 4, og så videre.
for Å sammenligne modeller ved hjelp av AIC, du trenger for å beregne AIC av hver modell. Hvis en modell er mer enn 2 AIC-enheter lavere enn en annen, da det regnes som betydelig bedre enn det modellen.
Du kan enkelt beregne AIC ved hånden hvis du har log-likelihood for modellen, men beregning av log-likelihood er komplisert! De fleste statistiske programvaren inkluderer en funksjon for beregning av AIC., Vi vil bruke R til å kjøre våre AIC analyse.
AIC i R
for Å sammenligne flere modeller, kan du først opprette komplett sett av modeller som du ønsker å sammenligne, og deretter kjøre aictab()
på settet.,
For sukkerholdig drikke data, vil vi opprette et sett av modeller som inkluderer tre prediktor variabler (alder, kjønn, og drikke forbruk) i ulike kombinasjoner. Last ned datasettet og kjøre linjer med kode i R å prøve det selv.
Last ned eksempel dataset
Opprett modeller
for det Første, vi kan teste hvordan hver variabel utfører separat.,
Neste, vi ønsker å vite om kombinasjon av alder og kjønn er bedre til å beskrive variasjonen i BMI på egen hånd, uten inkludert drikke forbruk.
Vi ønsker også å vite om kombinasjon av alder, kjønn, og drikke forbruk er bedre til å beskrive variasjonen i BMI enn noen av de tidligere modellene.,
til Slutt, kan vi sjekke om samspillet av alder, kjønn, og drikke forbruk kan forklare BMI bedre enn noen av de tidligere modellene.
Sammenligne modeller
for Å sammenligne disse modellene og finne hvilken som er best egnet for data, kan du sette dem sammen til en liste, og bruk aictab() kommandoen til å sammenligne dem alle på en gang. Å bruke aictab(), først laste bibliotek AICcmodavg.,
Deretter sette modeller i en liste («modeller») og navnet til hver av dem, slik at de AIC bordet er det lettere å lese (‘modell.navn’).
til Slutt, kjør aictab()
for å gjøre sammenligningen.
Tolke resultatene
koden ovenfor vil gi følgende resultat tabell:
best-fit-modellen er alltid nevnt først., Den modellen utvalget tabellen inneholder informasjon om:
- K: antall parametre i modellen. Standard K er 2, slik at en modell med én parameter har en K 2 + 1 = 3.
- AICc: opplysninger resultat av modellen (lower-case ‘c» indikerer at verdien er beregnet ut fra AIC-test, korrigert for forskningsobjekter). Jo mindre AIC-verdi, jo bedre er modellen passer.
- Delta_AICc: forskjellen i AIC-score mellom den beste modellen, og modellen blir sammenlignet. I denne tabellen er den neste beste modellen har en delta-AIC av 6.,69 sammenlignet med toppmodellen, og den tredje-beste modellen har en delta-AIC av 15.96 sammenlignet med top model.
- AICcWt: AICc vekt, som er andelen av den totale mengden av prediktiv kraft levert av komplett sett av modeller som finnes i modellen blir vurdert. I dette tilfellet, top model inneholder 97% av den totale forklaring som kan bli funnet i den fullstendige sett av modeller.
- Cum.Wt: summen av AICc vekter. Her er de to modellene inneholder 100% av den kumulative AICc vekt.
- LL: Log-likelihood., Dette er den verdi som beskriver hvor sannsynlig det er at modellen, gitt data. Den AIC score er beregnet ut fra LL og K.
Fra denne tabellen kan vi se at den beste modellen er kombinasjonen modell – den modellen som inneholder hver parameter, men ingen interaksjoner (bmi ~ alder + kjønn + forbruk).
modellen er mye bedre enn alle de andre, som det bærer 96% av den kumulative modell vekt og har den laveste AIC-score. Den nest beste modellen er mer enn 2 AIC-enheter høyere enn den beste modellen (6.33 enheter) og bærer bare 4% av den kumulative modell vekt.,
Basert på denne sammenligningen, vi ville velge den kombinasjon modell til bruk i våre data analyse.
Rapportering av resultatene
Hvis du bruker AIC valg av modell i forskningen din, kan du angi dette i din metoder delen. Rapporten som ble brukt AIC valg av modell, kort forklare best-fit-modellen du har funnet, og oppgi AIC vekt av modellen.,
Etter å finne den best-fit-modellen kan du gå foran og kjør modell og vurdere resultatene. Resultatet av modellen evaluering kan bli rapportert i resultatene delen av papiret.,
Ofte stilte spørsmål om AIC
Akaike information criterion er en matematisk test som brukes til å vurdere hvor godt modellen passer til de data som det er ment å beskrive. Det straffer modeller som bruker mer uavhengige variabler (parametere) som en måte å unngå over-montering.
AIC er som oftest brukt til å sammenligne den relative godhet-of-fit blant forskjellige modeller under vurdering og deretter velge den modellen som passer best til dataene.
I statistikken, en modell er en samling av en eller flere uavhengige variabler og deres spådd interaksjoner som forskerne bruker til å forsøke å forklare variasjon i deres avhengige variabelen.
Du kan teste en modell ved hjelp av en statistisk test. Å sammenligne hvordan ulike modeller passer dine data, kan du bruke Akaike ‘ s information criterion for valg av modell.
I statistikk, valg av modell er en prosess som forskerne bruker til å sammenligne den relative verdien av ulike statistiske modeller og finne ut hvilken som er best egnet for de observerte data.
Akaike information criterion er en av de mest vanlige metoder for valg av modell. AIC vekter evne til modell for å forutsi den observerte data mot antall parametere i modellen krever nå at nivå av presisjon.
AIC valg av modell kan hjelpe forskerne med å finne en modell som forklarer den observerte variasjon i sine data mens du unngår overfitting.,
Akaike information criterion er beregnet ut fra maksimalt log-likelihood for modellen og antall parametre (K) brukes til å nå det sannsynligheten. Den AIC-funksjonen er 2K – 2(log-likelihood).
Lavere AIC-verdier indikerer en bedre tilpasning av modellen, og en modell med en delta-AIC (forskjellen mellom de to AIC-verdier blir sammenlignet) på mer enn -2 regnes som betydelig bedre enn den modellen det er å være i forhold til.