Het Akaike information criterion (AIC) is een wiskundige methode om te evalueren hoe goed een model past bij de gegevens waaruit het is gegenereerd. In de statistiek wordt AIC gebruikt om verschillende mogelijke modellen te vergelijken en te bepalen welke het best geschikt is voor de gegevens. AIC wordt berekend uit:

  • het aantal onafhankelijke variabelen dat wordt gebruikt om het model te bouwen.
  • de schatting van de maximale waarschijnlijkheid van het model (hoe goed het model de gegevens weergeeft).,

het best passende model volgens AIC is het model dat de grootste hoeveelheid variatie verklaart met behulp van de minst mogelijke onafhankelijke variabelen.

voorbeeld
u wilt weten of het drinken van suikergezoete dranken het lichaamsgewicht beïnvloedt. U hebt secundaire gegevens verzameld uit een nationale gezondheidsenquête die waarnemingen bevat over consumptie van suikergezoete dranken, leeftijd, geslacht en BMI (body mass index).,

om uit te vinden welke van deze variabelen belangrijk zijn voor het voorspellen van de relatie tussen suikergezoete drankconsumptie en lichaamsgewicht, maak je verschillende mogelijke modellen en vergelijk ze met behulp van AIC.

wanneer AIC

wordt gebruikt in statistieken, wordt AIC meestal gebruikt voor modelselectie. Door de AIC-scores van verschillende mogelijke modellen te berekenen en te vergelijken, kunt u degene kiezen die het beste past bij de gegevens.,

bij het testen van een hypothese, kunt u gegevens verzamelen over variabelen waar u niet zeker van bent, vooral als u een nieuw idee verkent. Je wilt weten welke van de onafhankelijke variabelen die je hebt gemeten de variatie in je afhankelijke variabele verklaren.

een goede manier om erachter te komen is om een set modellen te maken, elk met een andere combinatie van de onafhankelijke variabelen die u hebt gemeten., Deze combinaties moeten gebaseerd zijn op:

  • uw kennis van het studiesysteem – vermijd het gebruik van parameters die niet logisch verbonden zijn, omdat u onechte correlaties tussen bijna alles kunt vinden!
  • uw experimentele opzet-bijvoorbeeld, als u twee behandelingen onder proefpersonen hebt opgesplitst, dan is er waarschijnlijk geen reden om te testen op een interactie tussen de twee behandelingen.

Als u een aantal mogelijke modellen hebt gemaakt, kunt u AIC gebruiken om ze te vergelijken. Lagere AIC-scores zijn beter, en AIC bestraft modellen die meer parameters gebruiken., Dus als twee modellen dezelfde hoeveelheid variatie verklaren, zal degene met minder parameters een lagere AIC score hebben en zal het beter passende model zijn.

modelselectie voorbeeld
In een onderzoek naar hoe uren besteed aan studeren en testformaat (multiple choice vs.schriftelijke antwoorden) de testscores beïnvloeden, maakt u twee modellen aan:

  1. Eindtestscore in reactie op uren besteed aan studeren
  2. Eindtestscore in reactie op uren besteed aan studeren + testformaat

u vindt een r2 van 0,45 met een p-waarde minder dan 0,05 voor model 1, en een R2 van 0.,46 met een p-waarde van minder dan 0,05 voor model 2. Model 2 past iets beter bij de gegevens – maar was het de moeite waard om een andere parameter toe te voegen alleen maar om deze kleine toename in model fit te krijgen?

u voert een AIC-test uit om erachter te komen, wat aantoont dat model 1 de lagere AIC-score heeft omdat het minder informatie nodig heeft om met bijna precies hetzelfde niveau van precisie te voorspellen. Een andere manier om dit te zien is dat de verhoogde precisie in model 2 bij toeval had kunnen gebeuren.

uit de AIC-test besluit u dat model 1 het beste model is voor uw studie.,

Hoe modellen te vergelijken met behulp van AIC

AIC bepaalt de relatieve informatiewaarde van het model met behulp van de maximale waarschijnlijkheidsschatting en het aantal parameters (onafhankelijke variabelen) in het model. De formule voor AIC is:

K is het aantal gebruikte onafhankelijke variabelen en L is de schatting van de log-waarschijnlijkheid (oftewel de waarschijnlijkheid dat het model uw waargenomen y-waarden zou kunnen hebben geproduceerd)., De standaard K is altijd 2, dus als je model één onafhankelijke variabele gebruikt zal je k 3 zijn, als het twee onafhankelijke variabelen gebruikt zal je K 4 zijn, enzovoort.

om modellen te vergelijken met behulp van AIC, moet u de AIC van elk model berekenen. Als een model meer dan 2 AIC-eenheden lager is dan een ander, dan wordt het beschouwd als aanzienlijk beter dan dat model.

U kunt AIC eenvoudig met de hand berekenen als u de log-waarschijnlijkheid van uw model heeft, maar het berekenen van de log-waarschijnlijkheid is ingewikkeld! De meeste statistische software zal een functie voor het berekenen van AIC bevatten., We gebruiken R om onze AIC-analyse uit te voeren.

Wat is uw plagiaatscore?

vergelijk uw papier met meer dan 60 miljard webpagina ‘ s en 30 miljoen publicaties.,

  • Beste plagiaat checker van 2020
  • Plagiaat rapport & percentage
  • Grootste plagiaat database

Scribbr Plagiaat Checker

AIC in R

Om het vergelijken van diverse modellen, kunt u eerst een volledige set van modellen die u wilt vergelijken en klik vervolgens opuitvoeren aictab() op de set.,

voor de suikergezoete drankgegevens maken we een reeks modellen die de drie voorspellende variabelen (leeftijd, geslacht en drankconsumptie) in verschillende combinaties bevatten. Download de dataset en voer de regels code uit in R om het zelf te proberen.

Download de voorbeelddataset

maak de modellen

eerst kunnen we testen hoe elke variabele afzonderlijk presteert.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

vervolgens willen we weten of de combinatie van leeftijd en geslacht beter is in het beschrijven van variatie in BMI op zichzelf, zonder rekening te houden met drankconsumptie.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

we willen ook weten of de combinatie van leeftijd, geslacht en drankconsumptie beter is in het beschrijven van de variatie in BMI dan een van de vorige modellen.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

ten slotte kunnen we controleren of de interactie tussen leeftijd, geslacht en drankconsumptie BMI beter kan verklaren dan alle voorgaande modellen.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

vergelijk de modellen

om deze modellen te vergelijken en te vinden welke het beste geschikt is voor de gegevens, kunt u ze samenvoegen in een lijst en het commando aictab() gebruiken om ze allemaal tegelijk te vergelijken. Om aictab () te gebruiken, laadt u eerst de bibliotheek aiccmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

plaats vervolgens de modellen in een lijst (‘modellen’) en geef ze een naam zodat de AIC-tabel gemakkelijker leesbaar is (‘model.naam’).

voer ten slotte aictab() uit om de vergelijking uit te voeren.

aictab(cand.set = models, modnames = model.names)

interpretatie van de resultaten

de bovenstaande code levert de volgende uitvoertabel op:

het best passende model wordt altijd eerst vermeld., De modelselectietabel bevat informatie over:

  • K: het aantal parameters in het model. De standaard K is 2, dus een model met één parameter heeft een K van 2 + 1 = 3.
  • AICc: de informatiescore van het model (de kleine letter ” c ” geeft aan dat de waarde is berekend op basis van de AIC-test, gecorrigeerd voor kleine steekproefgrootten). Hoe kleiner de AIC-waarde, hoe beter het model past.
  • Delta_AICc: het verschil in AIC-score tussen het beste model en het model dat wordt vergeleken. In deze tabel heeft het op één na beste model een delta-AIC van 6.,69 vergeleken met het topmodel, en het derde beste model heeft een delta-AIC van 15,96 vergeleken met het topmodel.
  • AICcWt: AICC-gewicht, dat het aandeel is van de totale hoeveelheid voorspellend vermogen die wordt geleverd door de volledige reeks modellen in het beoordeelde model. In dit geval bevat het topmodel 97% van de totale uitleg die te vinden is in de volledige set modellen.
  • Cum.Wt: de som van de gewichten van de AICc. Hier bevatten de top twee modellen 100% van het cumulatieve gewicht van de AICc.
  • LL: log-waarschijnlijkheid., Dit is de waarde die beschrijft hoe waarschijnlijk het model is, gegeven de gegevens. De AIC-score wordt berekend op basis van de LL en K.

uit deze tabel kunnen we zien dat het beste model het combinatiemodel is – het model dat elke parameter maar geen interacties bevat (BMI ~ leeftijd + geslacht + consumptie).

het model is veel beter dan alle andere, omdat het 96% van het cumulatieve modelgewicht draagt en de laagste AIC-score heeft. Het volgende beste model is meer dan 2 AIC-eenheden hoger dan het beste model (6,33 eenheden) en draagt slechts 4% van het cumulatieve modelgewicht.,

Op basis van deze vergelijking zouden we het combinatiemodel kiezen om te gebruiken in onze data-analyse.

rapportage van de resultaten

Als u AIC-modelselectie gebruikt in uw onderzoek, kunt u dit aangeven in uw sectie methoden. Rapporteer dat u AIC-modelselectie hebt gebruikt, leg kort uit welk model het beste bij u past en vermeld het gewicht van het AIC-model.,

Voorbeeldmethoden
we hebben AIC-modelselectie gebruikt om onderscheid te maken tussen een reeks mogelijke modellen die de relatie beschrijven tussen leeftijd, geslacht, consumptie van gezoete dranken en body mass index. Het best passende model, dat 97% van het cumulatieve gewicht van het model droeg, omvatte elke parameter zonder interactie-effecten.

na het vinden van het best passende model kunt u doorgaan en het model uitvoeren en de resultaten evalueren. De output van uw model evaluatie kan worden gerapporteerd in de sectie resultaten van uw paper.,

Veelgestelde vragen over AIC

Wat is het Akaike-informatiecriterium?

Het Akaike informatiecriterium is een wiskundige test die wordt gebruikt om te evalueren hoe goed een model past bij de gegevens die het moet beschrijven. Het bestraft modellen die meer onafhankelijke variabelen (parameters) gebruiken als een manier om te voorkomen dat over-fitting.

AIC wordt meestal gebruikt om de relatieve goodness-of-fit tussen de verschillende modellen te vergelijken en vervolgens het model te kiezen dat het beste bij de gegevens Past.

Wat is een model?,

in statistieken is een model de verzameling van een of meer onafhankelijke variabelen en hun voorspelde interacties die onderzoekers gebruiken om variatie in hun afhankelijke variabele te verklaren.

u kunt een model testen met behulp van een statistische test. Om te vergelijken hoe goed verschillende modellen passen bij uw gegevens, kunt u gebruik maken van Akaike ‘ s informatiecriterium voor model selectie.

wat wordt bedoeld met modelselectie?,

in statistieken is modelselectie een proces dat onderzoekers gebruiken om de relatieve waarde van verschillende statistische modellen te vergelijken en te bepalen welke het best geschikt is voor de waargenomen gegevens.

Het Akaike-informatiecriterium is een van de meest voorkomende methoden voor modelselectie. AIC weegt het vermogen van het model om de waargenomen gegevens te voorspellen tegen het aantal parameters dat het model nodig heeft om dat niveau van precisie te bereiken.

AIC-modelselectie kan onderzoekers helpen een model te vinden dat de waargenomen variatie in hun gegevens verklaart en tegelijkertijd overbevissing vermijdt.,

Hoe wordt AIC berekend?

Het Akaike-informatiecriterium wordt berekend op basis van de maximale log-waarschijnlijkheid van het model en het aantal parameters (K) dat is gebruikt om die waarschijnlijkheid te bereiken. De AIC-functie is 2K-2 (Log-waarschijnlijkheid).

lagere AIC-waarden geven een beter passend model aan, en een model met een delta-AIC (het verschil tussen de twee AIC-waarden die worden vergeleken) van meer dan -2 wordt significant beter geacht dan het model waarmee het wordt vergeleken.

Articles

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *