Het Akaike information criterion (AIC) is een wiskundige methode om te evalueren hoe goed een model past bij de gegevens waaruit het is gegenereerd. In de statistiek wordt AIC gebruikt om verschillende mogelijke modellen te vergelijken en te bepalen welke het best geschikt is voor de gegevens. AIC wordt berekend uit:
- het aantal onafhankelijke variabelen dat wordt gebruikt om het model te bouwen.
- de schatting van de maximale waarschijnlijkheid van het model (hoe goed het model de gegevens weergeeft).,
het best passende model volgens AIC is het model dat de grootste hoeveelheid variatie verklaart met behulp van de minst mogelijke onafhankelijke variabelen.
wanneer AIC
wordt gebruikt in statistieken, wordt AIC meestal gebruikt voor modelselectie. Door de AIC-scores van verschillende mogelijke modellen te berekenen en te vergelijken, kunt u degene kiezen die het beste past bij de gegevens.,
bij het testen van een hypothese, kunt u gegevens verzamelen over variabelen waar u niet zeker van bent, vooral als u een nieuw idee verkent. Je wilt weten welke van de onafhankelijke variabelen die je hebt gemeten de variatie in je afhankelijke variabele verklaren.
een goede manier om erachter te komen is om een set modellen te maken, elk met een andere combinatie van de onafhankelijke variabelen die u hebt gemeten., Deze combinaties moeten gebaseerd zijn op:
- uw kennis van het studiesysteem – vermijd het gebruik van parameters die niet logisch verbonden zijn, omdat u onechte correlaties tussen bijna alles kunt vinden!
- uw experimentele opzet-bijvoorbeeld, als u twee behandelingen onder proefpersonen hebt opgesplitst, dan is er waarschijnlijk geen reden om te testen op een interactie tussen de twee behandelingen.
Als u een aantal mogelijke modellen hebt gemaakt, kunt u AIC gebruiken om ze te vergelijken. Lagere AIC-scores zijn beter, en AIC bestraft modellen die meer parameters gebruiken., Dus als twee modellen dezelfde hoeveelheid variatie verklaren, zal degene met minder parameters een lagere AIC score hebben en zal het beter passende model zijn.
Hoe modellen te vergelijken met behulp van AIC
AIC bepaalt de relatieve informatiewaarde van het model met behulp van de maximale waarschijnlijkheidsschatting en het aantal parameters (onafhankelijke variabelen) in het model. De formule voor AIC is:
K is het aantal gebruikte onafhankelijke variabelen en L is de schatting van de log-waarschijnlijkheid (oftewel de waarschijnlijkheid dat het model uw waargenomen y-waarden zou kunnen hebben geproduceerd)., De standaard K is altijd 2, dus als je model één onafhankelijke variabele gebruikt zal je k 3 zijn, als het twee onafhankelijke variabelen gebruikt zal je K 4 zijn, enzovoort.
om modellen te vergelijken met behulp van AIC, moet u de AIC van elk model berekenen. Als een model meer dan 2 AIC-eenheden lager is dan een ander, dan wordt het beschouwd als aanzienlijk beter dan dat model.
U kunt AIC eenvoudig met de hand berekenen als u de log-waarschijnlijkheid van uw model heeft, maar het berekenen van de log-waarschijnlijkheid is ingewikkeld! De meeste statistische software zal een functie voor het berekenen van AIC bevatten., We gebruiken R om onze AIC-analyse uit te voeren.
AIC in R
Om het vergelijken van diverse modellen, kunt u eerst een volledige set van modellen die u wilt vergelijken en klik vervolgens opuitvoeren aictab()
op de set.,
voor de suikergezoete drankgegevens maken we een reeks modellen die de drie voorspellende variabelen (leeftijd, geslacht en drankconsumptie) in verschillende combinaties bevatten. Download de dataset en voer de regels code uit in R om het zelf te proberen.
Download de voorbeelddataset
maak de modellen
eerst kunnen we testen hoe elke variabele afzonderlijk presteert.,
vervolgens willen we weten of de combinatie van leeftijd en geslacht beter is in het beschrijven van variatie in BMI op zichzelf, zonder rekening te houden met drankconsumptie.
we willen ook weten of de combinatie van leeftijd, geslacht en drankconsumptie beter is in het beschrijven van de variatie in BMI dan een van de vorige modellen.,
ten slotte kunnen we controleren of de interactie tussen leeftijd, geslacht en drankconsumptie BMI beter kan verklaren dan alle voorgaande modellen.
vergelijk de modellen
om deze modellen te vergelijken en te vinden welke het beste geschikt is voor de gegevens, kunt u ze samenvoegen in een lijst en het commando aictab() gebruiken om ze allemaal tegelijk te vergelijken. Om aictab () te gebruiken, laadt u eerst de bibliotheek aiccmodavg.,
plaats vervolgens de modellen in een lijst (‘modellen’) en geef ze een naam zodat de AIC-tabel gemakkelijker leesbaar is (‘model.naam’).
voer ten slotte aictab()
uit om de vergelijking uit te voeren.
interpretatie van de resultaten
de bovenstaande code levert de volgende uitvoertabel op:
het best passende model wordt altijd eerst vermeld., De modelselectietabel bevat informatie over:
- K: het aantal parameters in het model. De standaard K is 2, dus een model met één parameter heeft een K van 2 + 1 = 3.
- AICc: de informatiescore van het model (de kleine letter ” c ” geeft aan dat de waarde is berekend op basis van de AIC-test, gecorrigeerd voor kleine steekproefgrootten). Hoe kleiner de AIC-waarde, hoe beter het model past.
- Delta_AICc: het verschil in AIC-score tussen het beste model en het model dat wordt vergeleken. In deze tabel heeft het op één na beste model een delta-AIC van 6.,69 vergeleken met het topmodel, en het derde beste model heeft een delta-AIC van 15,96 vergeleken met het topmodel.
- AICcWt: AICC-gewicht, dat het aandeel is van de totale hoeveelheid voorspellend vermogen die wordt geleverd door de volledige reeks modellen in het beoordeelde model. In dit geval bevat het topmodel 97% van de totale uitleg die te vinden is in de volledige set modellen.
- Cum.Wt: de som van de gewichten van de AICc. Hier bevatten de top twee modellen 100% van het cumulatieve gewicht van de AICc.
- LL: log-waarschijnlijkheid., Dit is de waarde die beschrijft hoe waarschijnlijk het model is, gegeven de gegevens. De AIC-score wordt berekend op basis van de LL en K.
uit deze tabel kunnen we zien dat het beste model het combinatiemodel is – het model dat elke parameter maar geen interacties bevat (BMI ~ leeftijd + geslacht + consumptie).
het model is veel beter dan alle andere, omdat het 96% van het cumulatieve modelgewicht draagt en de laagste AIC-score heeft. Het volgende beste model is meer dan 2 AIC-eenheden hoger dan het beste model (6,33 eenheden) en draagt slechts 4% van het cumulatieve modelgewicht.,
Op basis van deze vergelijking zouden we het combinatiemodel kiezen om te gebruiken in onze data-analyse.
rapportage van de resultaten
Als u AIC-modelselectie gebruikt in uw onderzoek, kunt u dit aangeven in uw sectie methoden. Rapporteer dat u AIC-modelselectie hebt gebruikt, leg kort uit welk model het beste bij u past en vermeld het gewicht van het AIC-model.,
na het vinden van het best passende model kunt u doorgaan en het model uitvoeren en de resultaten evalueren. De output van uw model evaluatie kan worden gerapporteerd in de sectie resultaten van uw paper.,
Veelgestelde vragen over AIC
Het Akaike informatiecriterium is een wiskundige test die wordt gebruikt om te evalueren hoe goed een model past bij de gegevens die het moet beschrijven. Het bestraft modellen die meer onafhankelijke variabelen (parameters) gebruiken als een manier om te voorkomen dat over-fitting.
AIC wordt meestal gebruikt om de relatieve goodness-of-fit tussen de verschillende modellen te vergelijken en vervolgens het model te kiezen dat het beste bij de gegevens Past.
in statistieken is een model de verzameling van een of meer onafhankelijke variabelen en hun voorspelde interacties die onderzoekers gebruiken om variatie in hun afhankelijke variabele te verklaren.
u kunt een model testen met behulp van een statistische test. Om te vergelijken hoe goed verschillende modellen passen bij uw gegevens, kunt u gebruik maken van Akaike ‘ s informatiecriterium voor model selectie.
in statistieken is modelselectie een proces dat onderzoekers gebruiken om de relatieve waarde van verschillende statistische modellen te vergelijken en te bepalen welke het best geschikt is voor de waargenomen gegevens.
Het Akaike-informatiecriterium is een van de meest voorkomende methoden voor modelselectie. AIC weegt het vermogen van het model om de waargenomen gegevens te voorspellen tegen het aantal parameters dat het model nodig heeft om dat niveau van precisie te bereiken.
AIC-modelselectie kan onderzoekers helpen een model te vinden dat de waargenomen variatie in hun gegevens verklaart en tegelijkertijd overbevissing vermijdt.,
Het Akaike-informatiecriterium wordt berekend op basis van de maximale log-waarschijnlijkheid van het model en het aantal parameters (K) dat is gebruikt om die waarschijnlijkheid te bereiken. De AIC-functie is 2K-2 (Log-waarschijnlijkheid).
lagere AIC-waarden geven een beter passend model aan, en een model met een delta-AIC (het verschil tussen de twee AIC-waarden die worden vergeleken) van meer dan -2 wordt significant beter geacht dan het model waarmee het wordt vergeleken.