az Akaike információs kritérium (AIC) egy matematikai módszer annak értékelésére, hogy egy modell mennyire illeszkedik az általa generált adatokhoz. A statisztikákban az AIC-t különböző lehetséges modellek összehasonlítására használják, valamint annak meghatározására, hogy melyik a legmegfelelőbb az adatokhoz. Az AIC kiszámítása:
- a modell felépítéséhez használt független változók száma.
- a modell maximális valószínűségi becslése (mennyire jól reprodukálja a modell az adatokat).,
az AIC szerint a legjobban illeszkedő modell az, amely a lehető legkevesebb variációt magyarázza a lehető legkevesebb független változóval.
mikor kell használni az AIC
statisztikákban az AIC-t leggyakrabban a modellválasztáshoz használják. Több lehetséges modell AIC pontszámainak kiszámításával és összehasonlításával kiválaszthatja azt, amelyik a legjobban illeszkedik az adatokhoz.,
hipotézis tesztelésekor adatokat gyűjthet olyan változókról, amelyekről nem biztos, különösen, ha új ötletet fedez fel. Szeretné tudni, hogy a mért független változók közül melyik magyarázza el a függő változó változását.
egy jó módja annak, hogy megtudja, hogy hozzon létre egy sor modellek, amelyek mindegyike egy másik kombinációja a független változók már mért., Ezeknek a kombinációknak a következőkön kell alapulniuk:
- a tanulmányi rendszer ismerete-kerülje a logikailag nem összekapcsolt paraméterek használatát, mivel szinte bármi között hamis korrelációkat találhat!
- a kísérleti terv – például, ha két kezelést osztott fel a vizsgálati alanyok között, akkor valószínűleg nincs ok arra, hogy teszteljék a két kezelés közötti kölcsönhatást.
több lehetséges modell létrehozása után az AIC segítségével összehasonlíthatja azokat. Az alacsonyabb AIC pontszámok jobbak, az AIC pedig több paramétert használó modelleket büntet., Tehát ha két modell ugyanazt a variációt magyarázza, akkor a kevesebb paraméterrel rendelkező modell alacsonyabb AIC-pontszámmal rendelkezik, és a jobban illeszkedő modell lesz.
A modellek összehasonlítása az AIC
AIC segítségével határozza meg a modell relatív információs értékét a maximális valószínűségi becslés és a modell paramétereinek (független változók) száma alapján. Az AIC képlete:
K a használt független változók száma, L pedig a log-valószínűségi becslés (más néven annak valószínűsége, hogy a modell előállíthatta a megfigyelt y-értékeket)., Az alapértelmezett K mindig 2, Tehát ha a modell egy független változót használ, akkor k lesz 3, ha két független változót használ, akkor k lesz 4, stb.
a modellek AIC használatával történő összehasonlításához ki kell számítania az egyes modellek AIC-jét. Ha egy modell több mint 2 AIC egységgel alacsonyabb, mint a másik, akkor lényegesen jobbnak tekinthető, mint ez a modell.
könnyen kiszámíthatja az AIC-t kézzel, ha megvan a modell log valószínűsége, de a log-valószínűség kiszámítása bonyolult! A legtöbb statisztikai szoftver tartalmaz egy funkciót az AIC kiszámításához., Az R-t fogjuk használni az AIC elemzésünk futtatásához.
AIC a R
összehasonlítani több modell, akkor először hozza létre a teljes készlet modellek szeretné összehasonlítani, majd a futtatás aictab()
a forgatáson.,
a cukorral édesített italok adataihoz olyan modelleket hozunk létre, amelyek különböző kombinációkban tartalmazzák a három prediktorváltozót (életkor, nem és italfogyasztás). Töltse le az adatkészletet, majd futtassa a kódsorokat R-ben, hogy kipróbálhassa magát.
töltse le a minta adatkészletet
hozza létre a modelleket
először tesztelhetjük, hogy az egyes változók hogyan teljesítenek külön.,
a Következő tudni akarjuk, ha a kombináció kora, neme, jobb leírni változása BMI saját, anélkül, beleértve ital fogyasztás.
azt is szeretnénk tudni, hogy az életkor, a nem és az italfogyasztás kombinációja jobban leírja-e a BMI változását, mint bármelyik korábbi modell.,
végül ellenőrizhetjük, hogy az életkor, a nem és az italfogyasztás kölcsönhatása jobban magyarázza-e a BMI-t, mint bármelyik korábbi modell.
hasonlítsa össze a modelleket
ahhoz, hogy összehasonlítsa ezeket a modelleket, és megtalálja, melyik a legmegfelelőbb az adatokhoz, összeállíthatja őket egy listába, és az aictab() paranccsal mindet összehasonlíthatja azonnal. Az aictab () használatához először töltse be az AICcmodavg könyvtárat.,
ezután tegye a modelleket egy listára (“modellek”), és nevezze meg mindegyiket, így az AIC táblázat könnyebben olvasható (“modell.nevek”).
végül futtassa a aictab()
az összehasonlítás elvégzéséhez.
Értelmezése az eredmények
A fenti kód fog a következő kimeneti táblázat:
A legjobban illeszkedő modell mindig szerepel először., A modellválasztási táblázat a következő információkat tartalmazza:
- K: a modell paramétereinek száma. Az alapértelmezett K 2, tehát egy paraméterrel rendelkező modell K 2 + 1 = 3.
- AICC: a modell információs pontszáma (az alsó ” c ” eset azt jelzi, hogy az értéket a kis mintaméretekre korrigált AIC-teszt alapján számították ki). Minél kisebb az AIC érték, annál jobb a modell.
- Delta_AICc: az AIC pontszám különbsége a legjobb modell és az összehasonlítandó modell között. Ebben a táblázatban a következő legjobb modellnek 6 delta-AIC-je van.,69 a csúcsmodellhez képest, a harmadik legjobb modell pedig 15, 96 delta-AIC-vel rendelkezik a csúcsmodellhez képest.
- AICcWt: AICC tömeg, amely az értékelt modellben található teljes modellkészlet által biztosított prediktív teljesítmény teljes mennyiségének aránya. Ebben az esetben a csúcsmodell a teljes magyarázat 97% – át tartalmazza, amely a modellek teljes készletében megtalálható.
- Cum.Wt: az AICC súlyok összege. Itt az első két modell a kumulatív AICc tömeg 100% – át tartalmazza.
- LL: Log-valószínűség., Ez az az érték, amely leírja, mennyire valószínű a modell, tekintettel az adatokra. Az AIC pontszám kiszámítása az LL és K.
ebből a táblázatból láthatjuk, hogy a legjobb modell a kombinációs modell – az a modell, amely minden paramétert tartalmaz, de nincs kölcsönhatás (bmi ~ életkor + szex + fogyasztás).
a modell sokkal jobb, mint az összes többi, mivel a halmozott modell súlyának 96% – át hordozza, és a legalacsonyabb AIC-pontszámmal rendelkezik. A következő legjobb modell több mint 2 AIC egységgel magasabb, mint a legjobb modell (6, 33 egység), a halmozott modell súlyának csak 4% – át hordozza.,
Ezen összehasonlítás alapján választanánk az adatelemzésben használni kívánt kombinációs modellt.
az eredmények jelentése
ha AIC modellválasztást használ a kutatásban, ezt megadhatja a módszerek szakaszban. Jelentse, hogy AIC modellválasztást használt, röviden magyarázza el a legjobban illeszkedő modellt, majd adja meg a modell AIC súlyát.,
miután megtalálta a legjobban illeszkedő modellt, futtathatja a modellt, és értékelheti az eredményeket. A modellértékelés kimenetéről a dolgozat eredmények szakaszában lehet beszámolni.,
Gyakran Ismételt Kérdések az AIC-ről
az Akaike információs kritérium egy matematikai teszt, amelyet annak értékelésére használnak, hogy egy modell milyen jól illeszkedik a leírandó adatokhoz. Bünteti azokat a modelleket, amelyek több független változót (paramétert) használnak a túlzott illesztés elkerülésére.
az AIC-t leggyakrabban a vizsgált különböző modellek relatív jóságának összehasonlítására használják, majd az adatokhoz legjobban illeszkedő modell kiválasztására.
a statisztikákban egy modell egy vagy több független változó és azok várható kölcsönhatásainak gyűjteménye, amelyeket a kutatók a függő változók változásának magyarázatára használnak.
tesztelhet egy modellt statisztikai teszt segítségével. Ahhoz, hogy összehasonlítsuk, hogy a különböző modellek mennyire felelnek meg az adatoknak, az Akaike információs kritériumát használhatja a modell kiválasztásához.
a statisztikákban a modellválasztás olyan folyamat, amelyet a kutatók a különböző statisztikai modellek relatív értékének összehasonlítására használnak, és annak meghatározására, hogy melyik a legmegfelelőbb a megfigyelt adatokhoz.
az Akaike információs kritérium a modellválasztás egyik leggyakoribb módszere. Az AIC súlyozza a modell azon képességét, hogy megjósolja a megfigyelt adatokat a modell által megkövetelt paraméterek számával szemben, hogy elérje ezt a pontossági szintet.
az AIC modellválasztás segíthet a kutatóknak olyan modell megtalálásában, amely megmagyarázza adataik megfigyelt változását, miközben elkerüli a túlcsordulást.,
az Akaike információs kritériumot a modell maximális naplószerű valószínűségéből és a valószínűség eléréséhez használt paraméterek (k) számából kell kiszámítani. Az AIC függvény 2K-2(log-valószínűség).
Alsó AIC értékek azt jelzik, hogy egy jobb-fit modell, modell egy delta-AIC (a különbség a két AIC értékek összehasonlítása) több, mint -2 tekinthető szignifikánsan jobb, mint a modell, mert képest.