criteriul de informare Akaike (AIC) este o metodă matematică pentru evaluarea cât de bine se potrivește un model cu datele din care a fost generat. În statistici, AIC este utilizat pentru a compara diferite modele posibile și pentru a determina care dintre ele este cea mai potrivită pentru date. AIC este calculat din:
- numărul de variabile independente utilizate pentru a construi modelul.
- estimarea probabilității maxime a modelului (cât de bine modelul reproduce datele).,
modelul cel mai potrivit conform AIC este cel care explică cea mai mare cantitate de variație folosind cele mai puține variabile independente posibile.
când se utilizează AIC
în statistici, AIC este cel mai des utilizat pentru selectarea modelului. Calculând și comparând scorurile AIC ale mai multor modele posibile, îl puteți alege pe cel care este cel mai potrivit pentru date.,
când testați o ipoteză, este posibil să colectați date despre variabile de care nu sunteți sigur, mai ales dacă explorați o idee nouă. Doriți să știți care dintre variabilele independente pe care le-ați măsurat explică variația variabilei dvs. dependente.o modalitate bună de a afla este de a crea un set de modele, fiecare conținând o combinație diferită de variabile independente pe care le-ați măsurat., Aceste combinații ar trebui să se bazeze pe:
- cunoștințele dvs. despre sistemul de studiu – evitați utilizarea parametrilor care nu sunt conectați logic, deoarece puteți găsi corelații false între aproape orice!
- designul experimental – de exemplu, dacă ați împărțit două tratamente între subiecții testați, atunci probabil că nu există niciun motiv pentru a testa o interacțiune între cele două tratamente.după ce ați creat mai multe modele posibile, puteți utiliza AIC pentru a le compara. Scorurile AIC mai mici sunt mai bune, iar AIC penalizează modelele care utilizează mai mulți parametri., Deci, dacă două modele explică aceeași cantitate de variație, cel cu mai puțini parametri va avea un scor AIC mai mic și va fi modelul mai potrivit.
Cum de a compara modele folosind AIC
AIC determină relativă informații cu valoare de model folosind estimare de probabilitate maximă și numărul de parametri (variabile independente) în model. Formula pentru AIC este:
K este numărul de variabile independente utilizate și L este log-estimare de probabilitate (un.k.o. probabilitatea ca modelul ar putea fi produs-ți observat y-valori)., K-ul implicit este întotdeauna 2, deci dacă modelul dvs. folosește o variabilă independentă, K-ul dvs. va fi 3, Dacă folosește două variabile independente, k-ul dvs. va fi 4 și așa mai departe.pentru a compara modelele folosind AIC, trebuie să calculați AIC pentru fiecare model. Dacă un model este cu mai mult de 2 unități AIC mai mic decât altul, atunci este considerat semnificativ mai bun decât modelul respectiv.puteți calcula cu ușurință AIC manual dacă aveți probabilitatea de jurnal a modelului dvs., dar calcularea probabilității de jurnal este complicată! Cele mai multe software-ul statistic va include o funcție pentru calcularea AIC., Vom folosi R pentru a rula analiza AIC.
AIC în R
Pentru a compara mai multe modele, puteți să creați mai întâi un set complet de modele doriți să comparați și apoi executați
aictab()
la set.,Pentru îndulcită cu zahăr băuturi date, vom crea un set de modele, care include cele trei variabile predictor (vârstă, sex, și consumul de băuturi), în diferite combinații. Descărcați setul de date și rulați liniile de cod în R pentru a încerca singur.
Descărcați setul de date eșantion
Crearea de modele
în Primul rând, putem testa modul în care fiecare variabilă efectuează separat.,
Apoi, vrem să știm dacă o combinație de vârstă și de sex sunt mai bune la care descrie variația IMC pe cont propriu, fără a include consumul de băuturi.
Avem, de asemenea, vreau să știu dacă o combinație de vârstă, sex, și consumul de băuturi este mai bine pentru a descrie variația IMC decât oricare dintre modelele anterioare.,
în cele din Urmă, putem verifica dacă interacțiunea de vârstă, sex, și consumul de băuturi poate explica IMC mai bine decât oricare dintre modelele anterioare.
Compara modele
Pentru a compara aceste modele și pentru a găsi care este cel mai potrivit pentru date, puteți le-a pus împreună într-o listă și de a folosi aictab() comandă pentru a compara toate dintr-o dată. Pentru a utiliza aictab (), încărcați mai întâi biblioteca AICcmodavg.,
Apoi pune modele într-o listă („modele”) și numele fiecăruia dintre ei, astfel încât AIC masă este mai ușor de citit (‘model.nume’).
în cele din urmă, executați
aictab()
pentru a face comparația.Interpretarea rezultatelor
codul De mai sus va produce următorul tabel de ieșire:
Cel mai bun-fit model este întotdeauna menționată prima., Tabelul de selecție a modelului include informații despre:
- K: numărul de parametri din model. Implicit K este 2, deci un model cu un parametru va avea un K de 2 + 1 = 3.
- AICc: informațiile scorul de model (minusculă ” c ” indică faptul că valoarea a fost calculată de la AIC test corectate pentru probe mici dimensiuni). Cu cât valoarea AIC este mai mică, cu atât modelul se potrivește mai bine.
- Delta_AICc: diferența de scor AIC între cel mai bun model și modelul comparat. În acest tabel, modelul next-best are un delta-AIC de 6.,69 comparativ cu modelul de top, iar al treilea cel mai bun model are un delta-AIC de 15,96 comparativ cu modelul de top.
- AICcWt: greutatea AICc, care este proporția din cantitatea totală de putere predictivă furnizată de setul complet de modele conținute în modelul evaluat. În acest caz, modelul de top conține 97% din explicația totală care poate fi găsită în setul complet de modele.
- Cum.Wt: suma greutăților AICc. Aici primele două modele conțin 100% din greutatea cumulată AICc.
- LL: Log-probabilitate., Aceasta este valoarea care descrie cât de probabil este modelul, având în vedere datele. Scorul AIC este calculat din LL și K.
Din acest tabel putem vedea că cel mai bun model este modelul combinat – modelul care include fiecare parametru, dar fără interacțiuni (IMC ~ vârstă + sex + consum).modelul este mult mai bun decât toate celelalte, deoarece poartă 96% din greutatea cumulată a modelului și are cel mai mic scor AIC. Modelul next-best este cu mai mult de 2 unități AIC mai mare decât cel mai bun model (6.33 unități) și poartă doar 4% din greutatea cumulată a modelului.,
pe baza acestei comparații, am alege modelul de combinație pe care să-l folosim în analiza noastră de date.
raportarea rezultatelor
Dacă utilizați selecția modelului AIC în cercetarea dvs., puteți să o precizați în secțiunea Metode. Raportați că ați utilizat selecția modelului AIC, explicați pe scurt modelul cel mai potrivit pe care l-ați găsit și indicați greutatea aic a modelului.,
după găsirea modelului cel mai potrivit, puteți merge mai departe și să rulați modelul și să evaluați rezultatele. Rezultatele evaluării modelului dvs. pot fi raportate în secțiunea Rezultate a lucrării dvs.,
Întrebări Frecvente despre AIC
care este criteriul de informare Akaike? criteriul Akaike information este un test matematic folosit pentru a evalua cât de bine se potrivește un model cu datele pe care trebuie să le descrie. Penalizează modelele care utilizează variabile (parametri) mai independente ca o modalitate de a evita supra-montarea.AIC este cel mai adesea folosit pentru a compara bunătatea relativă a potrivirii între diferitele modele luate în considerare și pentru a alege apoi modelul care se potrivește cel mai bine datelor.
în Statistică, un model este colecția uneia sau mai multor variabile independente și interacțiunile lor prezise pe care cercetătorii le folosesc pentru a încerca să explice variația variabilei lor dependente.
puteți testa un model folosind un test statistic. Pentru a compara cât de bine se potrivesc diferite modele cu datele dvs., puteți utiliza criteriul de Informare al Akaike pentru selectarea modelului.
Valorile AIC mai mici indică un model mai potrivit, iar un model cu un delta-aic (diferența dintre cele două valori AIC fiind comparate) mai mare de -2 este considerat semnificativ mai bun decât modelul cu care este comparat.