Akaike informační kritérium (AIC) je matematická metoda pro zhodnocení toho, jak dobře model odpovídá datům ze kterého byl generován. Ve statistikách se AIC používá k porovnání různých možných modelů a určení, který z nich je pro data nejvhodnější. AIC se vypočítá z:
- počtu nezávislých proměnných použitých pro sestavení modelu.
- maximální odhad pravděpodobnosti modelu (jak dobře model reprodukuje data).,
nejvhodnější model podle AIC je ten, který vysvětluje největší množství variací pomocí nejmenších možných nezávislých proměnných.
při použití AIC
ve statistice se AIC nejčastěji používá pro výběr modelu. Výpočtem a porovnáním skóre AIC několika možných modelů si můžete vybrat ten, který je pro data nejvhodnější.,
Při testování hypotézy, můžete shromažďovat data o proměnných, že si nejste jisti, zvláště pokud jste zkoumají nový nápad. Chcete vědět, která z nezávislých proměnných, které jste měřili, vysvětluje změnu ve vaší závislé proměnné.
dobrým způsobem, jak zjistit, je vytvořit sadu modelů, z nichž každá obsahuje jinou kombinaci nezávislých proměnných, které jste měřili., Tyto kombinace by měly být založeny na:
- Své znalosti studijní systém – vyhněte se použití parametrů, které nejsou logicky spojeny, protože můžete najít falešné korelace mezi téměř cokoliv!
- váš experimentální design – například pokud jste rozdělili dvě léčby mezi testované subjekty, pak pravděpodobně není důvod testovat interakci mezi těmito dvěma léčbami.
jakmile vytvoříte několik možných modelů, můžete je porovnat pomocí AIC. Nižší skóre AIC je lepší a AIC trestá modely, které používají více parametrů., Takže pokud dva modely vysvětlují stejné množství variací, s méně parametry, bude mít nižší AIC skóre a bude lepší fit modelu.
Jak porovnat modely pomocí AIC
AIC určuje relativní hodnota informace z modelu pomocí maximální pravděpodobnosti odhadu a počet parametrů (nezávislých proměnných) v modelu. Vzorec pro AIC je:
K je počet nezávislých proměnných použitých a L je log-likelihood odhad (.k.a. pravděpodobnost, že model by mohl mít produkoval svůj pozorované hodnoty y)., Výchozí K je vždy 2, takže pokud váš model používá jednu nezávislou proměnnou, bude K 3, pokud použije dvě nezávislé proměnné, Vaše k bude 4 a tak dále.
Chcete-li porovnat modely pomocí AIC, musíte vypočítat AIC každého modelu. Pokud je model o více než 2 jednotky AIC nižší než jiný, považuje se za výrazně lepší než tento model.
můžete snadno vypočítat AIC ručně, pokud máte log-pravděpodobnost vašeho modelu, ale výpočet log-pravděpodobnost je komplikovaná! Většina statistického softwaru bude obsahovat funkci pro výpočet AIC., Použijeme R ke spuštění naší analýzy AIC.
AIC v R
porovnat několik modelů, můžete si nejprve vytvořit kompletní sadu modelů, které chcete porovnat, a potom spusťte aictab()
.,
Pro cukr-slazené nápoje údaje, budeme vytvořit sadu modelů, které zahrnují tři prognostických proměnných (věk, pohlaví, a spotřeba nápojů) v různých kombinacích. Stáhněte si datový soubor a spusťte řádky kódu v R, abyste si to vyzkoušeli sami.
stáhněte si ukázkový dataset
Vytvořte modely
nejprve si můžeme vyzkoušet, jak každá proměnná funguje samostatně.,
Next, chceme vědět, jestli kombinace věku a pohlaví jsou lepší popisující rozdíly v BMI na vlastní pěst, aniž včetně spotřeby nápoje.
My také chceme vědět, zda kombinace věku, pohlaví a spotřebě nápojů je lepší popisující rozdíly v BMI, než všechny předchozí modely.,
a Konečně, můžeme zkontrolovat, zda interakce věku, pohlaví a spotřebě nápojů může vysvětlit BMI lepší než všechny předchozí modely.
Porovnat modely
porovnat tyto modely a zjistit, který z nich je nejvhodnější pro data, můžete dát je dohromady do seznamu a použít aictab() příkaz porovnat všechny z nich najednou. Chcete-li použít aictab(), nejprve načíst knihovnu AICcmodavg.,
Pak dal modely do seznamu („modely“) a jméno každého z nich, takže AIC tabulka je jednodušší číst (‚model.jméno’).
nakonec spusťte aictab()
pro porovnání.
Interpretaci výsledků
kód výše vytvoří následující výstup tabulce:
best-fit model je vždy uvedena jako první., Tabulka výběru modelu obsahuje informace o:
- k: počtu parametrů v modelu. Výchozí K je 2, takže model s jedním parametrem bude mít K 2 + 1 = 3.
- AICc: informace score modelu (lower-case “ c “ znamená, že hodnota byla vypočtena z AIC test opraven pro malé velikosti vzorku). Čím menší je hodnota AIC,tím lepší je model.
- Delta_AICc: rozdíl v AIC skóre mezi nejlepším modelem a porovnávaným modelem. V této tabulce má další nejlepší model delta-AIC 6.,69 ve srovnání s top model, a třetí-nejlepší model má delta-AIC z 15.96 ve srovnání s top model.
- AICcWt: AICC hmotnost, což je podíl celkového množství prediktivního výkonu poskytovaného úplnou sadou modelů obsažených v posuzovaném modelu. V tomto případě top model obsahuje 97% celkového vysvětlení, které lze nalézt v celé sadě modelů.
- Cum.Wt: součet AICC závaží. Zde dva nejlepší modely obsahují 100% kumulativní hmotnosti AICc.
- LL: log-pravděpodobnost., Toto je hodnota popisující, jak pravděpodobný je model vzhledem k datům. AIC skóre se vypočítá z LL a K.
Z této tabulky můžeme vidět, že nejlepší model je kombinací modelu – model, který zahrnuje všechny parametry, ale žádné interakce (bmi ~ age + sex + spotřeba).
model je mnohem lepší než všechny ostatní, protože nese 96% kumulativní hmotnosti modelu a má nejnižší skóre AIC. Další-nejlepší model je více než 2 AIC jednotek vyšší, než nejlepší model (6.33 jednotek) a nese pouze 4% kumulativní hmotnosti modelu.,
na základě tohoto srovnání bychom zvolili kombinovaný model, který se použije v naší analýze dat.
hlášení výsledků
pokud ve svém výzkumu používáte výběr modelu AIC, můžete to uvést v sekci metody. Nahlaste, že jste použili výběr modelu AIC, stručně vysvětlete model, který jste našli, a uveďte hmotnost modelu AIC.,
po nalezení modelu, který nejlépe vyhovuje, můžete pokračovat a spustit model a vyhodnotit výsledky. Výstup hodnocení modelu lze nahlásit v sekci Výsledky vašeho příspěvku.,
Nejčastější dotazy týkající se AIC
informační kritérium Akaike je matematický test používaný k vyhodnocení toho, jak dobře model odpovídá údajům, které má popsat. Penalizuje modely, které používají více nezávislých proměnných (parametrů) jako způsob, jak se vyhnout nadměrné montáži.
AIC se nejčastěji používá k porovnání relativní dobroty mezi různými uvažovanými modely a k výběru modelu, který nejlépe vyhovuje datům.
Ve statistice, model je kolekce jednoho nebo více nezávislých proměnných a jejich předpokládané interakce, které vědci používají, aby se pokusili vysvětlit rozdíly v jejich závislé proměnné.
model můžete otestovat pomocí statistického testu. Porovnat, jak dobře různé modely se vešly vaše data, můžete použít Akaike informační kritérium pro výběr modelu.
ve statistice je výběr modelu procesem, který vědci používají k porovnání relativní hodnoty různých statistických modelů a určení, který z nich je nejvhodnější pro pozorovaná data.
informační kritérium Akaike je jednou z nejčastějších metod výběru modelu. AIC váží schopnost modelu předpovídat pozorovaná data proti počtu parametrů, které model vyžaduje k dosažení této úrovně přesnosti.
výběr modelu AIC může vědcům pomoci najít model, který vysvětluje pozorovanou změnu jejich dat a zároveň se vyhýbá nadměrnému testování.,
informační kritérium Akaike se vypočítá z maximální log-pravděpodobnosti modelu a počtu parametrů (k) použitých k dosažení této pravděpodobnosti. Funkce AIC je 2K-2 (log-pravděpodobnost).
Nižší AIC hodnoty značí lepší fit modelu, a model s delta-AIC (rozdíl mezi dvěma AIC hodnoty jsou ve srovnání) větší než -2 je považován za výrazně lepší než model je porovnáván.