Il criterio di informazione Akaike (AIC) è un metodo matematico per valutare quanto bene un modello si adatta ai dati da cui è stato generato. Nelle statistiche, l’AIC viene utilizzato per confrontare diversi modelli possibili e determinare quale è la soluzione migliore per i dati. AIC è calcolato da:

  • il numero di variabili indipendenti utilizzate per costruire il modello.
  • la stima di massima verosimiglianza del modello (quanto bene il modello riproduce i dati).,

Il modello più adatto secondo AIC è quello che spiega la maggiore quantità di variazione utilizzando il minor numero possibile di variabili indipendenti.

Esempio
Vuoi sapere se bere bevande zuccherate influenza il peso corporeo. Hai raccolto dati secondari da un’indagine sanitaria nazionale che contiene osservazioni sul consumo di bevande zuccherate, età, sesso e BMI (indice di massa corporea).,

Per scoprire quali di queste variabili sono importanti per prevedere la relazione tra il consumo di bevande zuccherate e il peso corporeo, si creano diversi modelli possibili e si confrontano utilizzando AIC.

Quando utilizzare AIC

Nelle statistiche, AIC è più spesso utilizzato per la selezione del modello. Calcolando e confrontando i punteggi AIC di diversi modelli possibili, è possibile scegliere quello che è più adatto per i dati.,

Quando si verifica un’ipotesi, è possibile raccogliere dati su variabili di cui non si è certi, specialmente se si sta esplorando una nuova idea. Vuoi sapere quale delle variabili indipendenti che hai misurato spiega la variazione nella tua variabile dipendente.

Un buon modo per scoprirlo è creare un insieme di modelli, ognuno contenente una combinazione diversa delle variabili indipendenti che hai misurato., Queste combinazioni dovrebbero essere basate su:

  • La tua conoscenza del sistema di studio – evita di usare parametri che non sono logicamente connessi, dal momento che puoi trovare correlazioni spurie tra quasi tutto!
  • Il tuo progetto sperimentale – ad esempio, se hai diviso due trattamenti tra i soggetti del test, probabilmente non c’è motivo di testare un’interazione tra i due trattamenti.

Una volta creati diversi modelli possibili, è possibile utilizzare AIC per confrontarli. I punteggi AIC inferiori sono migliori e AIC penalizza i modelli che utilizzano più parametri., Quindi, se due modelli spiegano la stessa quantità di variazione, quello con meno parametri avrà un punteggio AIC inferiore e sarà il modello più adatto.

Esempio di selezione del modello
In uno studio su come le ore trascorse a studiare e il formato del test (a scelta multipla rispetto alle risposte scritte) influenzano i punteggi dei test, si creano due modelli:

  1. Punteggio finale del test in risposta alle ore trascorse a studiare
  2. 0.45 con un valore p inferiore a 0.05 per il modello 1 e un r2 di 0.,46 con un valore p inferiore a 0,05 per il modello 2. Il modello 2 si adatta leggermente ai dati, ma ne è valsa la pena aggiungere un altro parametro solo per ottenere questo piccolo aumento della vestibilità del modello?

    Si esegue un test AIC per scoprirlo, che mostra che il modello 1 ha il punteggio AIC più basso perché richiede meno informazioni per prevedere con quasi lo stesso identico livello di precisione. Un altro modo di pensare a questo è che la maggiore precisione nel modello 2 potrebbe essere successo per caso.

    Dal test AIC, decidi che il modello 1 è il modello migliore per il tuo studio.,

Come confrontare i modelli utilizzando AIC

AIC determina il valore di informazioni relative del modello utilizzando la stima di massima verosimiglianza e il numero di parametri (variabili indipendenti) nel modello. La formula per AIC è:

K è il numero di variabili indipendenti utilizzate e L è la stima della probabilità di log (ovvero la probabilità che il modello possa aver prodotto i valori y osservati)., La K predefinita è sempre 2, quindi se il tuo modello usa una variabile indipendente la tua K sarà 3, se usa due variabili indipendenti la tua K sarà 4 e così via.

Per confrontare i modelli che utilizzano AIC, è necessario calcolare l’AIC di ciascun modello. Se un modello è più di 2 unità AIC inferiore a un altro, allora è considerato significativamente migliore di quel modello.

Puoi facilmente calcolare AIC a mano se hai la probabilità di log del tuo modello, ma calcolare la probabilità di log è complicato! La maggior parte dei software statistici includerà una funzione per il calcolo AIC., Useremo R per eseguire la nostra analisi AIC.

Qual è il tuo punteggio di plagio?

Confronta la tua carta con oltre 60 miliardi di pagine web e 30 milioni di pubblicazioni.,

  • Migliori plagiarism checker 2020
  • Plagio report & percentuale
  • più Grande plagio database

Scribbr Plagiarism Checker

AIC in R

Per confrontare diversi modelli, è possibile creare il set completo di modelli che si desidera confrontare e poi eseguire aictab() sul set.,

Per i dati delle bevande zuccherate, creeremo una serie di modelli che includono le tre variabili predittive (età, sesso e consumo di bevande) in varie combinazioni. Scarica il set di dati ed esegui le righe di codice in R per provarlo tu stesso.

Scarica il set di dati di esempio

Crea i modelli

In primo luogo, possiamo testare come ogni variabile esegue separatamente.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

Successivamente, vogliamo sapere se la combinazione di età e sesso è migliore nel descrivere la variazione del BMI da sola, senza includere il consumo di bevande.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

Vogliamo anche sapere se la combinazione di età, sesso e consumo di bevande è migliore nel descrivere la variazione del BMI rispetto a uno qualsiasi dei modelli precedenti.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

Infine, possiamo verificare se l’interazione tra età, sesso e consumo di bevande può spiegare il BMI meglio di uno qualsiasi dei modelli precedenti.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

Confronta i modelli

Per confrontare questi modelli e trovare quale è la soluzione migliore per i dati, è possibile metterli insieme in un elenco e utilizzare il comando aictab () per confrontare tutti subito. Per utilizzare aictab (), prima caricare la libreria AICcmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

Quindi inserire i modelli in un elenco (‘modelli’) e denominare ciascuno di essi in modo che la tabella AIC sia più facile da leggere (‘modello.nome’).

Infine, eseguireaictab() per eseguire il confronto.

aictab(cand.set = models, modnames = model.names)

Interpretazione dei risultati

Il codice di cui sopra dovranno produrre la seguente tabella di output:

Il best-fit modello è sempre elencato per primo., La tabella di selezione del modello include informazioni su:

  • K: Il numero di parametri nel modello. Il valore predefinito K è 2, quindi un modello con un parametro avrà un K di 2 + 1 = 3.
  • AICc: Il punteggio informativo del modello (la ” c ” minuscola indica che il valore è stato calcolato sulla base del test AIC corretto per campioni di piccole dimensioni). Più piccolo è il valore AIC, migliore è la vestibilità del modello.
  • Delta_AICc: La differenza nel punteggio AIC tra il modello migliore e il modello da confrontare. In questa tabella, il modello next-best ha un delta-AIC di 6.,69 rispetto al modello di punta, e il terzo miglior modello ha un delta-AIC di 15,96 rispetto al modello di punta.
  • AICcWt: peso AICc, che è la proporzione della quantità totale di potenza predittiva fornita dall’insieme completo di modelli contenuti nel modello da valutare. In questo caso, il modello superiore contiene il 97% della spiegazione totale che può essere trovata nel set completo di modelli.
  • Sperma.Wt: La somma dei pesi AICc. Qui i primi due modelli contengono il 100% del peso cumulativo AICc.
  • LL: Log-verosimiglianza., Questo è il valore che descrive la probabilità del modello, dati i dati. Il punteggio AIC è calcolato da LL e K.

Da questa tabella possiamo vedere che il modello migliore è il modello combinato – il modello che include ogni parametro ma nessuna interazione (bmi ~ età + sesso + consumo).

Il modello è molto migliore di tutti gli altri, in quanto trasporta il 96% del peso cumulativo del modello e ha il punteggio AIC più basso. Il modello next-best è più di 2 unità AIC superiore al modello best (6,33 unità) e trasporta solo il 4% del peso cumulativo del modello.,

In base a questo confronto, sceglieremmo il modello di combinazione da utilizzare nella nostra analisi dei dati.

Segnalazione dei risultati

Se si utilizza la selezione del modello AIC nella ricerca, è possibile indicare questo nella sezione metodi. Segnala che hai utilizzato la selezione del modello AIC, spiega brevemente il modello più adatto trovato e indica il peso AIC del modello.,

Metodi di esempio
Abbiamo utilizzato la selezione del modello AIC per distinguere tra una serie di possibili modelli che descrivono la relazione tra età, sesso, consumo di bevande zuccherate e indice di massa corporea. Il modello best-fit, che trasportava il 97% del peso cumulativo del modello, includeva tutti i parametri senza effetti di interazione.

Dopo aver trovato il modello più adatto puoi andare avanti ed eseguire il modello e valutare i risultati. L’output della valutazione del modello può essere riportato nella sezione risultati del documento.,

Domande frequenti su AIC

Qual è il criterio di informazione Akaike?

Il criterio di informazione Akaike è un test matematico utilizzato per valutare quanto bene un modello si adatta ai dati che si intende descrivere. Penalizza i modelli che utilizzano più variabili indipendenti (parametri) come un modo per evitare il montaggio eccessivo.

AIC è più spesso utilizzato per confrontare la relativa bontà di adattamento tra i diversi modelli in esame e quindi scegliere il modello che meglio si adatta ai dati.

Che cos’è un modello?,

In statistica, un modello è la raccolta di una o più variabili indipendenti e le loro interazioni previste che i ricercatori usano per cercare di spiegare la variazione nella loro variabile dipendente.

È possibile testare un modello utilizzando un test statistico. Per confrontare quanto bene i diversi modelli si adattano ai dati, è possibile utilizzare il criterio di informazione di Akaike per la selezione del modello.

Cosa si intende per selezione del modello?,

In statistica, la selezione del modello è un processo che i ricercatori utilizzano per confrontare il valore relativo di diversi modelli statistici e determinare quale è la soluzione migliore per i dati osservati.

Il criterio di informazione Akaike è uno dei metodi più comuni di selezione del modello. AIC pondera la capacità del modello di prevedere i dati osservati rispetto al numero di parametri che il modello richiede per raggiungere quel livello di precisione.

La selezione del modello AIC può aiutare i ricercatori a trovare un modello che spieghi la variazione osservata nei loro dati evitando l’overfitting.,

Come viene calcolato AIC?

Il criterio di informazione Akaike viene calcolato in base alla massima probabilità di log del modello e al numero di parametri (K) utilizzati per raggiungere tale probabilità. La funzione AIC è 2K-2 (log-verosimiglianza).

Valori AIC inferiori indicano un modello più adatto e un modello con un delta-AIC (la differenza tra i due valori AIC confrontati) superiore a -2 è considerato significativamente migliore del modello a cui viene confrontato.

Articles

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *