Das Akaike Informationskriterium (AIC) ist eine mathematische Methode zur Bewertung, wie gut ein Modell zu den Daten passt, aus denen es generiert wurde. In der Statistik wird AIC verwendet, um verschiedene mögliche Modelle zu vergleichen und festzustellen, welches für die Daten am besten geeignet ist. AIC wird berechnet aus:
- die Anzahl der unabhängigen Variablen, die zum Erstellen des Modells verwendet werden.
- die Schätzung der maximalen Wahrscheinlichkeit des Modells (wie gut das Modell die Daten reproduziert).,
Das am besten geeignete Modell nach AIC erklärt die größte Variation mit möglichst wenigen unabhängigen Variablen.
Wenn Sie AIC
In der Statistik verwenden, wird AIC am häufigsten für die Modellauswahl verwendet. Durch Berechnen und Vergleichen der AIC-Werte mehrerer möglicher Modelle können Sie diejenige auswählen, die für die Daten am besten geeignet ist.,
Wenn Sie eine Hypothese testen, sammeln Sie möglicherweise Daten zu Variablen, über die Sie sich nicht sicher sind, insbesondere wenn Sie eine neue Idee untersuchen. Sie möchten wissen, welche der unabhängigen Variablen Sie gemessen haben, um die Variation in Ihrer abhängigen Variablen zu erklären.
Eine gute Möglichkeit, dies herauszufinden, besteht darin, eine Reihe von Modellen zu erstellen, die jeweils eine andere Kombination der von Ihnen gemessenen unabhängigen Variablen enthalten., Diese Kombinationen sollten basieren auf:
- Ihr Wissen über das Studiensystem-vermeiden Sie die Verwendung von Parametern, die nicht logisch verbunden sind, da Sie falsche Korrelationen zwischen fast allem finden können!
- Ihr experimentelles Design – wenn Sie beispielsweise zwei Behandlungen unter Testpersonen aufgeteilt haben, gibt es wahrscheinlich keinen Grund, auf eine Interaktion zwischen den beiden Behandlungen zu testen.
Sobald Sie mehrere mögliche Modelle erstellt haben, können Sie sie mit AIC vergleichen. Niedrigere AIC-Werte sind besser und AIC bestraft Modelle, die mehr Parameter verwenden., Wenn also zwei Modelle die gleiche Variation erklären, hat das Modell mit weniger Parametern einen niedrigeren AIC-Wert und ist das besser passende Modell.
Vergleichen von Modellen mit AIC
AIC bestimmt den relativen Informationswert des Modells anhand der Schätzung der maximalen Wahrscheinlichkeit und der Anzahl der Parameter (unabhängige Variablen) im Modell. Die Formel für AIC lautet:
K ist die Anzahl der verwendeten unabhängigen Variablen und L ist die Log-Likelihood-Schätzung (auch bekannt als die Wahrscheinlichkeit, dass das Modell Ihre beobachteten y-Werte erzeugt haben könnte)., Wenn Ihr Modell also eine unabhängige Variable verwendet, ist Ihr K 3, wenn es zwei unabhängige Variablen verwendet, ist Ihr K 4 und so weiter.
Um Modelle mit AIC zu vergleichen, müssen Sie die AIC jedes Modells berechnen. Wenn ein Modell mehr als 2 AIC-Einheiten niedriger als ein anderes ist, wird es als deutlich besser angesehen als dieses Modell.
Sie können AIC ganz einfach von Hand berechnen, wenn Sie die Log-Likelihood Ihres Modells haben, aber die Berechnung der Log-likelihood ist kompliziert! Die meisten statistischen Software wird eine Funktion zur Berechnung AIC enthalten., Wir werden R verwenden, um unsere AIC-Analyse auszuführen.
AIC in R
Um mehrere Modelle zu vergleichen, können Sie zuerst den vollständigen Satz von Modellen erstellen, die Sie vergleichen möchten, und dann aictab()
am Set ausführen.,
Für die zuckersüßen Getränkedaten erstellen wir eine Reihe von Modellen, die die drei Prädiktorvariablen (Alter, Geschlecht und Getränkekonsum) in verschiedenen Kombinationen enthalten. Laden Sie den Datensatz herunter und führen Sie die Codezeilen in R aus, um ihn selbst auszuprobieren.
Laden Sie den Beispieldatensatz herunter
Erstellen Sie die Modelle
Zuerst können wir testen, wie jede Variable separat funktioniert.,
Als nächstes möchten wir wissen, ob die Kombination von Alter und Geschlecht Variationen des BMI besser beschreiben kann, ohne den Getränkekonsum einzubeziehen.
Wir möchten auch wissen, ob die Kombination von Alter, Geschlecht und Getränkekonsum die Variation des BMI besser beschreibt als jedes der vorherigen Modelle.,
Schließlich können wir überprüfen, ob das Zusammenspiel von Alter, Geschlecht und Getränkekonsum den BMI besser erklären kann als jedes der vorherigen Modelle.
Vergleichen Sie die Modelle
Um diese Modelle zu vergleichen und herauszufinden, welches für die Daten am besten geeignet ist, können Sie sie in einer Liste zusammenstellen und mit dem Befehl aictab() alle auf einmal vergleichen. Um aictab () zu verwenden, laden Sie zuerst die Bibliothek AICcmodavg.,
Legen Sie dann die Modelle in eine Liste (‚Modelle‘) und benennen Sie sie, damit die AIC-Tabelle leichter zu lesen ist (‚Modell.Feldnamen’).
Führen Sie abschließend aictab()
aus, um den Vergleich durchzuführen.
Interpretation der Ergebnisse
Der obige Code erzeugt die folgende Ausgabetabelle:
Das am besten geeignete Modell wird immer zuerst aufgeführt., Die Modellauswahltabelle enthält Informationen zu:
- K: Die Anzahl der Parameter im Modell. Das Standard-K ist 2, daher hat ein Modell mit einem Parameter ein K von 2 + 1 = 3.
- AICc: Der Informationswert des Modells (der Kleinbuchstabe ‚ c ‚ zeigt an, dass der Wert aus dem AIC-Test berechnet wurde, der für kleine Stichprobengrößen korrigiert wurde). Je kleiner der AIC-Wert,desto besser passt das Modell.
- Delta_AICc: der Unterschied in Der AIC-score zwischen das beste Modell und das Modell im Vergleich. In dieser Tabelle hat das nächstbeste Modell einen Delta-AIC von 6.,69 im Vergleich zum Topmodell und das drittbeste Modell hat einen Delta-AIC von 15.96 im Vergleich zum Topmodell.
- AICcWt: AICc-Gewicht, das der Anteil der Gesamtmenge an Vorhersageleistung ist, die durch den vollständigen Satz von Modellen bereitgestellt wird, die in dem zu bewertenden Modell enthalten sind. In diesem Fall enthält das Topmodell 97% der gesamten Erklärung, die im gesamten Modellsatz enthalten ist.
- Cum.Wt: Die Summe der AICc-GEWICHTE. Hier enthalten die beiden Top-Modelle 100% des kumulierten AICc-Gewichts.
- LL: Log-likelihood., Dies ist der Wert, der beschreibt, wie wahrscheinlich das Modell angesichts der Daten ist. Der AIC-Score wird aus LL und K berechnet
Aus dieser Tabelle können wir sehen, dass das beste Modell das Kombinationsmodell ist – das Modell, das jeden Parameter enthält, aber keine Wechselwirkungen (bmi ~ Alter + Geschlecht + Verbrauch).
Das Modell ist viel besser als alle anderen, da es 96% des kumulierten Modellgewichts trägt und den niedrigsten AIC-Wert aufweist. Das nächstbeste Modell ist mehr als 2 AIC-Einheiten höher als das beste Modell (6.33-Einheiten) und trägt nur 4% des kumulierten Modellgewichts.,
Basierend auf diesem Vergleich würden wir das Kombinationsmodell auswählen, das in unserer Datenanalyse verwendet werden soll.
Ergebnisse melden
Wenn Sie in Ihrer Forschung AIC-Modellauswahl verwenden, können Sie dies im Abschnitt Methoden angeben. Berichten Sie, dass Sie die AIC-Modellauswahl verwendet haben, erläutern Sie kurz das Modell mit der besten Passform, das Sie gefunden haben, und geben Sie das AIC-Gewicht des Modells an.,
Nachdem Sie das am besten geeignete Modell gefunden haben, können Sie das Modell ausführen und die Ergebnisse auswerten. Die Ausgabe Ihrer Modellbewertung kann im Ergebnisteil Ihres Papiers gemeldet werden.,
Häufig gestellte Fragen zu AIC
Das Akaike Informationskriterium ist ein mathematischer Test, mit dem bewertet wird, wie gut ein Modell zu den Daten passt, die es beschreiben soll. Es bestraft Modelle, die unabhängigere Variablen (Parameter) verwenden, um eine Überanpassung zu vermeiden.
AIC wird am häufigsten verwendet, um die relative Passgenauigkeit zwischen verschiedenen betrachteten Modellen zu vergleichen und dann das Modell auszuwählen, das am besten zu den Daten passt.
In der Statistik, ein Modell ist die Sammlung von einer oder mehreren unabhängigen Variablen und Ihren vorhergesagten Wechselwirkungen, die die Forscher versuchen zu erklären, die variation in Ihre abhängige variable.
Sie können ein Modell mit einem statistischen Test testen. Um zu vergleichen, wie gut verschiedene Modelle zu Ihren Daten passen, können Sie das Informationskriterium von Akaike für die Modellauswahl verwenden.
In der Statistik ist die Modellauswahl ein Prozess, mit dem Forscher den relativen Wert verschiedener statistischer Modelle vergleichen und bestimmen, welches für die beobachteten Daten am besten geeignet ist.
Das Akaike Informationskriterium ist eine der häufigsten Methoden der Modellauswahl. AIC gewichtet die Fähigkeit des Modells, die beobachteten Daten anhand der Anzahl der Parameter vorherzusagen, die das Modell benötigt, um diese Genauigkeit zu erreichen.
Die AIC-Modellauswahl kann Forschern helfen, ein Modell zu finden, das die beobachtete Variation ihrer Daten erklärt und gleichzeitig eine Überanpassung vermeidet.,
Das Akaike-Informationskriterium wird aus der maximalen Protokollwahrscheinlichkeit des Modells und der Anzahl der Parameter (K) berechnet, die zum Erreichen dieser Wahrscheinlichkeit verwendet werden. Die AIC-Funktion ist 2K – 2(log-likelihood).
Niedrigere AIC-Werte zeigen ein besser passendes Modell an, und ein Modell mit einem Delta-AIC (der Unterschied zwischen den beiden zu vergleichenden AIC-Werten) von mehr als -2 wird als signifikant besser angesehen als das Modell, mit dem es verglichen wird.