Akaike Informationskriterium / Wann & Wie man es benutzt

Das Akaike Informationskriterium (AIC) ist eine mathematische Methode zur Bewertung, wie gut ein Modell zu den Daten passt, aus denen es generiert wurde. In der Statistik wird AIC verwendet, um verschiedene mögliche Modelle zu vergleichen und festzustellen, welches für die Daten am besten geeignet ist. AIC wird berechnet aus:

die Anzahl der unabhängigen Variablen, die zum Erstellen des Modells verwendet werden.
die Schätzung der maximalen Wahrscheinlichkeit des Modells (wie gut das Modell die Daten reproduziert).,

Das am besten geeignete Modell nach AIC erklärt die größte Variation mit möglichst wenigen unabhängigen Variablen.

Beispiel

Sie möchten wissen, ob das Trinken von zuckersüßen Getränken das Körpergewicht beeinflusst. Sie haben sekundäre Daten aus einer nationalen Gesundheitsumfrage gesammelt, die Beobachtungen zu zuckergesüßtem Getränkekonsum, Alter, Geschlecht und BMI (Body Mass Index) enthält.,

Um herauszufinden, welche dieser Variablen für die Vorhersage der Beziehung zwischen zuckergesüßtem Getränkekonsum und Körpergewicht wichtig sind, erstellen Sie mehrere mögliche Modelle und vergleichen sie mit AIC.

Wenn Sie AIC

In der Statistik verwenden, wird AIC am häufigsten für die Modellauswahl verwendet. Durch Berechnen und Vergleichen der AIC-Werte mehrerer möglicher Modelle können Sie diejenige auswählen, die für die Daten am besten geeignet ist.,

Wenn Sie eine Hypothese testen, sammeln Sie möglicherweise Daten zu Variablen, über die Sie sich nicht sicher sind, insbesondere wenn Sie eine neue Idee untersuchen. Sie möchten wissen, welche der unabhängigen Variablen Sie gemessen haben, um die Variation in Ihrer abhängigen Variablen zu erklären.

Eine gute Möglichkeit, dies herauszufinden, besteht darin, eine Reihe von Modellen zu erstellen, die jeweils eine andere Kombination der von Ihnen gemessenen unabhängigen Variablen enthalten., Diese Kombinationen sollten basieren auf:

Ihr Wissen über das Studiensystem-vermeiden Sie die Verwendung von Parametern, die nicht logisch verbunden sind, da Sie falsche Korrelationen zwischen fast allem finden können!
Ihr experimentelles Design – wenn Sie beispielsweise zwei Behandlungen unter Testpersonen aufgeteilt haben, gibt es wahrscheinlich keinen Grund, auf eine Interaktion zwischen den beiden Behandlungen zu testen.

Sobald Sie mehrere mögliche Modelle erstellt haben, können Sie sie mit AIC vergleichen. Niedrigere AIC-Werte sind besser und AIC bestraft Modelle, die mehr Parameter verwenden., Wenn also zwei Modelle die gleiche Variation erklären, hat das Modell mit weniger Parametern einen niedrigeren AIC-Wert und ist das besser passende Modell.

Modellauswahlbeispiel

In einer Studie darüber, wie sich stundenlanges Lernen und Testformat (Multiple Choice vs. schriftliche Antworten) auf Testergebnisse auswirken, erstellen Sie zwei Modelle:

Endgültiges Testergebnis als Antwort auf stundenlanges Lernen
Endgültiges Testergebnis als Antwort auf stundenlanges Lernen + Testformat

Sie finden einen r2 von 0,45 mit einem p-Wert von weniger als 0,05 für Modell 1, und ein r2 von 0.,46 mit einem p-Wert kleiner als 0,05 für Modell 2. Modell 2 passt etwas besser zu den Daten – aber hat es sich gelohnt, einen weiteren Parameter hinzuzufügen, nur um diese kleine Erhöhung der Modellanpassung zu erhalten?

Sie führen einen AIC-Test durch, um dies herauszufinden, der zeigt, dass Modell 1 den niedrigeren AIC-Wert hat, da es weniger Informationen benötigt, um mit fast genau der gleichen Genauigkeit vorherzusagen. Eine andere Möglichkeit, dies zu denken, ist, dass die erhöhte Präzision in Modell 2 zufällig hätte passieren können.

Aus dem AIC-Test entscheiden Sie, dass Modell 1 das beste Modell für Ihre Studie ist.,

Vergleichen von Modellen mit AIC

AIC bestimmt den relativen Informationswert des Modells anhand der Schätzung der maximalen Wahrscheinlichkeit und der Anzahl der Parameter (unabhängige Variablen) im Modell. Die Formel für AIC lautet:

K ist die Anzahl der verwendeten unabhängigen Variablen und L ist die Log-Likelihood-Schätzung (auch bekannt als die Wahrscheinlichkeit, dass das Modell Ihre beobachteten y-Werte erzeugt haben könnte)., Wenn Ihr Modell also eine unabhängige Variable verwendet, ist Ihr K 3, wenn es zwei unabhängige Variablen verwendet, ist Ihr K 4 und so weiter.

Um Modelle mit AIC zu vergleichen, müssen Sie die AIC jedes Modells berechnen. Wenn ein Modell mehr als 2 AIC-Einheiten niedriger als ein anderes ist, wird es als deutlich besser angesehen als dieses Modell.

Sie können AIC ganz einfach von Hand berechnen, wenn Sie die Log-Likelihood Ihres Modells haben, aber die Berechnung der Log-likelihood ist kompliziert! Die meisten statistischen Software wird eine Funktion zur Berechnung AIC enthalten., Wir werden R verwenden, um unsere AIC-Analyse auszuführen.

Was ist Ihre Plagiat-score?

Vergleichen Sie Ihr Papier mit über 60 Milliarden web-Seiten und 30 Millionen Veröffentlichungen.,

Bester Plagiatsprüfer des Jahres 2020
Plagiatsbericht & Prozentsatz
Größte Plagiatdatenbank

Scribbr Plagiatsprüfer

AIC in R

Um mehrere Modelle zu vergleichen, können Sie zuerst den vollständigen Satz von Modellen erstellen, die Sie vergleichen möchten, und dann aictab() am Set ausführen.,

Für die zuckersüßen Getränkedaten erstellen wir eine Reihe von Modellen, die die drei Prädiktorvariablen (Alter, Geschlecht und Getränkekonsum) in verschiedenen Kombinationen enthalten. Laden Sie den Datensatz herunter und führen Sie die Codezeilen in R aus, um ihn selbst auszuprobieren.

Laden Sie den Beispieldatensatz herunter

Erstellen Sie die Modelle

Zuerst können wir testen, wie jede Variable separat funktioniert.,

age.mod <- lm(bmi ~ age, data = bmi.data)sex.mod <- lm(bmi ~ sex, data = bmi.data)consumption.mod <- lm(bmi ~ consumption, data = bmi.data)

Als nächstes möchten wir wissen, ob die Kombination von Alter und Geschlecht Variationen des BMI besser beschreiben kann, ohne den Getränkekonsum einzubeziehen.

age.sex.mod <- lm(bmi ~ age + sex, data = bmi.data)

Wir möchten auch wissen, ob die Kombination von Alter, Geschlecht und Getränkekonsum die Variation des BMI besser beschreibt als jedes der vorherigen Modelle.,

combination.mod <- lm(bmi ~ age + sex + consumption, data = bmi.data)

Schließlich können wir überprüfen, ob das Zusammenspiel von Alter, Geschlecht und Getränkekonsum den BMI besser erklären kann als jedes der vorherigen Modelle.

interaction.mod <- lm(bmi ~ age*sex*consumption, data = bmi.data)

Vergleichen Sie die Modelle

Um diese Modelle zu vergleichen und herauszufinden, welches für die Daten am besten geeignet ist, können Sie sie in einer Liste zusammenstellen und mit dem Befehl aictab() alle auf einmal vergleichen. Um aictab () zu verwenden, laden Sie zuerst die Bibliothek AICcmodavg.,

install.packages("AICcmodavg")library(AICcmodavg)

Legen Sie dann die Modelle in eine Liste (‚Modelle‘) und benennen Sie sie, damit die AIC-Tabelle leichter zu lesen ist (‚Modell.Feldnamen’).

Führen Sie abschließend aictab() aus, um den Vergleich durchzuführen.

aictab(cand.set = models, modnames = model.names)

Interpretation der Ergebnisse

Der obige Code erzeugt die folgende Ausgabetabelle:

Das am besten geeignete Modell wird immer zuerst aufgeführt., Die Modellauswahltabelle enthält Informationen zu:

K: Die Anzahl der Parameter im Modell. Das Standard-K ist 2, daher hat ein Modell mit einem Parameter ein K von 2 + 1 = 3.
AICc: Der Informationswert des Modells (der Kleinbuchstabe ‚ c ‚ zeigt an, dass der Wert aus dem AIC-Test berechnet wurde, der für kleine Stichprobengrößen korrigiert wurde). Je kleiner der AIC-Wert,desto besser passt das Modell.
Delta_AICc: der Unterschied in Der AIC-score zwischen das beste Modell und das Modell im Vergleich. In dieser Tabelle hat das nächstbeste Modell einen Delta-AIC von 6.,69 im Vergleich zum Topmodell und das drittbeste Modell hat einen Delta-AIC von 15.96 im Vergleich zum Topmodell.
AICcWt: AICc-Gewicht, das der Anteil der Gesamtmenge an Vorhersageleistung ist, die durch den vollständigen Satz von Modellen bereitgestellt wird, die in dem zu bewertenden Modell enthalten sind. In diesem Fall enthält das Topmodell 97% der gesamten Erklärung, die im gesamten Modellsatz enthalten ist.
Cum.Wt: Die Summe der AICc-GEWICHTE. Hier enthalten die beiden Top-Modelle 100% des kumulierten AICc-Gewichts.
LL: Log-likelihood., Dies ist der Wert, der beschreibt, wie wahrscheinlich das Modell angesichts der Daten ist. Der AIC-Score wird aus LL und K berechnet

Aus dieser Tabelle können wir sehen, dass das beste Modell das Kombinationsmodell ist – das Modell, das jeden Parameter enthält, aber keine Wechselwirkungen (bmi ~ Alter + Geschlecht + Verbrauch).

Das Modell ist viel besser als alle anderen, da es 96% des kumulierten Modellgewichts trägt und den niedrigsten AIC-Wert aufweist. Das nächstbeste Modell ist mehr als 2 AIC-Einheiten höher als das beste Modell (6.33-Einheiten) und trägt nur 4% des kumulierten Modellgewichts.,

Basierend auf diesem Vergleich würden wir das Kombinationsmodell auswählen, das in unserer Datenanalyse verwendet werden soll.

Ergebnisse melden

Wenn Sie in Ihrer Forschung AIC-Modellauswahl verwenden, können Sie dies im Abschnitt Methoden angeben. Berichten Sie, dass Sie die AIC-Modellauswahl verwendet haben, erläutern Sie kurz das Modell mit der besten Passform, das Sie gefunden haben, und geben Sie das AIC-Gewicht des Modells an.,

Beispielmethoden

Wir haben AIC-Modellauswahl verwendet, um zwischen einer Reihe möglicher Modelle zu unterscheiden, die die Beziehung zwischen Alter, Geschlecht, gesüßtem Getränkekonsum und Body-Mass-Index beschreiben. Das Best-Fit-Modell, das 97% des kumulativen Modellgewichts trägt, enthielt jeden Parameter ohne Interaktionseffekte.

Nachdem Sie das am besten geeignete Modell gefunden haben, können Sie das Modell ausführen und die Ergebnisse auswerten. Die Ausgabe Ihrer Modellbewertung kann im Ergebnisteil Ihres Papiers gemeldet werden.,

Häufig gestellte Fragen zu AIC

Was ist das Akaike Informationskriterium?

Das Akaike Informationskriterium ist ein mathematischer Test, mit dem bewertet wird, wie gut ein Modell zu den Daten passt, die es beschreiben soll. Es bestraft Modelle, die unabhängigere Variablen (Parameter) verwenden, um eine Überanpassung zu vermeiden.

AIC wird am häufigsten verwendet, um die relative Passgenauigkeit zwischen verschiedenen betrachteten Modellen zu vergleichen und dann das Modell auszuwählen, das am besten zu den Daten passt.

Was ist ein Modell?,

In der Statistik, ein Modell ist die Sammlung von einer oder mehreren unabhängigen Variablen und Ihren vorhergesagten Wechselwirkungen, die die Forscher versuchen zu erklären, die variation in Ihre abhängige variable.

Sie können ein Modell mit einem statistischen Test testen. Um zu vergleichen, wie gut verschiedene Modelle zu Ihren Daten passen, können Sie das Informationskriterium von Akaike für die Modellauswahl verwenden.

Was ist mit Modellauswahl gemeint?,

In der Statistik ist die Modellauswahl ein Prozess, mit dem Forscher den relativen Wert verschiedener statistischer Modelle vergleichen und bestimmen, welches für die beobachteten Daten am besten geeignet ist.

Das Akaike Informationskriterium ist eine der häufigsten Methoden der Modellauswahl. AIC gewichtet die Fähigkeit des Modells, die beobachteten Daten anhand der Anzahl der Parameter vorherzusagen, die das Modell benötigt, um diese Genauigkeit zu erreichen.

Die AIC-Modellauswahl kann Forschern helfen, ein Modell zu finden, das die beobachtete Variation ihrer Daten erklärt und gleichzeitig eine Überanpassung vermeidet.,

Wie wird AIC berechnet?

Das Akaike-Informationskriterium wird aus der maximalen Protokollwahrscheinlichkeit des Modells und der Anzahl der Parameter (K) berechnet, die zum Erreichen dieser Wahrscheinlichkeit verwendet werden. Die AIC-Funktion ist 2K – 2(log-likelihood).

Niedrigere AIC-Werte zeigen ein besser passendes Modell an, und ein Modell mit einem Delta-AIC (der Unterschied zwischen den beiden zu vergleichenden AIC-Werten) von mehr als -2 wird als signifikant besser angesehen als das Modell, mit dem es verglichen wird.

Eine Einführung in das Akaike Informationskriterium