Et utrolig nyttig verktøy for å vurdere og sammenligne prediktive modeller er ROC-kurven.

navnet er faktisk rart. ROC står for Receiver Operating Characteristic. Dens opprinnelse er fra ekkolodd tilbake i 1940; ROCs ble brukt til å måle hvor godt en ekkolodd-signal (for eksempel, fra en fiendtlig ubåt) kunne påvises fra støy (en skole av fisk).

I sin nåværende bruk, ROC-kurver er en fin måte å se hvordan noen prediktiv modell kan skille mellom sanne positiver og negativer.,

for å gjøre dette, en modell må ikke bare tippe et positivt som et positivt, men også negativt som en negativ.

ROC-kurven gjør dette ved å plotte følsomhet, sannsynligheten for å forutsi en ekte positive vil være en positiv, mot 1-spesifisitet, sannsynligheten for å forutsi virkelige negative vil være en positiv. (En tidligere artikkel dekket informasjon om sensitivitet og spesifisitet, i tilfelle du trenger en gjennomgang om hva de betyr og hvorfor det er viktig å vite hvor nøyaktig modell er å forutsi positive og negative separat.,)

Den beste beslutningen regel er på høy følsomhet og lav på 1-spesifisitet. Det er en regel som spår mest sanne positive vil være en positiv og få ekte negativer vil være en positiv.

Avgjørelse regler og modeller

jeg har snakket om vedtak regler, men hva om modeller?

saken er, prediktive modeller som logistisk regresjon gir deg ikke en beslutning regelen. De gir et anslått sannsynlighet for en positiv for den enkelte basert på verdien av den enkeltes prediktor verdier.,

Din programvare kan skrive ut en klassifisering tabell basert på en standard sannsynlighet cutoff (vanligvis .5). Men egentlig er det opp til deg å bestemme hva sannsynligheten grenseverdien bør være å klassifisere en person som «spådd positive.»

standard er ikke alltid den beste beslutningen regelen. Sjansen er bare .5 om positive og negative utfall er like sannsynlige.

De vanligvis ikke.

på samme måte, noen ganger kostnaden av feilklassifikasjon er forskjellig for positive og negative sider, slik at du er villig til å øke en type feilklassifikasjon for å unngå den andre.,

Og den optimale cutoff point er ikke alltid åpenbare.

Ulike modeller kan gjøre det bedre på annen avgjørelse regler. Det er vanskelig å sammenligne modeller som gjør det bedre eller verre enn hverandre hvis man yter bedre på en avgjørelse regelen og den andre gjør det bedre i en annen.

skriv Inn ROC-kurven.

ROC-kurve tomter ut sensitivitet og spesifisitet for hver avgjørelse regel grenseverdien mellom 0 og 1 for en modell.

Denne tomten forteller deg et par forskjellige ting.,

En modell som forutsier på sjanse vil ha en ROC-kurve som ser ut som den diagonale grønn linje. Det er ikke en diskriminerende modell.

videre kurven er fra diagonal linje, jo bedre modell er på diskriminering mellom positive og negative generelt.

Det er nyttig statistikk som kan beregnes fra denne kurven, som Arealet Under Kurven (AUU) og Youden-Indeksen. Disse forteller deg hvor godt modellen forutsier og optimal cut point for en gitt modell (under bestemte omstendigheter).,

Selv om ROCs er ofte brukt for å vurdere og tolke logistiske regresjonsmodeller, de er ikke begrenset til logistisk regresjon. En vanlig bruk i medisinske studier er å kjøre en ROC for å se hvor mye bedre en enkel kontinuerlig prediktor (en «biomarkør») kan forutsi sykdom status i forhold til tilfeldighetene.,

Forstå Sannsynlighet, Odds og Odds Ratio i Logistisk Regresjon
til Tross for hvordan begrepene brukes i vanlig engelsk, odds og sannsynlighet, er ikke utskiftbare. Bli med oss for å se hvordan de er forskjellige, hva hver og en betyr, og hvordan du kan temme som vanskelig dyret: Odds Ratio.

Articles

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *