neuvěřitelně užitečným nástrojem při vyhodnocování a porovnávání prediktivních modelů je křivka ROC.
jeho jméno je opravdu podivné. ROC znamená Provozní charakteristiku přijímače. Jeho původ je od sonaru v roce 1940; ROCs byly použity k měření, jak dobře sonarový signál (např. z nepřátelské ponorky) by mohly být detekovány z hluku (hejno ryb).
při současném použití jsou křivky ROC příjemným způsobem, jak zjistit, jak může jakýkoli prediktivní model rozlišovat mezi skutečnými pozitivy a negativy.,
aby to bylo možné, musí model nejen správně předpovědět pozitivní jako pozitivní, ale také negativní jako negativní.
ROC curve se to vynesením citlivosti, pravděpodobnosti předpovídat skutečný pozitivní, bude pozitivní, proti 1-specificita, pravděpodobnosti předpovídat skutečný negativní, bude pozitivní. (Předchozí článek se vztahuje specifika citlivosti a specifičnosti, v případě, že potřebujete přehled o tom, co znamenají a proč je důležité vědět, jak přesně model předpovídá klady a zápory samostatně.,)
nejlepším rozhodovacím pravidlem je vysoká citlivost a nízká 1-specificita. Je to pravidlo, které předpovídá, že většina skutečných pozitiv bude pozitivní a několik skutečných negativů bude pozitivní.
rozhodovací pravidla a modely
mluvil jsem o rozhodovacích pravidlech, ale co modely?
jde o to, prediktivní modely, jako je logistická regrese, vám nedávají jedno rozhodovací pravidlo. Poskytují předpokládanou pravděpodobnost pozitivního pro každého jednotlivce na základě hodnot prediktorových hodnot tohoto jednotlivce.,
váš software může vytisknout klasifikační tabulku na základě výchozího přerušení pravděpodobnosti (obvykle .5). Ale opravdu je jen na vás, abyste se rozhodli, jaká by měla být pravděpodobnost, že klasifikujete jednotlivce jako „předpovídaný pozitivní“.“
výchozí nastavení není vždy nejlepším rozhodovacím pravidlem. Šance je jen .5 pokud jsou stejně pravděpodobné pozitivní a negativní výsledky.
obvykle nejsou.
Podobně, někdy náklady na chybnou klasifikaci je různá pro klady a zápory, tak jste ochotni zvýšit jeden typ chybnou klasifikaci v pořadí, aby se zabránilo další.,
a optimální mezní bod není vždy zřejmý.
různé modely mohou dělat lépe v různých rozhodovacích pravidlech. Je těžké porovnávat modely jako lepší nebo horší než navzájem, pokud jeden vystupuje lépe v jednom rozhodovacím pravidle a druhý dělá lépe v jiném.
zadejte křivku ROC.
ROC křivka vykresluje citlivost a specificita pro každé možné rozhodnutí pravidlo cutoff mezi 0 a 1 pro model.
Tento graf vám řekne několik různých věcí.,
model, který předpovídá náhodou, bude mít křivku ROC, která vypadá jako diagonální zelená čára. To není diskriminační model.
čím dále je křivka od diagonální linie, tím lépe je model diskriminován mezi pozitivy a negativy obecně.
existují užitečné statistiky, které lze vypočítat z této křivky, jako je oblast pod křivkou (AUC) a index Youden. Ty vám řeknou, jak dobře model předpovídá a optimální bod řezu pro daný model (za určitých okolností).,
ačkoli ROCs jsou často používány pro hodnocení a interpretaci logistických regresních modelů, nejsou omezeny na logistickou regresi. Na běžné použití v lékařských studiích je spustit ROC vidět, jak moc lepší, jediný kontinuální prediktor („biomarker“) lze předpovědět stav choroby ve srovnání náhodě.,