uma ferramenta incrivelmente útil para avaliar e comparar modelos preditivos é a curva ROC.
Seu nome é realmente estranho. ROC significa característica operacional do receptor. Sua origem é de sonar na década de 1940; ROCs foram usados para medir o quão bem um sinal sonar (por exemplo, de um submarino inimigo) poderia ser detectado a partir de ruído (uma escola de peixes).
em seu uso atual, curvas ROC são uma boa maneira de ver como qualquer modelo preditivo pode distinguir entre os verdadeiros positivos e negativos.,
A fim de fazer isso, um modelo precisa não só prever corretamente um positivo como um positivo, mas também um negativo como um negativo.
a curva ROC faz isso por plotar a sensibilidade, a probabilidade de prever um positivo real será um positivo, contra 1-especificidade, a probabilidade de prever um negativo real será um positivo. (Um artigo anterior cobriu as especificidades de sensibilidade e especificidade, no caso de você precisar de uma revisão sobre o que eles significam–e por que é importante saber com precisão o modelo está prevendo positivos e negativos separadamente.,)
A melhor regra de decisão é alta em sensibilidade e baixa em 1-especificidade. É uma regra que prevê que os positivos mais verdadeiros serão positivos e poucos negativos verdadeiros serão positivos.
regras e modelos de decisão
estive falando sobre regras de decisão, mas e modelos?
a coisa é, modelos preditivos como regressão logística não lhe dão uma regra de decisão. Eles dão uma probabilidade prevista de um positivo para cada indivíduo com base nos valores de predictor desse indivíduo.,
seu software pode imprimir uma tabela de classificação baseada em um corte de probabilidade padrão (geralmente .5). Mas, na verdade, cabe a você decidir qual deve ser o corte de probabilidade para classificar um indivíduo como “positivo previsto”.”
O padrão nem sempre é a melhor regra de decisão. Só por acaso .5 se forem igualmente prováveis resultados positivos e negativos.
eles geralmente não são.
da mesma forma, às vezes o custo da desclassificação é diferente para positivos e negativos, então você está disposto a aumentar um tipo de desclassificação, a fim de evitar o outro.,
E o ponto de corte ideal nem sempre é óbvio.os diferentes modelos podem ser melhores em diferentes regras de decisão. É difícil comparar modelos como fazendo melhor ou pior do que um ao outro se um executa melhor em uma regra de decisão e o outro faz melhor em outra.
introduza a curva ROC.
a curva ROC traça a sensibilidade e especificidade para cada corte de regra de decisão possível entre 0 e 1 para um modelo.
Esta parcela diz-lhe algumas coisas diferentes.,
um modelo que prevê ao acaso terá uma curva ROC que se parece com a linha verde diagonal. Não se trata de um modelo discriminatório.
Quanto mais a curva for a partir da linha diagonal, melhor o modelo está em discriminar entre positivos e negativos em geral.
existem estatísticas úteis que podem ser calculadas a partir desta curva, como a área sob a curva (AUC) e o índice Youden. Estes dizem – lhe como o modelo prevê bem e o ponto de corte ideal para qualquer modelo dado (em circunstâncias específicas).,
embora ROCs sejam frequentemente usados para avaliar e interpretar modelos de regressão logística, eles não se limitam à regressão logística. Um uso comum em estudos médicos é executar um ROC para ver quão melhor um único preditor contínuo (um “biomarcador”) pode prever o estado da doença em comparação com o acaso.,