la courbe ROC est un outil incroyablement utile pour évaluer et comparer des modèles prédictifs.
Son nom est en effet étrange. ROC signifie caractéristique de fonctionnement du récepteur. Son origine provient du sonar dans les années 1940; Les Roc ont été utilisés pour mesurer dans quelle mesure un signal de sonar (par exemple, d’un sous-marin ennemi) pouvait être détecté à partir du bruit (un banc de poissons).
dans son utilisation actuelle, les courbes ROC sont un bon moyen de voir comment tout modèle prédictif peut distinguer les vrais positifs et les négatifs.,
pour ce faire, un modèle de besoins non seulement de prédire correctement positif positif, mais aussi négatif que négatif.
La courbe ROC fait en traçant la sensibilité, la probabilité de prédire un réel positif positif, contre 1-spécificité, la probabilité de prédire un réel négatif positif. (Un article précédent couvrait les spécificités de la sensibilité et de la spécificité, au cas où vous auriez besoin d’un examen sur ce qu’elles signifient–et pourquoi il est important de savoir avec quelle précision le modèle prédit les positifs et les négatifs séparément.,)
La meilleure règle de décision est la grande sensibilité et faible sur 1-spécificité. C’est une règle qui prédit la plupart des vrais positifs est positif et quelques vrais négatifs est positif.
règles et modèles de décision
j’ai parlé de règles de décision, mais qu’en est-il des modèles?
le fait est que les modèles prédictifs comme la régression logistique ne vous donnent pas une seule règle de décision. Ils donnent une probabilité prédite d’un positif pour chaque individu en fonction des valeurs des valeurs de prédicteur de cet individu.,
votre logiciel peut imprimer un tableau de classification basé sur un seuil de probabilité par défaut (généralement .5). Mais c’est vraiment à vous de décider quel devrait être le seuil de probabilité pour classer un individu comme « positif prédit.”
la règle par défaut n’est pas toujours la meilleure décision. Le hasard est seulement .5 si les résultats positifs et négatifs sont également probables.
ils ne le sont généralement pas.
de même, parfois, le coût de la mauvaise classification est différent pour les positifs et les négatifs, vous êtes donc prêt à augmenter un type de mauvaise classification afin d’éviter l’autre.,
Et le point de coupure optimale n’est pas toujours évident.
différents modèles peuvent faire mieux à différentes règles de décision. Il est difficile de comparer les modèles comme faisant mieux ou pire les uns que les autres si l’un fonctionne mieux à une règle de décision et l’autre fait mieux à une autre.
entrez la courbe ROC.
la courbe ROC trace la sensibilité et la spécificité pour chaque seuil de règle de décision possible entre 0 et 1 pour un modèle.
Cette parcelle vous dit quelques choses différentes.,
un modèle qui prédit au hasard aura une courbe ROC qui ressemble à la ligne verte diagonale. Ce n’est pas un discriminant du modèle.
plus la courbe est éloignée de la ligne diagonale, mieux le modèle fait la distinction entre les positifs et les négatifs en général.
Il existe des statistiques utiles qui peuvent être calculées à partir de cette courbe, comme L’aire sous la courbe (AUC) et L’indice de Youden. Ceux-ci vous indiquent dans quelle mesure le modèle prédit et le point de coupe optimal pour un modèle donné (dans des circonstances spécifiques).,
bien que Les Roc soient souvent utilisés pour évaluer et interpréter des modèles de régression logistique, ils ne se limitent pas à la régression logistique. Une utilisation courante dans les études médicales est d’exécuter un ROC pour voir à quel point un seul prédicteur continu (un « biomarqueur”) peut prédire l’état de la maladie par rapport au hasard.,