la regresión múltiple puede ser un análisis seductor y lleno de tentaciones. Es tan fácil agregar más variables a medida que piensas en ellas, o simplemente porque los datos son útiles. Algunos de los predictores serán significativos. Tal vez hay una relación, o es sólo por casualidad? Puede agregar polinomios de orden superior para doblar y torcer esa línea ajustada como desee, pero ¿está ajustando patrones reales o simplemente conectando los puntos?, Mientras tanto, el valor de R-squared (R2) aumenta, te burla y te incita a agregar más variables.

anteriormente, mostré cómo R-cuadrado puede ser engañoso cuando se evalúa la bondad de ajuste para el análisis de regresión lineal. En este post, veremos por qué debe resistir la necesidad de agregar demasiados predictores a un modelo de regresión, y cómo el R-cuadrado ajustado y el R-cuadrado predicho pueden ayudar.,

algunos problemas con R-squared

en mi último post, mostré cómo R-squared no puede determinar si las estimaciones de coeficientes y predicciones están sesgadas, por lo que debe evaluar las gráficas residuales. Sin embargo, R-cuadrado tiene problemas adicionales que el R-cuadrado ajustado y el R-cuadrado predicho están diseñados para abordar.

Problema 1: cada vez que agrega un predictor a un modelo, el R-cuadrado aumenta, incluso si se debe solo al azar. Nunca disminuye. En consecuencia, un modelo con más Términos puede parecer tener un mejor ajuste simplemente porque tiene más términos.,

Problema 2: Si un modelo tiene demasiados predictores y polinomios de orden superior, comienza a modelar el ruido aleatorio en los datos. Esta condición se conoce como sobreajustar el modelo y produce valores de R cuadrado engañosamente altos y una capacidad disminuida para hacer predicciones.

¿Qué es el R-cuadrado ajustado?

el R-cuadrado ajustado compara el poder explicativo de los modelos de regresión que contienen diferentes números de predictores.

supongamos que se compara un modelo de cinco predictores con un R-cuadrado más alto con un modelo de un predictor., ¿El modelo de cinco predictores tiene un R-cuadrado más alto porque es mejor? ¿O es el R-cuadrado más alto porque tiene más predictores? ¡Simplemente compare los valores ajustados de R-cuadrado para averiguarlo!

el R-cuadrado ajustado es una versión modificada de R-cuadrado que se ha ajustado para el número de predictores en el modelo. El R-cuadrado ajustado aumenta solo si el nuevo término mejora el modelo más de lo que se esperaría por casualidad. Disminuye cuando un predictor mejora el modelo menos de lo esperado por casualidad. El AJUSTADO R-cuadrado puede ser negativo, pero por lo general no es., Siempre es menor que el R-cuadrado.

en la salida de regresión de mejores subconjuntos simplificada a continuación, puede ver dónde alcanza su punto máximo el R-cuadrado ajustado y luego disminuye. Mientras tanto, el R-cuadrado continúa aumentando.

es posible que desee incluir solo tres predictores en este modelo. En mi último blog, vimos cómo un modelo especificado (uno que era demasiado simple) puede producir estimaciones sesgadas. Sin embargo, un modelo sobreespecificado (uno que es demasiado complejo) es más probable que reduzca la precisión de las estimaciones de coeficientes y los valores predichos., En consecuencia, no desea incluir más Términos en el modelo de los necesarios. (Lea un ejemplo del uso de la regresión de los mejores subconjuntos de Minitab.)

finalmente, un uso diferente para el R-cuadrado ajustado es que proporciona una estimación imparcial de la población R-cuadrado.

¿Cuál es el R-cuadrado predicho?

el R-cuadrado predicho indica qué tan bien un modelo de regresión predice las respuestas para nuevas observaciones. Esta estadística le ayuda a determinar cuándo el modelo se ajusta a los datos originales, pero es menos capaz de proporcionar predicciones válidas para nuevas observaciones., (Lea un ejemplo de uso de regresión para hacer predicciones.)

Minitab calcula el R-cuadrado predicho eliminando sistemáticamente cada observación del conjunto de datos, estimando la ecuación de regresión y determinando qué tan bien el modelo predice la observación eliminada. Como AJUSTADO R-cuadrado, predicho R-cuadrado puede ser negativo y siempre es menor que R-cuadrado.

incluso si no planea usar el modelo para las predicciones, el R-cuadrado predicho aún proporciona información crucial.

un beneficio clave del R-cuadrado predicho es que puede evitar que sobreajuste un modelo., Como se mencionó anteriormente, un modelo de sobreajuste contiene demasiados predictores y comienza a modelar el ruido aleatorio.

debido a que es imposible predecir el ruido Aleatorio, el R-cuadrado predicho debe caer para un modelo de overfit. Si usted ve un R-cuadrado predicho que es mucho más bajo que el R-cuadrado regular, es casi seguro que tiene demasiados términos en el modelo.

ejemplos de modelos de Overfit y R-squared predicho

puede probar estos ejemplos por sí mismo usando este archivo de proyecto de Minitab que contiene dos hojas de trabajo., Si quieres seguir el juego y aún no lo tienes, ¡descarga la versión de prueba gratuita de 30 días del software estadístico Minitab!

Hay una manera fácil de ver un modelo de overfit en acción. Si analizas un modelo de regresión lineal que tiene un predictor para cada grado de libertad, ¡siempre obtendrás un R-cuadrado del 100%!

en la hoja de trabajo de datos aleatorios, creé 10 filas de datos aleatorios para una variable de respuesta y nueve predictores. Porque hay nueve predictores y nueve grados de libertad, obtenemos un R-cuadrado de 100%.,

parece que el modelo tiene en cuenta toda la variación. Sin embargo, sabemos que los predictores aleatorios no tienen ninguna relación con la respuesta aleatoria! Estamos ajustando la variabilidad aleatoria.

ese es un caso extremo, pero veamos algunos datos reales en la hoja de trabajo de clasificación del Presidente.

estos datos provienen de mi post sobre grandes presidentes. No encontré ninguna asociación entre el índice de aprobación más alto de cada Presidente y el ranking del historiador. De hecho, describí esa gráfica de línea ajustada (abajo) como un ejemplo de no RELACIÓN, una línea plana con un R-cuadrado de 0.7%!,

digamos que no conocíamos mejor y sobreajustamos el modelo al incluir la calificación de aprobación más alta como un polinomio cúbico.

Wow, tanto el R-cuadrado y AJUSTADO R-cuadrado se ven bastante bien! Además, las estimaciones de los coeficientes son todas significativas porque sus valores de p son menores que 0.05. Las gráficas residuales (no mostradas) también se ven bien. ¡Órale!

No tan rápido…todo lo que estamos haciendo es doblar excesivamente la línea ajustada para conectar artificialmente los puntos en lugar de encontrar una verdadera relación entre las variables.,

nuestro modelo es demasiado complicado y el R-cuadrado predicho lo delata. Realmente tenemos un valor R-cuadrado predicho negativo. Eso puede no parecer intuitivo, pero si 0% es terrible, un porcentaje negativo es aún peor!

el R-cuadrado predicho no tiene que ser negativo para indicar un modelo de overfit. Si ve que el R-cuadrado predicho comienza a caer a medida que agrega predictores, incluso si son significativos, debe comenzar a preocuparse por sobreajustar el modelo.,

Pensamientos finales sobre R-cuadrado ajustado y R-cuadrado predicho

todos los datos contienen una cantidad natural de variabilidad que es inexplicable. Desafortunadamente, R-squared no respeta este techo natural. Perseguir un valor alto de R-cuadrado puede empujarnos a incluir demasiados predictores en un intento de explicar lo inexplicable.

en estos casos, puede lograr un valor R-cuadrado más alto, pero a costa de resultados engañosos, precisión reducida y una menor capacidad de hacer predicciones.,

tanto el R-cuadrado ajustado como el R-cuadrado predicho proporcionan información que le ayuda a evaluar el número de predictores en su modelo:

  • Use el R-cuadrado ajustado para comparar modelos con diferentes números de predictores
  • Use el R-cuadrado predicho para determinar qué tan bien predice el modelo nuevas observaciones y si el modelo es demasiado complicado

El análisis de regresión es poderoso, pero no querrá dejarse seducir por ese poder y usarlo imprudentemente!

si estás aprendiendo sobre regresión, ¡lee mi tutorial de regresión!

Articles

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *