Evaluación de la hipótesis

Un tutorial simple y breve sobre pruebas de hipótesis usando Python

Imagen de: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

En este blog, daré un breve tutorial de Prueba de hipótesis utilizando métodos estadísticos en Python. La prueba de hipótesis es parte del método científico con el que todos estamos familiarizados, algo que probablemente aprendimos en nuestros primeros años de educación. Sin embargo, en estadística, muchos experimentos se realizan en una muestra de una población.

“Determinar lo que un conjunto de observaciones de muestra nos dice acerca de una explicación propuesta, en general, requiere que hagamos una inferencia, o como lo llamamos los estadísticos, a Razonar con incertidumbre. El razonamiento con incertidumbre es el núcleo de la inferencia estadística y, por lo general, se realiza mediante un método llamado Prueba de significación de hipótesis nulas ". -Hornos.

Como ejemplo para este blog, utilizaré un conjunto de datos de fútbol europeo que se encuentra en Kaggle y realizaré pruebas de hipótesis. El conjunto de datos se puede encontrar aquí.

Paso 1

Hacer una observación

El primer paso es observar los fenómenos. En este caso, será: ¿Hay un impacto de la agresión de la defensa en los objetivos promedio permitidos?

Paso 2

Examina la investigación

Una buena mentalidad es trabajar de manera más inteligente, no más difícil. Una buena cosa para hacer es ver si ya existe una investigación relacionada con su observación. Si es así, puede ayudar a responder nuestra pregunta. Conocer las investigaciones o experimentos ya existentes nos ayudará a estructurar mejor nuestro experimento, o tal vez incluso responder a nuestra pregunta y no tener que realizar el experimento en primer lugar.

Paso 3

Forme una hipótesis nula y una hipótesis alternativa

Una hipótesis alternativa es nuestra suposición educada y una hipótesis nula es simplemente lo contrario. Si la hipótesis alternativa establece que existe una relación significativa entre dos variables, la hipótesis nula indica que no existe una relación significativa.

Nuestra hipótesis nula será: No hay diferencia estadística en los goles permitidos con equipos con un índice de agresión de defensa mayor o igual a 65 en comparación con los equipos por debajo de 65.

Hipótesis alternativa: existe una diferencia estadística en los goles permitidos con equipos con un índice de agresión de defensa mayor o igual a 65 en comparación con los equipos por debajo de 65.

Paso 4

Determine si nuestra hipótesis es una prueba de una cola o una prueba de dos colas.

Prueba de una cola

"Si está utilizando un nivel de significancia de 0.05, una prueba de una cola permite que todo su alfa pruebe la significancia estadística en la única dirección de interés". Un ejemplo de una prueba de una cola sería "Los equipos de fútbol con un índice de agresión inferior a 65 permiten estadísticamente significativamente más goles que los equipos con un índice inferior a 65".

Prueba de dos colas

“Si está utilizando un nivel de significancia de 0.05, una prueba de dos colas le permite a la mitad de su alfa probar la significancia estadística en una dirección y a la otra mitad de su alfa para probar la significancia estadística en la otra dirección. Esto significa que 0.025 está en cada cola de la distribución de su estadística de prueba ".

Con una prueba de dos colas, está probando la significación estadística en ambas direcciones. En nuestro caso, estamos probando la significación estadística en ambas direcciones.

Paso 5

Establecer un nivel de significación umbral (alfa)

(valor alfa): el umbral marginal en el que estamos de acuerdo con rechazar la hipótesis nula. Un valor alfa puede ser cualquier valor que establezcamos entre 0 y 1. Sin embargo, el valor alfa más común en la ciencia es 0.05. Un alfa establecido en 0.05 significa que estamos de acuerdo con rechazar la hipótesis nula a pesar de que hay un 5% o menos de posibilidades de que los resultados se deban al azar.

Valor P: La probabilidad calculada de llegar a estos datos al azar.

Si calculamos un valor p y sale a 0.03, podemos interpretar esto como diciendo "Hay un 3% de posibilidades de que los resultados que estoy viendo se deban realmente al azar o pura suerte".

Imagen de Learn.co

Nuestro objetivo es calcular el valor p y compararlo con nuestro alfa. Cuanto más bajo sea el alfa, más estricta será la prueba.

Paso 6

Realizar muestreo

Aquí tenemos nuestro conjunto de datos llamado fútbol. Para nuestra prueba, solo necesitamos dos columnas en nuestro conjunto de datos: team_def_aggr_rating y goals_allowed. Lo filtraremos a estas dos columnas y luego crearemos dos subconjuntos para equipos con un índice de agresión defensiva mayor o igual a 65 y equipos con un índice de agresión defensiva por debajo de 65.

Solo para recapitular para nuestra prueba de hipótesis:

Impacto de la agresión defensiva en los goles permitidos promedio. Hipótesis nula: no hay diferencia estadística en los goles permitidos con equipos con un índice de agresión de defensa mayor o igual a 65 frente a los equipos por debajo de 65. Hipótesis alternativa: existe una diferencia estadística en los goles permitidos con equipos con un índice de agresión de defensa mayor igual o igual a 65 frente a equipos por debajo de 65. Prueba alfa de dos colas: 0.05

Ahora tenemos dos listas de muestras en las que podemos ejecutar pruebas estadísticas. Antes de ese paso, trazaré las dos distribuciones para obtener una imagen.

Paso 7

Realizar la prueba T de dos muestras

La prueba t de dos muestras se usa para determinar si dos medias poblacionales son iguales. Para esto, usaremos el módulo Python llamado statsmodels. No entraré en demasiados detalles sobre los modelos de estadísticas, pero puede ver la documentación aquí.

Paso 8

Evaluar y concluir

Recuerde que el alfa que establecimos fue a = 0.05. Como podemos ver en los resultados de nuestra prueba, el valor p es menor que nuestro alfa. Podemos rechazar nuestra hipótesis nula y con un 95% de confianza aceptamos nuestra hipótesis alternativa.

¡Gracias por leer! Para obtener más información sobre las pruebas de hipótesis, puede consultar este proyecto grupal en GitHub en el que participé en las pruebas de hipótesis aquí.

Recursos:

Hornos, Matthew. "Estadísticas y el" Método Científico "Recuperado de YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Introducción a SAS. UCLA: Grupo de Consultoría Estadística. de https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (consultado en mayo 16, 2019).

Manual de estadísticas de ingeniería. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm