If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Pruebas de hipótesis y valores p

Para discutir la prueba de hipótesis y valores p, resolvemos un ejemplo sobre un neurólogo que examina el efecto de una droga. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

un neurólogo está probando el efecto de un fármaco sobre el tiempo de respuesta inyectando 100 ratas con una 2 unitaria exponiendo las individualmente estímulos neurológicos y registrando el tiempo de respuesta el neurólogo sabe que la media del tiempo de respuesta para las ratas que no han sido inyectadas con el fármaco es de 1.2 segundos la media del tiempo de respuesta de las 100 ratas inyectadas es de 1.05 segundos con una desviación estándar de 0.5 segundos piensas que el fármaco ha tenido algún efecto en el tiempo de respuesta para hacer esto vamos a establecer dos hipótesis la primera hipótesis es llamada la hipótesis nula y establece que el fármaco no tiene ningún efecto en el tiempo de respuesta esta hipótesis nula va a ser como el status quo asumes que lo que estás investigando no tiene ningún efecto así que la hipótesis nula va a ser el fármaco no tiene efecto el fármaco no tiene efecto otra manera de pensar en esto es que la media de las ratas que están usando el fármaco debe ser igual a la media de las ratas que no lo están usando es decir la media con el fármaco mejor déjame escribirlo de esta otra manera el tiempo medio va a ser igual el tipo de respuesta va a ser igual a 1.2 segundos aún con el fármaco aún con el fármaco eso básicamente está estableciendo que no tiene efecto porque sabemos que si no se aplica el fármaco el tiempo medio de respuesta es de 1.2 segundos necesitamos ahora la hipótesis alternativa y esta hipótesis sería bueno pensamos que el fármaco si tiene un efecto entonces la hipótesis alternativa es el fármaco tiene efecto tiene un efecto lo cual equivale a que el tiempo promedio de respuesta es distinto de 1.2 segundos cuando se aplica el fármaco cuando se aplica el fármaco como sabemos y debe aceptar la hipótesis alternativa o deberíamos por default aceptar la hipótesis nula pues los datos no son convincentes y la manera en la que lo vamos a hacer en este vídeo la cual es muy similar a lo que se hace usualmente en la investigación científica es decir ok supongamos que la hipótesis nula es verdadera si la hipótesis no es verdadera cuál es la probabilidad de obtener los resultados que se obtuvieron con la muestra y si esa probabilidad es real realmente pequeña entonces lo más seguro es que la hipótesis nula no es verdadera rechazaríamos la hipótesis nula y plantearemos que bueno pensamos que el i-pod es alternativa es la adecuada así que hagamos eso supongamos supongamos que la hipótesis nula es verdadera asumiendo que la hipótesis nula es verdadera calculemos cuál es la probabilidad de que hayamos obtenido ese resultado es decir una media muestral de 1.05 segundos y una desviación estándar de punto cinco segundos así que lo que quiero hacer es suponiendo la hipótesis nula quiero saber cuál es la probabilidad de hecho de hecho no quiero tan solo la probabilidad de esto yo la probabilidad de obtener este resultado o un valor inclusive más extremo que tan probable sería un evento como este para esto pensemos en la distribución muestral de medias suponiendo la hipótesis nula entonces la distribución muestral sería algo así sería una distribución normal tenemos un muy buen tamaño de muestra una muestra de 100 y aquí tendríamos la media de la distribución muestral ahora suponiendo la hipótesis nula la media de la distribución muestral la media distribución muestral va a ser igual a la media de la población la cual es igual a 1.2 segundos ahora cuál es la desviación estándar de la distribución muestral la desviación estándar de la distribución muestral va a ser igual a la desviación estándar de la población dividido entre la raíz cuadrada del tamaño de muestra es decir dividido entre la raíz de 100 no sabemos la desviación estándar de la población pero lo que vamos a hacer es la vamos a estimar a partir de la desviación estándar de la muestra dado que tenemos un muy buen tamaño de muestra tenemos un tamaño de muestra igual a 100 así que esta esta de aquí va a ser una muy buena aproximación para esta de acá así que podemos decir que esto es aproxima igual a la desviación estándar de la muestra sobre la raíz de 100 y esto es igual a la desviación estándar de la muestra la cual es igual a punto 5 segundos punto 0.5 segundos dividido entre la raíz de 100 que es igual a 10.5 dividido entre 10 es igual a punto 05 entonces la desviación estándar de la distribución muestral la desviación estándar la instrucción muestral va a ser igual y vamos a ponerle un sombrerito aquí porque estamos estimando con la desviación estándar de la muestra la desviación estándar de la población entonces por eso el sombrerito para decir que es un estimador va a ser punto 5 entre 10 que es igual a 0.05 entonces cuál es la probabilidad de obtener un valor de 1.05 otra manera de verlo es a cuántas desviaciones estándar con respecto a la media está 1.05 y cuál es la probabilidad de obtener un valor que esté alejado al menos ese número de desviaciones estándar con respecto a la media calculemos entonces a cuántas desviaciones está el valor de la media y esencialmente es calcular el puntaje z para este resultado déjame agarrar un nuevo color voy a agarrar el naranja no he utilizado aún el naranja entonces el puntaje z o también podemos denominarlo el estadístico z el cual se calcula a partir de estos otros estadísticos muestrales entonces nuestro estadístico z va a ser igual qué tan lejos estamos de la media la media es 12 - el valor de la media la muestra que es 1.05 lovato poner en unidades positivas eso es qué tan lejos estamos de la media y si lo queremos en términos de la desviación estándar lo que vamos a hacer es dividir por nuestra mejor estimación de la distribución de perdón de la desviación estándar de la instrucción muestra de medias y la cual estimamos hace unos momentos que era 0.05 entonces aquí tenemos 0.05 y nuestro estadístico z va a ser igual a 1.2 menos 1.0 51.2 menos 1.0 5 es punto 15 dividido entre punto 0 5.15 entre punto 05 es igual a 3 entonces este resultado de aquí hemos visto que está a tres desviaciones estándar con respecto a la media déjame dibujarlo una desviación estándar dos desviaciones estándar tres desviaciones estándar por el lado positivo y por el lado negativo deja de hacer lo mejor deja no fue una muy buena curva de campana pero déjame que tener una mejor escala aquí tenemos una desviación estándar dos desviaciones estándar tres desviaciones estándar por el lado positivo y por lado negativo tenemos una desviación estándar dos desviaciones estándar y tres desviaciones estándar entonces este resultado de 1.05 segundos que obtuvimos de una muestra de 100 ratas se ubica aquí a tres desviaciones estándar por debajo de la media ahora cuál la problema tener un resultado tan extremo simplemente debido al azar y cuando digo un resultado tan extremo como este me refiero a un resultado que esté por abajo de tres dedicaciones estándar con respecto a la media o también un resultado que esté por arriba de tres desviaciones estándar con respecto a la media básicamente cuando estamos pensando en calcular publidad de un resultado más extremo que éste estamos pensando en calcular el área bajo la curva normal ambos extremos por la parte negativa y por la parte positiva cuál es la probabilidad sabemos por la regla empírica que 99.7 por ciento de probabilidad se encuentra dentro de tres desviaciones estándar entonces este valor de aquí y bueno siempre puedes buscar una tabla zeta el valor aunque tres desviaciones estándar es un número entero muy fácil y no está por demás recordar lo sabemos entonces que esta área va a poner en una naranja o naranjas rosado sabemos entonces que esta área vale 99.7 por ciento de probabilidad entonces que lo que nos queden estas son las rosas los que en estas zonas rosas pues la diferencia sea que 99.7 por ciento en estas dos combinadas va a haber punto 3 % punto 3 por ciento va a haber en estas dos zonas combinadas podemos escribir lo mejor como 0.3 por ciento o si lo escribimos en fracción si lo escribimos en fracción va a ser igual a punto 0 03 del área total bajo la curva así que para contestar a la pregunta si suponemos que el fármaco no tiene efecto la probabilidad de obtener una muestra tan extrema o de hecho más extrema que ésta es de tan solo punto 3 % menos de 1 en 300 así que si la hipótesis nula es verdadera hay tan sólo una probabilidad de 1 entre 300 de obtener un resultado tanto o más extremo que este así desde mi perspectiva este resultado favorece la hipótesis alternativa voy a rechazar voy a rechazar la hipótesis nula tenemos que rechazar la hipótesis nula no estoy 100% seguro pero si la hipótesis nula fuera verdadera hay tan sólo una probabilidad en 300 de obtener esto así que voy por la hipótesis alternativa y para darte un poco del bagaje que conozcas la nomenclatura que se usa en estadística en los trabajos de investigación científica que se publica la probabilidad de obtener un resultado tan extremo como esté dada que la hipótesis nula es verdadera se conoce como el valor p entonces el valor p el valor p aquí lo cual se deriva del valor de probabilidad es igual a punto 0 0 3 así que hay una probabilidad muy muy baja de obtener este resultado si la hipótesis nula fuera verdadera por lo cual la rechazamos y en general en la mayor de los casos se pone un valor límite si tienes un valor p de menos de 5% lo que significa menos de 1 en 20 entonces sabes que vamos a rechazar la hipótesis nula hay una probabilidad menor de 1 en 20 de obtener ese resultado aquí obtuvimos un valor mucho menor de 1 en 20 hay una fuerte evidencia de que la hipótesis nule es incorrecta y el fármaco definitivamente tiene algún efecto