If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Prueba de hipótesis para la diferencia de proporciones

Prueba de hipótesis para la diferencia de proporciones.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

y nos dicen aquí están los resultados del muestreo de votantes de dos distritos vecinos ya estas personas les preguntaron se apoyan una cierta ley o la rechazan observa que para cada distrito tomamos una población de 100 votantes y con esto calculamos la proporción de la muestra que apoya la ley por acá tenemos los datos combinados de ambos distritos y nos preguntan esta información sugiere una diferencia significativa entre los dos distritos bueno necesitamos hacer una prueba de hipótesis y la forma en la que lo haremos será primero establecer una hipótesis nula recuerda la hipótesis nula es aquella que no supone diferencia alguna por lo tanto podemos suponer que la población de votantes en el distrito a verdadera que apoyan la ley es igual a la población de votantes en el distrito ven que apoya en la ley otra forma de pensar es que la diferencia entre estas dos proporciones es igual a cero y nuestra hipótesis alternativa será que el valor absoluto de la diferencia entre estas dos proporciones no es igual a cero y si estamos haciendo una prueba de hipótesis a profundidad tenemos que establecer un valor de significancia y la mayoría de las veces este nivel de significancia es del 10% o del 5% así que establezcamos un nivel de significancia del 5% después lo que hacemos es suponer que la hipótesis nula es cierta entonces dado que la hipótesis no es cierta cuál es la probabilidad de que la diferencia entre estas proporciones muestrales sea así de extrema o más y si esta probabilidad es menos que el nivel de significancia entonces rechazaremos la hipótesis nula y con ello podemos sugerir la alternativa ahora bien antes de seguir adelante necesitamos comprobar que se cumplan las condiciones para la inferencia esto lo hemos visto en varias ocasiones la primera es la condición de aller necesitamos sentirnos seguros de que estas dos muestras sean completamente aleatorias la segunda condición es la condición de normalidad la cual nos dice que necesitamos tener al menos 10 éxitos y 10 fracasos para cada una de las muestras lo cual es completamente cierto no puedes verlo aquí por último tenemos la condición de independencia para que se cumpla esta condición necesitamos ya sea que la muestra se haga con reemplazo o sentirnos seguros de que estos tamaños de la muestra sean menores que el 10% de la población completa lo cual podemos suponer lo ya que esperamos que habiten al menos 1000 personas en cada distrito con esto cumplimos también la condición de independencia muy bien ya que cumplimos las condiciones para la inferencia supongamos la hipótesis nula y vamos a pensar en la distribución muestral de las diferencias entre las proporciones primero calculemos la desviación estándar de la diferencia de las distribuciones muestrales bueno ya lo hemos visto anteriormente la varianza de la distribución muestral de una diferencia de proporciones esto va a ser igual a la varianza de la distribución muestral de proporciones para el distrito am más la varianza de la distribución muestral de proporciones para el distrito ver ahora bien puedes encontrar la varianza para una distribución muestral de una proporción con la siguiente fórmula la varianza para una distribución muestral de una proporción es igual a p que multiplica a 1 - p entre n ahora en ambas situaciones no conocemos las proporciones verdaderas ni para el distrito a ni para el bebé es por eso que estamos haciendo nuestra prueba de hipótesis pero podemos intentar estimar las aunque suponemos que las proporciones verdaderas son iguales en la hipótesis nula aún así pensamos en que no podemos saber cuáles son ahora viene la mejor estimación de la proporción verdadera si suponemos que el distrito a y el distrito b no tienen diferencia en términos de los votantes que apoyan la nueva ley será la proporción de la muestra combinada que tenemos aquí así que para estimar estos dos valores usaremos esta proporción de la muestra combinada en lugar de p por lo tanto me va a quedar lo siguiente va a ser 0.55 por uno menos la proporción de la muestra combinada entre el tamaño de la muestra que son 100 votantes y si suponemos que no hay diferencia entre el distrito am y el distrito b esta varianza estimada también aplican para este otro distrito por lo tanto déjame reescribir la desviación estándar de nuevo la desviación estándar de la diferencia de las distribuciones muestrales del distrito a y del b será aproximadamente recuerda como no pudimos calcularla exactamente usamos como estimación esta proporción combinada es por ello que es aproximadamente igual a la raíz cuadrada y dentro del radical tendremos el estimado de esto que es 0.55 que multiplica a 1 - 0.55 lo cual es 0.45 entre 7 más la estimación de verde que es exactamente lo mismo 0.55 x 0.45 entre 100 y ahora podemos sacar nuestra calculadora para obtener este resultado voy a tener la raíz cuadrada de 0.55 que multiplica a 0.45 esto entre 100 y bueno como le voy a sumar lo mismo yo voy a multiplicar por 2 y esto será aproximadamente igual a amd a 0.07 así que esto será aproximadamente igual a 0.07 y lo voy a escribir ahora usando esto podemos calcular un puntaje z y después calcular la probabilidad de obtener algo tan extremo o más que ese puntaje z así que nuestro valor z o nuestro puntaje z será igual a la diferencia que tenemos p sombrero a menos p sombrero b esto entre la estimación de nuestra desviación estándar de la diferencia de distribuciones muestrales es decir todo esto entre 0.07 ahora esto que tenemos en amarillo es 0.58 0.52 lo cual es 0.06 entre 0.07 y de nuevo podemos tener nuestra calculadora y ver cuánto es 0.06 entre 0.07 y es aproximadamente 0.86 bien ahora cuál es la probabilidad de obtener algo tan extremo o más que este valor bueno déjame representarlo gráficamente por acá si esta es la distribución muestral de la diferencia entre nuestras proporciones y suponemos que la hipótesis nula es verdadera por lo tanto la media de la distribución muestral será 0 y si tenemos por acá una desviación estándar después de la media por acá dos desviaciones estándar después de la media y por acá una antes y dos antes entonces si obtenemos un resultado que nos deja aquí y si nos preguntamos cuál es la probabilidad de obtener un resultado tan extremo o más que éste bueno entonces nos interesa la probabilidad de obtener esto que estoy sombreando y nosotros sabemos que esto es más que el 30% porque incluso si excluimos una desviación estándar después y antes de la media y sombre ambos el área que sea más extrema que ese valor bueno observa estamos viendo aproximadamente un área del 31 o 32 por ciento entonces la probabilidad de obtener un resultado al menos tan extremo como será mayor que el 30 por ciento y por lo tanto definitivamente es más grande que nuestro nivel de significancia entonces será completamente razonable que obtengamos algo tan extremo como esta diferencia si suponemos la hipótesis nula en los siguientes vídeos diremos incluso más profundo y revisaremos este resultado en una tabla zeta para calcular estas áreas de manera más precisa y así compararla con este nivel de significancia pero en esta ocasión no es ni siquiera cercano a este valor y por lo tanto rechazamos la hipótesis nula y terminamos la respuesta a la pregunta esta información sugiere una diferencia significativa entre los dos distritos tiene como respuesta no no la sugiere y hemos terminado