If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Distribución muestral de la diferencia en proporciones muestrales

Podemos calcular la media y la desviación estándar para la distribución muestral de la diferencia en proporciones muestrales. Además, podemos decir si la forma de esa distribución muestral es aproximadamente normal. Creado por Sal Khan.

¿Quieres unirte a la conversación?

Sin publicaciones aún.
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

"Supongamos que el 8% de todos los autos que se  producen en la planta A tiene cierto defecto,   y que 6% de todos los autos que se producen  en la planta B tiene ese defecto. Cada mes,   un gerente de control de calidad toma muestras  aleatorias independientes de 200 de los más de   3,000 autos producidos por cada planta. El gerente  evalúa la diferencia entre las proporciones de   autos con el defecto en cada muestra."  Entonces, él evalúa la diferencia en las   proporciones muestrales de cada mes. "Describe  la distribución de la proporción de la muestra   de la planta A menos la proporción de la muestra  de la planta B en términos de su media,   desviación estándar y forma." Así que hagamos esto  paso a paso. Primero pensemos en la media de la   diferencia de nuestras proporciones muestrales.  Pausa el video e intenta encontrar la respuesta.   Bueno, hemos visto esto en videos pasados,  que la media de la diferencia de dos variables   aleatorias equivale a la diferencia de las  medias. La manera de establecer esto es que,   si queremos encontrar la media de la proporción  muestral de la planta A menos la proporción   muestral de la planta B, esto será igual a la  media de la proporción muestral de la planta A   menos la media de la proporción muestral de la  planta B. Ahora, ¿a qué será igual esto? Bueno,   ¿cuál es la media de la proporción muestral de la  planta A? Bueno, esto será igual a la proporción   poblacional real de la planta A; y nos la dan: nos  dicen que el 8% de todos los autos que se producen   en la planta A tiene cierto defecto, entonces,  esta será 8% o podemos escribir 0.08. Y a esto le   restaremos la media de la proporción muestral de  la planta B, y sabemos a qué equivale esta media:   la media de la proporción muestral será la  proporción poblacional, el parámetro de la   población que sabemos que, para la planta B, es  de 6% o 0.06. Y entonces esto es igual a una   media de diferencia de 0.02 o 2%: la media es una  diferencia del 2% en la tasa del defecto. Ahora,   pensemos en la desviación estándar, pero en lugar  de pensar en términos de la desviación estándar,   pensemos en el cuadrado de la desviación estándar  que es la varianza (σ); una vez calculada ésta podemos   regresar a la desviación estándar tomando la raíz  cuadrada. Bien, si buscamos la varianza de   la diferencia de las proporciones muestrales, es  decir, la proporción muestral de la planta A menos   la proporción muestral de la planta B -recordemos  que, si suponemos que las muestras de las plantas   son independientes, es decir, que el muestreo  de la planta A no afecta el muestreo de la   planta B y viceversa, entonces podemos sumar las  varianzas-, entonces esto será igual a la varianza   de la proporción muestral de la planta A más la  varianza de la proporción muestral de la planta B.   Y tal vez algunos de ustedes digan: "Espera, ¿no  queríamos tomar la diferencia de las proporciones   muestrales?, ¿por qué estamos sumando?" Pero  recuerda: la varianza es una medida de dispersión,   y ya sea que tomemos la diferencia de variables  aleatorias o tomemos la sumas de ellas, cuando   tengamos más variables tendremos más dispersión.  Entonces, independientemente de si esto es   negativo o positivo, esto será positivo. Entonces,  ¿a qué será igual todo esto? Bueno, podemos buscar   cada uno de estos términos. ¿Cuál será la varianza  de la proporción de la muestra de la planta A?   Bueno, si cada vez que observamos uno de sus autos  lo observamos y lo regresamos a la población,   entonces, si muestreamos con reemplazo -lo que  significa que cada una de nuestras observaciones   es independiente de las otras-, entonces tenemos  una fórmula. Sabemos que esta varianza será la   proporción poblacional de la planta A, por 1 menos  la proporción poblacional de la planta A, dividido   entre el tamaño de la muestra de la planta A.  Ahora, en el ejemplo que estamos resolviendo   no estamos muestreando con reemplazo, en este caso  tomamos 200 autos al mismo tiempo y los evaluamos;   no tomamos sólo uno, lo reemplazamos y hacemos  esto doscientas veces. Pero también sabemos que   si la muestra es menor que el 10% de la población,  entonces esta es una aproximación muy buena,   incluso si el muestreo es sin reemplazo, y 200  es menor que el 10% de 3000. Así que esta es una   aproximación muy buena, y es la que usaremos en  el curso básico de estadística. De igual manera,   podemos establecer la misma consideración para la  varianza de la proporción muestral de la planta B,   ésta será igual a la proporción poblacional de la  planta B, por 1 menos la proporción poblacional   de la planta B, dividido entre el tamaño de la  muestra de la planta B. Y ya conocemos estos   datos: sabemos que la proporción poblacional de  la planta A es 8% o 0.08, 1 menos eso es 0.92,   el tamaño de la muestra es de 200 autos para  la planta A; y para la planta B sabemos que su   proporción poblacional es del 6% o 0.06, 1  menos eso es 0.94 y el tamaño de la muestra   de la planta B también es 200. Y tenemos que:  0.08 x 0.92 / 200 más, y abrimos paréntesis,   (0.06 x 0.94 / 200), cerramos el paréntesis, y nos  da este resultado: 0.00065, 0.00065. Ahora bien,   con este resultado podemos encontrar la desviación  estándar. La desviación estándar de la diferencia   entre nuestras proporciones muestrales será la  raíz cuadrada de este resultado, será la √0.00065,   y esto es aproximadamente igual a, calculamos la  raíz cuadrada y obtenemos 0.025, 0.025. Listo,   hemos encontrado la desviación estándar. Y,  por último, pero no por eso menos importante,   pensemos en la forma de la distribución. Tenemos  que recordar que mientras tengamos al menos 10   éxitos y 10 fracasos, la distribución de cada  proporción muestral será una normal. Así que   veamos, ¿cuántos éxitos esperamos, donde un éxito  será un auto defectuoso? Vamos a pensarlo: 8% de   la muestra de 200 serán 16, esperamos 16 autos  defectuosos y esperamos 200 - 16, que es mucho   más grande que 10, de no defectuosos. Entonces  ambas cantidades son mayores o iguales a 10. Y   si hacemos lo mismo para la planta B, tenemos la  misma situación: 6% de 200 es 12, mientras que los   que no son defectuosos son 200 - 12, que es mucho  mayor que 10, especialmente en este último caso,   pero en cada situación esperamos tener al  menos 10 éxitos y 10 fracasos. Por lo tanto,   podemos suponer que las distribuciones de cada  una de ellas van a ser normales. También sabemos   que la diferencia entre dos variables distribuidas  normalmente también es normal, siempre y cuando se   cumpla esa condición de frecuencias grandes que  acabamos de considerar. Entonces dibujemos cómo   se vería esta distribución. Podría verse algo como  esto, va a ser una distribución normal, en la que   tenemos la media justo aquí -que haremos en ese  mismo color, una media de 0.02-, y definitivamente   pueden tener valores negativos porque pueden  darse de manera aleatoria situaciones en las que   la proporción de la muestra de la planta B pueda  ser mayor que la proporción de la muestra de la   planta A, así que definitivamente puede tomar  valores negativos. Y si queremos mostrar dónde   está el 0 -tal vez el 0 esté justo aquí, por lo  que podremos dibujar un eje por aquí-, y luego,   ya sabemos cuál es la desviación estándar, es  aproximadamente 0.025; con eso podemos señalar   una desviación estándar por debajo de la media y  una desviación estándar por encima de la media, y   obviamente podríamos ir más allá de una desviación  estándar por encima o por debajo de esa media.