Contenido principal

Curso: Estadística avanzada (AP Statistics) > Unidad 11

Lección 4: Probar hipótesis sobre una media

Referencia: condiciones para la inferencia en una media

Cuando queremos hacer inferencias en una media (construir un intervalo de confianza o hacer una prueba de significancia), la exactitud de nuestros métodos depende de algunas condiciones. Antes de hacer los cálculos reales del intervalo o de la prueba, es importante comprobar si se cumplen estas condiciones, de lo contrario los cálculos y conclusiones que resultan pueden no ser correctos.

Las condiciones que necesitamos para la inferencia en una media son:

Aleatoriedad: debe utilizarse una muestra aleatoria o un experimento aleatorizado para obtener los datos.
Normalidad: la distribución muestral de $\bar{x}$ ‍ (la media de la muestra) debe ser aproximadamente normal. Esto se cumple si nuestra población padre es normal o si la muestra es razonablemente grande $(n \geq 30)$ ‍.
Independencia: las observaciones individuales deben ser independientes. Si se muestrea sin reemplazo, nuestro tamaño de la muestra no debe ser más del $10 %$ ‍ de la población.

Echemos un vistazo a cada una de estas condiciones un poco más a fondo.

La condición de aleatoriedad

Las muestras aleatorias nos dan datos no sesgados de una población. Cuando no usamos la selección aleatoria, los datos resultantes generalmente tienen algún tipo de sesgo, así que usarlos para inferir algo acerca de la población puede ser riesgoso.

Por ejemplo, supongamos que una universidad quiere dar informes sobre el salario promedio de sus graduados. ¿Cómo obtienen los datos? No pueden acceder a los salarios de todos los graduados, y no pueden, de manera realista, obtener los salarios de una muestra aleatoria de los graduados. La universidad podría obtener los datos de aquellos graduados dispuestos a compartir sus salarios para calcular el promedio, pero la respuesta voluntaria es probable que conduzca a una estimación sesgada de la media verdadera. Los graduados con salarios más altos probablemente estarán más dispuestos a informar sobre sus salarios que los graduados con salarios bajos (o que aquellos sin salario). Además, los graduados que participen pueden decir que su salario es mayor de lo que el realmente es, pero sería poco probable que dijeran que es menor a lo que es.

La idea central es que los datos que provienen de una muestra no aleatoria pueden no ser representativos de su población.

Más específicamente, las medias muestrales son estimadores no sesgados de la media de su población. Por ejemplo, supongamos que tenemos una bolsa de pelotas de ping pong numeradas individualmente de

0

30

, por lo que la población media de la bolsa es

15

. Podríamos tomar muestras aleatorias de las pelotas de la bolsa y calcular la media de cada muestra. Algunas muestras tendrían una media superior a

15

y otras una más baja. Pero en promedio, la media de cada muestra será igual a

15

. Escribimos esta propiedad como

μ_{\bar{x}} = μ

, que es verdadera siempre y cuando tomemos muestras aleatorias.

Esto no necesariamente ocurrirá si usamos una muestra que no sea aleatoria. Las muestras sesgadas conducen a resultados inexactos, por lo que no se deben usar para crear intervalos de confianza o realizar pruebas de significancia.

La condición de normalidad

La distribución muestral de

\bar{x}

(una media muestral) es aproximadamente normal en algunos casos diferentes. La forma de la distribución muestral de

\bar{x}

depende sobre todo de la forma de la población padre y del tamaño de la muestra,

n

Caso 1: la población padre se distribuye normalmente

Si la población padre se distribuye normalmente, entonces la distribución muestral de

\bar{x}

es aproximadamente normal, independientemente del tamaño de la muestra. Por lo que si sabemos que la población padre se distribuye normalmente, pasamos esta condición, incluso si el tamaño de muestra es pequeño. En la práctica, sin embargo, generalmente no sabemos si la población padre se distribuye normalmente.

Caso 2: la población padre es desconocida o no normal; el tamaño de la muestra es grande ( $n \geq 30$ ‍)

La distribución muestral de

\bar{x}

es aproximadamente normal siempre que el tamaño de la muestra sea razonablemente grande. Debido al teorema del límite central, cuando

n \geq 30

, podemos tratar la distribución muestral de

\bar{x}

como aproximadamente normal independientemente de la forma de la población padre.

Hay unos pocos casos excepcionales en los que la población padre tiene una forma tan inusual que la distribución de la media muestral

\bar{x}

no es muy normal para tamaños de muestra cercanos a

30

. Estos casos son raros, por lo tanto, en la práctica, generalmente es seguro suponer que la distribución muestral es aproximadamente normal cuando

n \geq 30

Caso 3: la población padre es desconocida o no normal; el tamaño de la muestra es pequeño ( $n < 30$ ‍)

Siempre que la población padre no tenga valores atípicos o una fuerte asimetría, incluso las muestras más pequeñas van a producir una distribución muestral de

\bar{x}

que es aproximadamente normal. En la práctica, generalmente no podemos ver la forma de la población padre, pero podemos intentar inferirla con base en la distribución de datos en la muestra. Si los datos de la muestra tiene valores atípicos o asimetría, debemos dudar que la población padre sea aproximadamente normal, y entonces la distribución muestral de

\bar{x}

puede tampoco ser normal. Pero si los datos son aproximadamente simétricos y no muestran valores atípicos o una asimetría fuerte, podemos suponer que la distribución muestral de

\bar{x}

será aproximadamente normal.

La idea principal es que necesitamos graficar los datos de la muestra cuando $n < 30$ ‍, y entonces tomar una decisión acerca de la condición de normalidad con base en la apariencia de los datos muestrales.

La condición de independencia

Para usar la fórmula para la desviación estándar de

\bar{x}

, necesitamos que las observaciones individuales sean independientes. En un experimento, un buen diseño normalmente se encarga de la independencia entre los sujetos (diferentes tratamientos, control, aleatorización).

En un estudio observacional que implica muestreos sin reemplazo, las observaciones individuales no son técnicamente independientes puesto que quitar cada observación cambia la población. Sin embargo, la condición del

10 %

dice que si muestreamos

10 %

de la población o menos podemos tratar las observaciones individuales como independientes ya que quitar observaciones mientras muestreamos no cambia tanto la población. Por ejemplo, si el tamaño de la muestra es

n = 30

, debe haber por lo menos

N = 300

miembros en la población de la muestra para cumplir con la condición de independencia.

Suponer independencia entre las observaciones nos permite utilizar esta fórmula para la desviación estándar de

\bar{x}

cuando hacemos intervalos de confianza o pruebas de significancia:

σ_{\bar{x}} = \frac{σ}{\sqrt{n}}

Generalmente no se conoce la desviación estándar de la población,

σ

, por lo que sustituimos la desviación estándar de la muestra,

s_{x}

, como una estimación de

σ

. Cuando hacemos esto, lo llamamos el error estándar de

\bar{x}

para distinguirlo de la desviación estándar.

Así que nuestra fórmula para el error estándar de

\bar{x}

es:

σ_{\bar{x}} \approx \frac{s_{x}}{\sqrt{n}}

Resumen

Si se cumplen las tres condiciones, podemos sentirnos bien con el uso de las distribuciones

t

para establecer un intervalo de confianza o realizar una prueba de significancia. Satisfacer estas condiciones hace que nuestros cálculos sean precisos y las conclusiones fiables.

La condición de aleatoriedad es quizás la más importante. Si no la cumplimos, probablemente haya un sesgo en los datos. La única manera confiable de corregir una muestra sesgada es recolectar los datos de una manera insesgada.

Las otras dos condiciones son importantes, pero si no cumplimos las condición de normalidad o la de independencia, es posible que no tengamos que comenzar desde el principio. Por ejemplo, hay una manera de corregir la falta de independencia cuando muestramos más del

10 %

de una población, pero eso está más allá del alcance de lo que estamos aprendiendo ahora.

La idea principal es que es importante verificar que se cumplan ciertas condiciones antes de establecer estos intervalos de confianza o realizar estas pruebas de significancia.

¿Quieres unirte a la conversación?

Inicia sesión

Ordenar por:

Mayra Martínez Vargas
Publicado hace hace 2 años. Enlace directo a la publicación “"A las 5:31, ¿cómo es la ...” de Mayra Martínez Vargas
"A las
5:31
, ¿cómo es la Luna lo suficientemente grande como para bloquear el Sol? ¿No es el Sol mucho más grande que la Luna?
Botón que navega a la página de registroBotón que navega a la página de registro
(4 votos)
Respuesta

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Estadística avanzada (AP Statistics)