If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Referencia: condiciones para la inferencia en una media

Cuando queremos hacer inferencias en una media (construir un intervalo de confianza o hacer una prueba de significancia), la exactitud de nuestros métodos depende de algunas condiciones. Antes de hacer los cálculos reales del intervalo o de la prueba, es importante comprobar si se cumplen estas condiciones, de lo contrario los cálculos y conclusiones que resultan pueden no ser correctos.
Las condiciones que necesitamos para la inferencia en una media son:
  • Aleatoriedad: debe utilizarse una muestra aleatoria o un experimento aleatorizado para obtener los datos.
  • Normalidad: la distribución muestral de x¯ (la media de la muestra) debe ser aproximadamente normal. Esto se cumple si nuestra población padre es normal o si la muestra es razonablemente grande (n30).
  • Independencia: las observaciones individuales deben ser independientes. Si se muestrea sin reemplazo, nuestro tamaño de la muestra no debe ser más del 10% de la población.
Echemos un vistazo a cada una de estas condiciones un poco más a fondo.

La condición de aleatoriedad

Las muestras aleatorias nos dan datos no sesgados de una población. Cuando no usamos la selección aleatoria, los datos resultantes generalmente tienen algún tipo de sesgo, así que usarlos para inferir algo acerca de la población puede ser riesgoso.
Más específicamente, las medias muestrales son estimadores no sesgados de la media de su población. Por ejemplo, supongamos que tenemos una bolsa de pelotas de ping pong numeradas individualmente de 0 a 30, por lo que la población media de la bolsa es 15. Podríamos tomar muestras aleatorias de las pelotas de la bolsa y calcular la media de cada muestra. Algunas muestras tendrían una media superior a 15 y otras una más baja. Pero en promedio, la media de cada muestra será igual a 15. Escribimos esta propiedad como μx¯=μ, que es verdadera siempre y cuando tomemos muestras aleatorias.
Esto no necesariamente ocurrirá si usamos una muestra que no sea aleatoria. Las muestras sesgadas conducen a resultados inexactos, por lo que no se deben usar para crear intervalos de confianza o realizar pruebas de significancia.

La condición de normalidad

La distribución muestral de x¯ (una media muestral) es aproximadamente normal en algunos casos diferentes. La forma de la distribución muestral de x¯ depende sobre todo de la forma de la población padre y del tamaño de la muestra, n.

Caso 1: la población padre se distribuye normalmente

Si la población padre se distribuye normalmente, entonces la distribución muestral de x¯ es aproximadamente normal, independientemente del tamaño de la muestra. Por lo que si sabemos que la población padre se distribuye normalmente, pasamos esta condición, incluso si el tamaño de muestra es pequeño. En la práctica, sin embargo, generalmente no sabemos si la población padre se distribuye normalmente.

Caso 2: la población padre es desconocida o no normal; el tamaño de la muestra es grande (n30)

La distribución muestral de x¯ es aproximadamente normal siempre que el tamaño de la muestra sea razonablemente grande. Debido al teorema del límite central, cuando n30, podemos tratar la distribución muestral de x¯ como aproximadamente normal independientemente de la forma de la población padre.
Hay unos pocos casos excepcionales en los que la población padre tiene una forma tan inusual que la distribución de la media muestral x¯ no es muy normal para tamaños de muestra cercanos a 30. Estos casos son raros, por lo tanto, en la práctica, generalmente es seguro suponer que la distribución muestral es aproximadamente normal cuando n30.

Caso 3: la población padre es desconocida o no normal; el tamaño de la muestra es pequeño (n<30)

Siempre que la población padre no tenga valores atípicos o una fuerte asimetría, incluso las muestras más pequeñas van a producir una distribución muestral de x¯ que es aproximadamente normal. En la práctica, generalmente no podemos ver la forma de la población padre, pero podemos intentar inferirla con base en la distribución de datos en la muestra. Si los datos de la muestra tiene valores atípicos o asimetría, debemos dudar que la población padre sea aproximadamente normal, y entonces la distribución muestral de x¯ puede tampoco ser normal. Pero si los datos son aproximadamente simétricos y no muestran valores atípicos o una asimetría fuerte, podemos suponer que la distribución muestral de x¯ será aproximadamente normal.
La idea principal es que necesitamos graficar los datos de la muestra cuando n<30, y entonces tomar una decisión acerca de la condición de normalidad con base en la apariencia de los datos muestrales.

La condición de independencia

Para usar la fórmula para la desviación estándar de x¯, necesitamos que las observaciones individuales sean independientes. En un experimento, un buen diseño normalmente se encarga de la independencia entre los sujetos (diferentes tratamientos, control, aleatorización).
En un estudio observacional que implica muestreos sin reemplazo, las observaciones individuales no son técnicamente independientes puesto que quitar cada observación cambia la población. Sin embargo, la condición del 10% dice que si muestreamos 10% de la población o menos podemos tratar las observaciones individuales como independientes ya que quitar observaciones mientras muestreamos no cambia tanto la población. Por ejemplo, si el tamaño de la muestra es n=30, debe haber por lo menos N=300 miembros en la población de la muestra para cumplir con la condición de independencia.
Suponer independencia entre las observaciones nos permite utilizar esta fórmula para la desviación estándar de x¯ cuando hacemos intervalos de confianza o pruebas de significancia:
σx¯=σn
Generalmente no se conoce la desviación estándar de la población, σ, por lo que sustituimos la desviación estándar de la muestra, sx, como una estimación de σ. Cuando hacemos esto, lo llamamos el error estándar de x¯ para distinguirlo de la desviación estándar.
Así que nuestra fórmula para el error estándar de x¯ es:
σx¯sxn

Resumen

Si se cumplen las tres condiciones, podemos sentirnos bien con el uso de las distribuciones t para establecer un intervalo de confianza o realizar una prueba de significancia. Satisfacer estas condiciones hace que nuestros cálculos sean precisos y las conclusiones fiables.
La condición de aleatoriedad es quizás la más importante. Si no la cumplimos, probablemente haya un sesgo en los datos. La única manera confiable de corregir una muestra sesgada es recolectar los datos de una manera insesgada.
Las otras dos condiciones son importantes, pero si no cumplimos las condición de normalidad o la de independencia, es posible que no tengamos que comenzar desde el principio. Por ejemplo, hay una manera de corregir la falta de independencia cuando muestramos más del 10% de una población, pero eso está más allá del alcance de lo que estamos aprendiendo ahora.
La idea principal es que es importante verificar que se cumplan ciertas condiciones antes de establecer estos intervalos de confianza o realizar estas pruebas de significancia.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.