If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Referencia: condiciones para la inferencia en una media

Cuando queremos hacer inferencias en una media (construir un intervalo de confianza o hacer una prueba de significancia), la exactitud de nuestros métodos depende de algunas condiciones. Antes de hacer los cálculos reales del intervalo o de la prueba, es importante comprobar si se cumplen estas condiciones, de lo contrario los cálculos y conclusiones que resultan pueden no ser correctos.
Las condiciones que necesitamos para la inferencia en una media son:
  • Aleatoriedad: debe utilizarse una muestra aleatoria o un experimento aleatorizado para obtener los datos.
  • Normalidad: la distribución muestral de x, with, \bar, on top (la media de la muestra) debe ser aproximadamente normal. Esto se cumple si nuestra población padre es normal o si la muestra es razonablemente grande left parenthesis, n, is greater than or equal to, 30, right parenthesis.
  • Independencia: las observaciones individuales deben ser independientes. Si se muestrea sin reemplazo, nuestro tamaño de la muestra no debe ser más del 10, percent de la población.
Echemos un vistazo a cada una de estas condiciones un poco más a fondo.

La condición de aleatoriedad

Las muestras aleatorias nos dan datos no sesgados de una población. Cuando no usamos la selección aleatoria, los datos resultantes generalmente tienen algún tipo de sesgo, así que usarlos para inferir algo acerca de la población puede ser riesgoso.
Más específicamente, las medias muestrales son estimadores no sesgados de la media de su población. Por ejemplo, supongamos que tenemos una bolsa de pelotas de ping pong numeradas individualmente de 0 a 30, por lo que la población media de la bolsa es 15. Podríamos tomar muestras aleatorias de las pelotas de la bolsa y calcular la media de cada muestra. Algunas muestras tendrían una media superior a 15 y otras una más baja. Pero en promedio, la media de cada muestra será igual a 15. Escribimos esta propiedad como mu, start subscript, x, with, \bar, on top, end subscript, equals, mu, que es verdadera siempre y cuando tomemos muestras aleatorias.
Esto no necesariamente ocurrirá si usamos una muestra que no sea aleatoria. Las muestras sesgadas conducen a resultados inexactos, por lo que no se deben usar para crear intervalos de confianza o realizar pruebas de significancia.

La condición de normalidad

La distribución muestral de x, with, \bar, on top (una media muestral) es aproximadamente normal en algunos casos diferentes. La forma de la distribución muestral de x, with, \bar, on top depende sobre todo de la forma de la población padre y del tamaño de la muestra, n.

Caso 1: la población padre se distribuye normalmente

Si la población padre se distribuye normalmente, entonces la distribución muestral de x, with, \bar, on top es aproximadamente normal, independientemente del tamaño de la muestra. Por lo que si sabemos que la población padre se distribuye normalmente, pasamos esta condición, incluso si el tamaño de muestra es pequeño. En la práctica, sin embargo, generalmente no sabemos si la población padre se distribuye normalmente.

Caso 2: la población padre es desconocida o no normal; el tamaño de la muestra es grande (n, is greater than or equal to, 30)

La distribución muestral de x, with, \bar, on top es aproximadamente normal siempre que el tamaño de la muestra sea razonablemente grande. Debido al teorema del límite central, cuando n, is greater than or equal to, 30, podemos tratar la distribución muestral de x, with, \bar, on top como aproximadamente normal independientemente de la forma de la población padre.
Hay unos pocos casos excepcionales en los que la población padre tiene una forma tan inusual que la distribución de la media muestral x, with, \bar, on top no es muy normal para tamaños de muestra cercanos a 30. Estos casos son raros, por lo tanto, en la práctica, generalmente es seguro suponer que la distribución muestral es aproximadamente normal cuando n, is greater than or equal to, 30.

Caso 3: la población padre es desconocida o no normal; el tamaño de la muestra es pequeño (n, is less than, 30)

Siempre que la población padre no tenga valores atípicos o una fuerte asimetría, incluso las muestras más pequeñas van a producir una distribución muestral de x, with, \bar, on top que es aproximadamente normal. En la práctica, generalmente no podemos ver la forma de la población padre, pero podemos intentar inferirla con base en la distribución de datos en la muestra. Si los datos de la muestra tiene valores atípicos o asimetría, debemos dudar que la población padre sea aproximadamente normal, y entonces la distribución muestral de x, with, \bar, on top puede tampoco ser normal. Pero si los datos son aproximadamente simétricos y no muestran valores atípicos o una asimetría fuerte, podemos suponer que la distribución muestral de x, with, \bar, on top será aproximadamente normal.
La idea principal es que necesitamos graficar los datos de la muestra cuando n, is less than, 30, y entonces tomar una decisión acerca de la condición de normalidad con base en la apariencia de los datos muestrales.

La condición de independencia

Para usar la fórmula para la desviación estándar de x, with, \bar, on top, necesitamos que las observaciones individuales sean independientes. En un experimento, un buen diseño normalmente se encarga de la independencia entre los sujetos (diferentes tratamientos, control, aleatorización).
En un estudio observacional que implica muestreos sin reemplazo, las observaciones individuales no son técnicamente independientes puesto que quitar cada observación cambia la población. Sin embargo, la condición del 10, percent dice que si muestreamos 10, percent de la población o menos podemos tratar las observaciones individuales como independientes ya que quitar observaciones mientras muestreamos no cambia tanto la población. Por ejemplo, si el tamaño de la muestra es n, equals, 30, debe haber por lo menos N, equals, 300 miembros en la población de la muestra para cumplir con la condición de independencia.
Suponer independencia entre las observaciones nos permite utilizar esta fórmula para la desviación estándar de x, with, \bar, on top cuando hacemos intervalos de confianza o pruebas de significancia:
sigma, start subscript, x, with, \bar, on top, end subscript, equals, start fraction, sigma, divided by, square root of, n, end square root, end fraction
Generalmente no se conoce la desviación estándar de la población, sigma, por lo que sustituimos la desviación estándar de la muestra, s, start subscript, x, end subscript, como una estimación de sigma. Cuando hacemos esto, lo llamamos el error estándar de x, with, \bar, on top para distinguirlo de la desviación estándar.
Así que nuestra fórmula para el error estándar de x, with, \bar, on top es:
sigma, start subscript, x, with, \bar, on top, end subscript, approximately equals, start fraction, s, start subscript, x, end subscript, divided by, square root of, n, end square root, end fraction

Resumen

Si se cumplen las tres condiciones, podemos sentirnos bien con el uso de las distribuciones t para establecer un intervalo de confianza o realizar una prueba de significancia. Satisfacer estas condiciones hace que nuestros cálculos sean precisos y las conclusiones fiables.
La condición de aleatoriedad es quizás la más importante. Si no la cumplimos, probablemente haya un sesgo en los datos. La única manera confiable de corregir una muestra sesgada es recolectar los datos de una manera insesgada.
Las otras dos condiciones son importantes, pero si no cumplimos las condición de normalidad o la de independencia, es posible que no tengamos que comenzar desde el principio. Por ejemplo, hay una manera de corregir la falta de independencia cuando muestramos más del 10, percent de una población, pero eso está más allá del alcance de lo que estamos aprendiendo ahora.
La idea principal es que es importante verificar que se cumplan ciertas condiciones antes de establecer estos intervalos de confianza o realizar estas pruebas de significancia.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.