Contenido principal
Estadística y probabilidad
Curso: Estadística y probabilidad > Unidad 12
Lección 4: Pruebas sobre una media poblacional- Escribir hipótesis para una prueba de significancia sobre una media
- Escribir hipótesis para una prueba sobre una media
- Condiciones para una prueba t sobre una media
- Referencia: condiciones para la inferencia en una media
- Condiciones para una prueba t sobre una media
- Cuándo usar el estadístico z o el estadístico t en pruebas de significancia
- Calcular un estadístico t para una prueba sobre una media
- Calcular el estadístico de prueba en una prueba t para una media
- Usar una calculadora TI para valores p a partir del estadístico t
- El uso de una tabla para estimar el valor p del estadístico t
- Calcular el valor p en una prueba t para una media
- La comparación del valor p del estadístico t y el nivel de significancia
- Sacar conclusiones en una prueba t para una media
- Ejemplo de respuesta libre: prueba de significancia para una media
© 2023 Khan AcademyTérminos de usoPolítica de privacidadAviso de cookies
Referencia: condiciones para la inferencia en una media
Cuando queremos hacer inferencias en una media (construir un intervalo de confianza o hacer una prueba de significancia), la exactitud de nuestros métodos depende de algunas condiciones. Antes de hacer los cálculos reales del intervalo o de la prueba, es importante comprobar si se cumplen estas condiciones, de lo contrario los cálculos y conclusiones que resultan pueden no ser correctos.
Las condiciones que necesitamos para la inferencia en una media son:
- Aleatoriedad: debe utilizarse una muestra aleatoria o un experimento aleatorizado para obtener los datos.
- Normalidad: la distribución muestral de
(la media de la muestra) debe ser aproximadamente normal. Esto se cumple si nuestra población padre es normal o si la muestra es razonablemente grande . - Independencia: las observaciones individuales deben ser independientes. Si se muestrea sin reemplazo, nuestro tamaño de la muestra no debe ser más del
de la población.
Echemos un vistazo a cada una de estas condiciones un poco más a fondo.
La condición de aleatoriedad
Las muestras aleatorias nos dan datos no sesgados de una población. Cuando no usamos la selección aleatoria, los datos resultantes generalmente tienen algún tipo de sesgo, así que usarlos para inferir algo acerca de la población puede ser riesgoso.
Más específicamente, las medias muestrales son estimadores no sesgados de la media de su población. Por ejemplo, supongamos que tenemos una bolsa de pelotas de ping pong numeradas individualmente de a , por lo que la población media de la bolsa es . Podríamos tomar muestras aleatorias de las pelotas de la bolsa y calcular la media de cada muestra. Algunas muestras tendrían una media superior a y otras una más baja. Pero en promedio, la media de cada muestra será igual a . Escribimos esta propiedad como , que es verdadera siempre y cuando tomemos muestras aleatorias.
Esto no necesariamente ocurrirá si usamos una muestra que no sea aleatoria. Las muestras sesgadas conducen a resultados inexactos, por lo que no se deben usar para crear intervalos de confianza o realizar pruebas de significancia.
La condición de normalidad
La distribución muestral de (una media muestral) es aproximadamente normal en algunos casos diferentes. La forma de la distribución muestral de depende sobre todo de la forma de la población padre y del tamaño de la muestra, .
Caso 1: la población padre se distribuye normalmente
Si la población padre se distribuye normalmente, entonces la distribución muestral de es aproximadamente normal, independientemente del tamaño de la muestra. Por lo que si sabemos que la población padre se distribuye normalmente, pasamos esta condición, incluso si el tamaño de muestra es pequeño. En la práctica, sin embargo, generalmente no sabemos si la población padre se distribuye normalmente.
Caso 2: la población padre es desconocida o no normal; el tamaño de la muestra es grande ( )
La distribución muestral de es aproximadamente normal siempre que el tamaño de la muestra sea razonablemente grande. Debido al teorema del límite central, cuando , podemos tratar la distribución muestral de como aproximadamente normal independientemente de la forma de la población padre.
Hay unos pocos casos excepcionales en los que la población padre tiene una forma tan inusual que la distribución de la media muestral no es muy normal para tamaños de muestra cercanos a . Estos casos son raros, por lo tanto, en la práctica, generalmente es seguro suponer que la distribución muestral es aproximadamente normal cuando .
Caso 3: la población padre es desconocida o no normal; el tamaño de la muestra es pequeño ( )
Siempre que la población padre no tenga valores atípicos o una fuerte asimetría, incluso las muestras más pequeñas van a producir una distribución muestral de que es aproximadamente normal. En la práctica, generalmente no podemos ver la forma de la población padre, pero podemos intentar inferirla con base en la distribución de datos en la muestra. Si los datos de la muestra tiene valores atípicos o asimetría, debemos dudar que la población padre sea aproximadamente normal, y entonces la distribución muestral de puede tampoco ser normal. Pero si los datos son aproximadamente simétricos y no muestran valores atípicos o una asimetría fuerte, podemos suponer que la distribución muestral de será aproximadamente normal.
La idea principal es que necesitamos graficar los datos de la muestra cuando , y entonces tomar una decisión acerca de la condición de normalidad con base en la apariencia de los datos muestrales.
La condición de independencia
Para usar la fórmula para la desviación estándar de , necesitamos que las observaciones individuales sean independientes. En un experimento, un buen diseño normalmente se encarga de la independencia entre los sujetos (diferentes tratamientos, control, aleatorización).
En un estudio observacional que implica muestreos sin reemplazo, las observaciones individuales no son técnicamente independientes puesto que quitar cada observación cambia la población. Sin embargo, la condición del dice que si muestreamos de la población o menos podemos tratar las observaciones individuales como independientes ya que quitar observaciones mientras muestreamos no cambia tanto la población. Por ejemplo, si el tamaño de la muestra es , debe haber por lo menos miembros en la población de la muestra para cumplir con la condición de independencia.
Suponer independencia entre las observaciones nos permite utilizar esta fórmula para la desviación estándar de cuando hacemos intervalos de confianza o pruebas de significancia:
Generalmente no se conoce la desviación estándar de la población, , por lo que sustituimos la desviación estándar de la muestra, , como una estimación de . Cuando hacemos esto, lo llamamos el error estándar de para distinguirlo de la desviación estándar.
Así que nuestra fórmula para el error estándar de es:
Resumen
Si se cumplen las tres condiciones, podemos sentirnos bien con el uso de las distribuciones para establecer un intervalo de confianza o realizar una prueba de significancia. Satisfacer estas condiciones hace que nuestros cálculos sean precisos y las conclusiones fiables.
La condición de aleatoriedad es quizás la más importante. Si no la cumplimos, probablemente haya un sesgo en los datos. La única manera confiable de corregir una muestra sesgada es recolectar los datos de una manera insesgada.
Las otras dos condiciones son importantes, pero si no cumplimos las condición de normalidad o la de independencia, es posible que no tengamos que comenzar desde el principio. Por ejemplo, hay una manera de corregir la falta de independencia cuando muestramos más del de una población, pero eso está más allá del alcance de lo que estamos aprendiendo ahora.
La idea principal es que es importante verificar que se cumplan ciertas condiciones antes de establecer estos intervalos de confianza o realizar estas pruebas de significancia.
¿Quieres unirte a la conversación?
- "A las, ¿cómo es la Luna lo suficientemente grande como para bloquear el Sol? ¿No es el Sol mucho más grande que la Luna? 5:31(4 votos)