If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Prueba de la tabla de contingencia Ji cuadrada

Usamos la tabla de contingencia de la prueba ji cuadrada para ver si un par de hierbas distintas previenen que la gente se enferme. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

digamos que hay un par de hierbas que las personas creen que ayudan a prevenir la influenza para probar esto esperamos a la temporada de influenza y seleccionamos aleatoriamente a personas para tratar diferentes grupos lo sabemos ya sea en un grupo tomando la hierba uno el segundo grupo tomando la hierba 2 o el tercer grupo en donde toman un placebo si ustedes no saben lo que es un placebo es algo que toma el paciente o la persona que está participando y que le hace creer que está tomando medicinas que se les dice que le puede ayudar pero realmente no hace nada podría ser una pastillita de azúcar algo que solamente aparenta ser medicina y las personas mejoran a esto se le llama efecto placebo en donde a las personas se les dice que se le está dando medicina cuando realmente no es nada y aún así mejoran así que esto de aquí podría ser una pastillita de azúcar una cantidad muy pequeña de azúcar que no les puede afectar en nada y aquí tenemos una tabla qué se le llama tabla de contingencia tabla de contingencia y esta tabla contiene por cada grupo el número de personas que se enfermaron y el número de personas que no se enfermaron y de esta tabla podemos calcular el total de personas en cada grupo en el grupo 1 tenemos un total de 120 en el grupo 2 tenemos un total de 140 y en el grupo del placebo tenemos un grupo de 120 también podemos calcular el número total de personas que se enfermaron y el número total de personas que no se enfermaron tenemos 20 más 30 50 50 más treinta igual a 80 y de los que no se han enfermado son 100 + 110 210 más 90 son 300 y el total de personas aquí es de 380 tanto de esa columna como de este renglón y haciendo un lado a esto vamos a ver que podemos utilizar de esta tabla de contingencia y usaremos nuestro conocimiento sobre la tabla cuadrada para llegar a alguna conclusión denunciemos una hipótesis la hipótesis 0 dice que las hierbas no hacen nada vamos a asumir y hacer más espacio aquí con la hipótesis 0 que las hierbas a hacer nada y tenemos otra hipótesis alternativa que vamos a llamar h 1 en donde las hierbas si hacen algo las hierbas si hacen algo y de hecho no me interesa si es que de verdad están mejorando incluso podrían aumentar su probabilidad de enfermarse no estamos probando si son buenas o no sino si están haciendo algo o nuestras haciendo nada y para probar estas hipótesis vamos a asumir la hipótesis cero hipótesis cero y dado que estamos asumiendo esto vamos a calcular cuál es la probabilidad de encontrar datos como estos o de que lleguen al extremo de ser muy bajos y si es muy bajo entonces rechazaremos la hipótesis cero y en esa prueba como en cualquier prueba de hipótesis necesitamos un nivel de significación y digamos que nuestro nivel de significación es un 10% o un 0.1 que es igual al 10% y ese es nuestro nivel de significación ahora para hacer esto lo que necesitamos hacer es calcular la estadística y cuadrada para esta tabla de contingencia y para hacerlo vamos a realizar algo muy similar a la situación del restaurante vamos a calcular asumiendo la hipótesis 0 el resultado esperado en cada una de estas celdas le podemos llamar celda si estuviéramos viendo esto como una tabla de excel cada uno de esos cuadros sería una celda lo que hacemos es calcular el valor esperado existiría si se cumple lo que asumimos con la hipótesis cero si asumimos que la hipótesis cero es la que se cumple entonces tenemos que encontrar la distancia al cuadrado de ese valor esperado que hemos normalizado por el valor esperado tomamos algunas de esas diferencias y si esas diferencias al cuadrado son realmente grandes la probabilidad de que esto se cumpla sería muy pequeña y por lo tanto rechazaríamos esta hipótesis ahora veamos cómo podemos obtener el número esperado asumiendo que las hierbas no hacen nada entonces debemos calcular de toda esta población aquellos que no les ha pasado nada y usar esa muestra de la población aunque bueno no debería usar la palabra población ya que esta es una muestra para calcular el número esperado de personas que se enferman o no se enferman por acá tenemos a 80 de los 380 que están enfermos y algo acabo de usar la palabra población no hemos tomado muestras de todas las personas que habitan en este planeta así que esto es sólo una muestra sacamos la calculadora aquí usa la palabra son más en el sentido social que en el sentido estadístico pero estas maneras de nuestra muestra y estamos usando toda la información y podemos usar toda la información para obtener la frecuencia esperada de los que se les forman y los que no se enfermen tenemos 80 entre 380 y nos da punto 21 lo que significa que el porcentaje de personas que se enferman es de el 21 por ciento 21 por ciento de los que si se enferman por lo tanto esa parte va a ser el 79 por ciento de las personas que no se enferman así que nosotros esperaríamos con base en la muestra total el 21 por ciento debería enfermarse y el 79 por ciento debería mantenerse sano así que vamos a revisar cada uno de estos grupos si nosotros asumiéramos que el 21 por ciento de estas 120 personas debería enfermarse cuál sería el valor esperado de acá vamos a multiplicar 21 por ciento este 21% por 120 usamos la calculadora y nos da 25 puntos 26 vamos a redondear lo esperaremos el 25.3 así que el número esperado el valor esperado asumiendo que el 21 por ciento de cada uno de los grupos debe enfermarse esperaremos el 25.3 de las personas que se enfermen en este grupo y los que sobren no se deberán enfermar así que ahora puedo restar 25.3 a 120 o multiplicar esto por el 79% cualquiera de las 2 da lo mismo vamos a hacer 120 menos 25.3 y tengo 94.7 94.7 son los que se espera que no se enfermen el valor esperado esperado 94.7 y vamos a hacer lo mismo para cada uno de estos grupos para el grupo 2 tenemos tomamos el total de 140 y obtenemos el 21% de ello el resultado de el 21% de 140 es 29.4 el resto de esto vamos a restar 140 menos 29.4 es 110.6 de los que no se deben enfermar lo escribimos en el renglón de valores esperados 20 punto 4 que deberían enfermarse si las hierbas no hicieran nada y aquí tenemos 110 puntos 6 los cuales no deberían enfermarse si la hipótesis 0 es correcta y esos valores pues están bastante cercanos a los que tenemos en la tabla de hecho pareciera que la hierba no hace mucho dado el total de las cantidades que tenemos aquí en el grupo placebo vamos a ver que obtenemos tenemos 30 es no esperamos 21 por ciento del total punto 21 por ciento 20 y nos da 25.2 lo anotamos en el valor esperado del grupo del placebo aunque por aquí debía haber redondeado esto porque ese es un 21 punto y tantos por ciento así que deberíamos esperar la misma proporción de las personas que se enferman 25.3 para que seamos consistentes la razón por la que obtuve un 23.2 es que perdí algo de la precisión en este porcentaje pero ya que los tengo aquí los voy a usar aquí también en esta parte de acá vamos a esperar el 94.7 94.7 si revisamos esta información veremos que la hierba 2 hasta cierto punto es peor que el placebo no no no me equivoqué se esperaría un número más bajo si tuviéramos más personas enfermas acá pero bueno no vamos a juzgar bien no solamente los números vamos a calcular nuestras estadísticas de eje cuadrada para hacer eso vamos a sacar nuestras estadísticas nuestra estadística he cuadrada la voy a escribir así y bueno mejor así como una equis grande esta variable de distribución aleatoria es aproximada a la distribución y cuadrada que voy a escribir así no mejor vamos a escribir la equis curveada así que nuestra estadística es cuadrada así que nuestra estadística cuadrada por acá vamos a encontrar la distancia al cuadrado es decir la diferencia entre el valor esperado y el valor observado y después dividirlo entre la esperada 20 - 25.3 al cuadrado y después dividirlo entre la esperada 25 puntos 3 más 30 menos 29.4 al cuadrado / 29.4 y me he quedado sin espacio más 30 menos 25.3 esto elevado al cuadrado entre 25.3 y ahora corresponde hacer lo mismo con los valores de abajo y necesito hacer más espacio así que es más 100 - 94.7 al cuadrado entre 90 y 4.7 más y bueno ustedes ya pueden adivinar lo que sigue 110 - 110.6 al cuadrado entre 110 puntos 6 y finalmente más 90 entre 90 y 4.7 perdón 90 menos 94.7 todo esto al cuadrado vamos a movernos un poco al cuadrado entre 90 y 4.7 y para calcular todo esto vamos a necesitar nuestra calculadora nos va a llevar algo de tiempo pero no importa tenemos vamos a poner paréntesis 20 - 25.3 elevado al cuadrado entre 25.3 esto más ahora paréntesis 30 menos 29.4 elevado al cuadrado entre 29.4 abrimos paréntesis 30 - 25.3 al cuadrado / ya saben 25.3 llamamos a la mitad más 100 menos abro paréntesis 100 menos 94.7 al cuadrado entre 90 y 4.7 as abro paréntesis 110 - 610 puntos 6 al cuadrado dividido en 3 110.6 el último más 90 - 94.7 al cuadrado / 94.7 vaya terminamos obtenemos 2.528 vamos a redondear las 2.53 así que nuestra estadística de la ji cuadrada aunque es algo difícil de pronunciar estadística de ji cuadrada asumiendo que la hipótesis cero es correcta va a ser igual a 2.53 y ahora tenemos que calcular los grados de libertad que tenemos al calcular esta estadística de jia cuadrado y les daré una regla de oro y veremos cuál es la razón de por qué esta es una regla de oro para tablas de contingencia como esta y más adelante hablaremos con más detalle de los grados de libertad esta regla de oro para las tablas de contingencia es tener el número de renglones y tenemos nuestro número de columnas tenemos dos renglones y tres columnas y los grados de libertad y esta es la regla de oro vamos a escribirlo aquí abajo donde hay más espacio los grados de libertad para la tanda de contingencia van a ser el número de renglones menos uno multiplicado por el número de columnas menos una en este caso tenemos dos renglones tres columnas dos menos uno es igual a 13 menos 1 es igual a 2 lo escribimos acá 2 - 1 por 3 menos 11 por 2 igual a 2 por lo que tenemos dos grados de libertad ahora veamos por qué esta regla tiene sentido aunque en el futuro veremos esto con más detalle es que si asumimos que conocemos los totales si conocemos toda esta información que estoy sufriendo acá si conocemos la información total o incluso si conocemos los parámetros de la población si conocemos r - uno de la información en los renglones la última puede calcularse al restar la del total por ejemplo en esta situación si conocemos esto podremos calcular esto otro esto no es información nueva es el total menos la información que conozco y lo mismo aplica en esta otra columna si conozco este valor al restar lo del total voy a obtener el valor de acá y de manera similar si conocemos estos dos podré calcular el tercer elemento al restar lo que conozco del total del renglón y esa es la razón de por qué los grados de libertad están más o menos en función del número de columnas y de renglones de la tabla de contingencia así pues nuestra estadística de gi cuadrada tiene dos grados de libertad ahora lo que tenemos que hacer es bueno recuerden que el nivel de significación que queremos el valor de alfa es el 10% lo vamos a recibir aquí abajo alfa igual a 10% así que lo que vamos a hacer es calcular cuál es la estadística cuadrada crítica que nos da el 10% si esto más al extremo si la probabilidad de obtener esto fuera menos que la estadística crítica menos del 10% entonces rechazaríamos la hipótesis cero si no es tan extrema entonces no vamos a rechazar nuestra hipótesis lo siguiente que vamos a hacer es encontrar nuestra distribuciones y cuadrada con dos grados de libertad y ver cuál es la estadística cuadrada crítica veamos nuestra gráfica encontramos dos grados de libertad y estamos buscando un nivel de significación del 10% y encontramos que nuestro valor de distribución y cuadrada es 4.60 otra forma de visualizar esto es si vemos esta distribución cuadrada con dos grados de libertad que es esta línea de color azul de acá con un valor crítico que voy a dibujar aquí en un azul bonito un valor crítico de 4.60 estos cinco entonces 4.60 va a estar más o menos por acá en este valor crítico de 4.60 lo escribo la probabilidad de tener algo al menos tal extremo o más extremo aún es el 10% esto es lo que nos interesa si la estadística he cuadrada que calculamos cae dentro de esta área de rechazo pues tendremos que rechazar nuestra hipótesis cero pero nos estadística he cuadrado es de apenas dos puntos 53 si lo vemos en nuestra gráfica 2.53 más o menos queda por acá así que realmente no tiene nada de raro el asumir que es verdadera nuestra hipótesis 0 con base a la información que tenemos actualmente no podemos rechazar la hipótesis 0 y aunque no sabemos a ciencia cierta que las hierbas no hagan nada tampoco podemos decir que hagan algo realmente con base al menos en esta información por lo que no vamos a rechazar esta hipótesis aunque no podemos decir que esto es 100% verdadero al menos desde este punto de vista vemos que las hierbas al parecer no hacen gran cosa y vemos que incluso una de estas columnas es un placebo así que no hay gran diferencia entre ellas