If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Calcular el coeficiente de correlación r

La manera más común de calcular el coeficiente de correlación (r) consiste en usar la tecnología, pero el uso de la fórmula nos ayuda a comprender cómo con r se mide la dirección y la fuerza de la asociación lineal entre dos variables cuantitativas.

¿Quieres unirte a la conversación?

  • Avatar blobby green style para el usuario jhondal2620
    disculpen, me surge una duda, con este coeficiente de correlación, su pasa que los puntajes z son muy grandes haciendo que la sumatoria sea mas grande que el numero de elementos n, se podría tener valores de r mayores que 1 o menores que -1, además también creo que la formula r tiende a 0 cuando la sumatoria tiende a 0, es decir cuando los puntajes z son muy pequeños, lo que implica que los valores no estarían muy lejanos a la media y por tanto poco atípicos. Disculpen la molestia, solo es una duda que me surgió al intentar analizar la formula de r.
    (2 votos)
    Avatar Default Khan Academy avatar para el usuario
  • Avatar blobby green style para el usuario Laura Moyano
    (2-2/0,816)(2-3/2,160) porque se anula si (2-3/2,160)da menos-1y eso en si no es cero. No entiendo ahí
    (1 voto)
    Avatar Default Khan Academy avatar para el usuario
¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

lo que vamos a hacer en este vídeo es calcular a mano el coeficiente de correlación para un conjunto de datos variados y cuando digo y variados es simplemente una forma elegante de decir que para cada x que tengamos en un punto que representa un dato voy a tener su correspondiente y en ese mismo punto bien ahora antes de que calculemos este coeficiente de correlación déjame ver que estemos completamente seguros de que entendemos esta otra información estadística que nos dan así que si suponemos que estas son las muestras que nos dan de una población más amplia cada una con sus correspondientes xy james entonces por aquí tenemos la media muestral para x y la desviación estándar muestral también para x ahora viene la media muestral para x fue muy fácil de calcular fue simplemente 1 + 2 más 2 + 3 todo esto sobre 4 lo cual es 8 sobre 4 que es simplemente 2 borremos esto y ahora la desviación estándar muestral como ya hemos visto antes la encontramos con la raíz cuadrada de la suma de las distancias de cada uno de estos puntos a la media muestral al cuadrado ya su vez todo eso dividido entre el número de datos menos uno lo cual va a ser bueno uno menos dos al cuadrado más dos menos dos al cuadrado donde 12 es este número de aquí más dos menos dos al cuadrado otra vez se repiten más 3 - 2 al cuadrado ya todo esto hay que dividirlo entre el número de datos que como hablamos de la desviación estándar muestral tenemos cuatro puntos y serán 41 lo que nos da 3 ahora lo bueno es que esto se simplifica bastante bien porque este 0 este 0 este de aquí es 1 y este también es uno por lo que esencialmente nos quedamos con la raíz cuadrada de dos tercios que es aproximadamente cero punto 816 así que de lujo de aquí sale esto ahora tenemos lo mismo para la media muestral para james es la suma de 12 36 estos dividido entre 4 lo cual es simplemente 3 y también tenemos una desviación estándar muestral para ello la cual podemos calcular de la misma manera que para x y en este caso vamos a obtener aproximadamente 2.160 bien ahora con todo esto vamos a pensar en cómo calcular el coeficiente de correlación así que por aquí voy a poner la representación o la fórmula para calcular el coeficiente de correlación y tal vez en un principio parezca un poco intimidante pero realmente lo único que está diciendo es para cada valor de x y encontraremos el puntaje z para x z de x esto para cada x en particular entonces déjame ponerlo x in y podemos decir que está de acá es el puntaje z para cada quien particular z y el subíndice y ahora lo que esto me está diciendo es mira para cada dato x que tengamos encuentra la diferencia entre él y la media muestral y esa diferencia divide la entre la desviación estándar muestral o es lo mismo que decir cuántas desviaciones estándar muestrales tenemos de la diferencia de un valor particular de xy la media muestral así que esto es lo que representa el puntaje z para cada dato x y por acá tenemos lo mismo para allá el puntaje z para cada dato james es cuántas desviaciones estándar muestrales tenemos de la diferencia de un valor particular jeff y la media muestral y vamos a sumar todas estas y lo vamos a dividir entre el número de datos menos uno ahora en el mundo real no vamos a tener sólo cuatro puntos podemos tener muchos más pero esto lo haría muy pesado de calcular a mano qué bueno comúnmente usamos algún programa de computadora que nos ayuden a resolver este tipo de ejercicios pero en esta ocasión lo vamos a hacer paso por paso así que bueno en esta situación particular efe va a ser igual a 1 / n 1 que como tenemos cuatro pares de datos entonces será un tercio por la suma de los productos de los puntajes z así que en el primer par que tenemos aquí me va a dar los siguientes puntajes z observa el primer puntaje z para x1 va a ser igual a bueno tengo uno menos 2 es decir qué tan lejos estamos de la media muestral entre la desviación estándar muestral que eran 0 punto 816 bien ya esto hay que multiplicarlo y ahora vamos a fijarnos en la variable ya tengo la distancia entre la variable james y la media muestral lo cual va a ser 1 menos tres entre la desviación estándar muestral en tiempo que eran 2.160 y ahora nos vamos a mantener haciendo esto varias veces así que vamos a ver el siguiente el siguiente es 22 entre 0.8 116 es decir que este 2 le estoy quitando la media muestral en x bien y bueno todo esto lo voy a multiplicar por y ahora vamos a fijarnos en este 2 en este 12 10 menos 3 entre 2.160 ya esto le vamos a sumar y bueno está muy bien que tenemos solo cuatro datos así que vamos al tercero tengo otra vez 22 menos 2 entre 0.8 116 x y ahora tengo este 3 menos 3 que también es la media muestral en que entre 2.160 el último par que es bueno tengo 3 - 2 entre 0.8 cientos 16 ya esto multiplicado por 6 menos tres entre 2.160 bien ahora antes de traer la calculadora por acá vamos a ver si tenemos algunas simplificaciones porque por ejemplo aquí tengo 2 - 2 esto va a ser cero y cero por lo que sea es cero entonces todo esto se va y por acá tengo también dos menos dos y tres menos tres lo cual también se va ya que arriba tengo uno menos dos lo cual es menos uno y uno menos tres lo cual es menos dos entonces vamos a escribir lo tengo que r va a ser igual a un tercio que multiplica a bueno menos uno por menos 2 2 entonces me va a quedar 2 entre 0.8 116 por 2.160 ya esto le tengo que sumar 32 que es 16 menos 33 entonces me queda 1 por 3 estrés entre lo mismo 0.8 116 por 2.160 y ahora observa como tenemos el mismo denominador ojo tengo 2 entre esta cosa más 3 entre esa misma cosa bueno eso va a ser igual a 5 entre esa misma cosa así que puedo escribirlo todo en una presión como 5 entre 0.8 116 por 2.160 y ahora si es momento de traer la calculadora para came para obtener este resultado así que déjenme escribirlo un tercio esto que va a multiplicar a 5 entre 0.8 116 por 2.160 ok esto va a ser igual y observa obtenemos 0.900 46 redondeado a milésimas entonces eres aproximadamente 0 punto 946 dejame escribirlo r es aproximadamente 0 punto 946 bien así que que nos dice esto bueno el coeficiente de correlación es la medida que nos dice que también puede describir una recta la relación entre xy y even siempre va a ser mayor o igual a menos 1 y menor o igual a 1 si fuera igual a 1 entonces eso significa que tenemos una recta con pendiente positiva que completamente puede describir esta relación y si ere fuera menos 1 entonces eso significaría que tenemos una recta con pendiente negativa que completamente puede describir esta relación y una r entre estos dos valores lo que nos indica es que también los describe claro si eres igual a cero entonces la recta no describe en nada la relación entre x y ahora regresando a nuestro caso particular nuestra r es muy cercana a 1 lo que significa que en la recta describe la relación de una manera muy adecuada así que por ejemplo estoy intentando hacer un dibujo a mano de la recta que pasa por la media muestral de x y d elía es decir que pasa por el punto 23 esto lo vamos a aprender con más detalle en el siguiente vídeo y de bueno si la pongo por aquí creo que esta parece una muy buena recta ahora observa que es una recta que describe bastante bien la relación entre xy de todos los puntos no es perfecta porque en ese caso tendremos una red de 1 pero es una aproximación bastante buena para describir qué está pasando en esta gráfica ahora la siguiente cosa que quiero hacer es que nos enfoquemos en la intuición que es lo que está pasando con estos puntajes z y cómo es que el producto de los puntajes z correspondientes nos dan esta propiedad de la que acabamos de hablar es decir donde era igual a 1 te da una fuerte correlación positiva y donde era igual a menos 1 te da una fuerte correlación negativa bueno vamos a dibujar por aquí la media muestral esto para x que ya sabemos que es igual a 2 entonces déjame dibujarla por aquí este es el eje x de aquí tenemos todos los valores que podemos tomar en x igualados y para ello sabemos que es de 3 así que voy a hacer lo mismo este es el eje 10 y aquí tenemos la recta y igual a 3 ahora podemos dibujar también las desviaciones estándar muestrales veamos la desviación estándar muestral para x es de 0.8 cientos 16 aproximadamente así que si me aproximo y tomo 0.8 116 menos que la media voy a obtener algún lugar por aquí así que esta es la desviación estándar muestral debajo de la media muestral y ahora vamos a hacer una desviación estándar muestral por encima de la media muestral lo cual me va a dar algo por aquí un lugar que va a pasar por aquí y si hago lo mismo para ayer bueno la desviación estándar muestral por encima de la media muestral me dan bueno observar 3 2.160 es como 5.160 y la desviación estándar muestral por debajo de la media muestral me da algo como un 3 menos 2 es 11 menos 0.160 es como 0.8 cientos 40 es decir algún lugar de por aquí bien así que por ejemplo para este par 1,1 que es lo que estamos haciendo ok lo que estamos diciendo a cuántas desviaciones estándar muestrales estamos de la media muestral y eso es menos 1 entre 0.8 116 que es lo que tenemos aquí y calculamos por acá y después nos preguntamos a cuantas desviaciones estándar muestrales estamos en dirección jeff de la media muestral en ese punto lo cual nos da menos 2 entre 2.160 y ojo aunque ambas son negativas las dos contribuyen para obtener al final obtenemos un valor positivo al multiplicar las y la forma de pensarlo es que esto nos ayuda a acercarnos un poquito más a uno esto sí ambos tienen un puntaje z negativo eso quiere decir que aún así tenemos una correlación positiva entre las variables ahora si nos fijamos en otro punto que nos dan como dato este el 22 bueno la variable x va a estar justo en la media y es por eso que todo el término se vuelve a cero se elimina el puntaje z es cero y ojo esto no contribuye a nuestra r entonces nos aleja un poco de uno la razón del por qué nos aleja un poco de uno aunque no sea negativo es porque no está contribuyendo la suma y de todas maneras se dividen entre este valor n 1 que incluye a este par de datos 2 2 y si tuvieras un punto donde x estuviera por debajo de la media y estuviera por arriba de la media bueno en este caso tendremos que sumar algo negativo porque el puntaje z de ye sería positivo y el puntaje zeta de x sería negativo y ahora cuando lo ponemos en la suma en ese caso lo que estaríamos haciendo es quitarle o restarle a la suma lo que haría que el resultado de r fuera menor y de manera similar pasa en este caso donde x se encuentra por arriba de la media y jeff por debajo de ella lo que nos daría el producto de algo positivo por algo negativo y entonces el resultado de r sería menor bien hasta aquí dejemos este vídeo y continuamos en el siguiente