If you're seeing this message, it means we're having trouble loading external resources on our website.

Si estás detrás de un filtro de páginas web, por favor asegúrate de que los dominios *.kastatic.org y *.kasandbox.org estén desbloqueados.

Contenido principal

Definición a profundidad de la distribución normal

Explorar la distribución normal. Creado por Sal Khan.

¿Quieres unirte a la conversación?

¿Sabes inglés? Haz clic aquí para ver más discusiones en el sitio en inglés de Khan Academy.

Transcripción del video

la distribución normal es quizás la más el más importante de los conceptos en estadística todo lo que hacemos y todo lo que hacemos en estadística inferencial es esencialmente basado en datos que hasta cierto punto están basados en una distribución normal así que lo que quiero hacer en este vídeo en esta hoja de cálculo es que es esencialmente darles un un entendimiento profundo de lo que es esta distribución tanto como sea posible para que por el resto de tu vida tú sepas qué es la distribución normal su fórmula cómo se usa etcétera así que esta hoja de cálculo así como sabes es descargable en www.cai.es diagonal downloads y hasta ahí bueno ahí puedes ver todo lo que se puede descargar diagonal normal intro punto xls y ahí se puede descargar de esto de cualquier forma así si vas a la wikipedia puedes encontrar ahí tecleando la distribución normal de hecho déjenme poner mi herramienta de pluma esto es lo que van a encontrar literalmente yo copie y pegue esta fórmula de la wikipedia pero bueno esta sigma de aquí por ejemplo esa es la desviación estándar de la distribución vamos a jugar un poquito en esta gráfica con eso para ver qué significa y digo ya sabemos lo que significa la desviación estándar pero esta es la desviación estándar de esta distribución que es una función de densidad de probabilidad y te sugiero que vean de nuevo los vídeos de funciones de densidad porque es un poquito difícil saltar de la distribución vino vía binomial que es discreta a la normal por ejemplo en la binomial teníamos valores discretos es decir por ejemplo nos fijábamos en el histograma pero en una probabilidad continua no podemos decir cuál es la probabilidad de obtener un 5 necesitamos decir la probabilidad de estar entre algunos valores digamos entre 4.5 y 5.5 y ahí tendremos no sé en algún rango no entonces nuestra probabilidad podremos leer en esta no la podemos leer en la gráfica sino que vamos a calcular el área bajo la curva esta área así que para los que ya saben cálculo type de x es la función de densidad de probabilidad de una distribución normal bueno en general no es una distribución normal pero casi siempre digamos que queremos calcular la probabilidad de que mañana lluevan entre 4.5 y 5.5 pulgadas de lluvia entonces vamos a tener la integral de 4.5 a 5.5 de la función de densidad de probabilidad en este caso es la que está acá arriba de px de x así que ese es el área debajo de la curva para los que no han visto el cálculo les sugiero que vean los vídeos toda la lista de vídeos así que estamos obteniendo toda el área de 4.5 a 5.5 debajo de esa curva y esto es difícil de encontrar analíticamente analíticamente pero no numéricamente porque bueno como encontramos la integral de esto este podemos aproximar lo una forma de aproximar lo es por ejemplo si como lo hacíamos en general con integral es verdad usar el área de éste trapezoide y digamos aquí podemos figurar nos el área de éste trapezoide verdad pero también podríamos tomarnos el punto medio de la base y déjenme déjenme cambiar de color porque ya se está volviendo esto muy verde así que tomamos el punto medio digamos tomamos esta altura que está dada por la función y multiplicamos por la base para obtener el área de este rectángulo que que puede ser una muy buena aproximación verdad porque del lado derecho tenemos un excedente de área que es la que aparece como que la que le falta del lado izquierdo así que es lo que voy a hacer en este vídeo vamos a aproximar el área debajo de la curva y dar una buena un buen entendimiento de lo que es la distribución normal a partir de una binomial que esencialmente si uno tiene muchos intentos de un experimento digamos lo que es interesante de la distribución normal digamos si esta es la gráfica es la gráfica esto en otras palabras es lo que la gente le llama el teorema del límite central que es una de las cosas más interesantes del universo el teorema del límite central no lo voy a demostrar aquí por esencialmente nos dice que si tenemos algún tipo de fenómeno digamos tirar monedas y lanzamos muchas monedas todas ellas son independientes de cada uno de los otros intentos entonces si tomamos la suma de cada una de esas variables y aproximamos por un número infinito de ellas tendremos una distribución normal lo que es interesante a partir de estos intentos es que bueno realmente nunca tome que fuera una distribución normal cada uno de los intentos de la moneda simplemente podíamos hablar de interacciones moleculares en algún compuesto x que interactúa con otro compuesto y no sé puede no tener una distribución normal por lo que pasa es que si tomamos la suma de una infinidad de este tipo de interacciones entonces tendremos al final una distribución normal y eso es por eso es tan importante esta distribución aparece en la naturaleza todo el tiempo y si tomamos puntos de datos de algún fenómeno muy complejo la suma seguramente la suma de una infinidad de este tipo de intentos va a parecerse muy bien a una distribución normal ok entonces de cualquier forma vamos a digerir esto un poco más déjenme reescribir todo esto esto es lo que encontrará en la wikipedia no debe reescrito como a lo mejor de esta forma uno entre sigma por la raíz de dos pi y aquí la exponenciales es tomar a la este exponente verdad que es menos x menos la media al cuadrado entre 2 sigma cuadrada pero sigma es la desviación estándar y sigma cuadrada es la varianza así que como ya sabemos todas estas letras griegas realmente lo que nos está diciendo es la altura de una función de distribución ok entonces digamos que esta distribución es no sé qué tan lejos viven al norte la gente de mi casa o qué bueno no fue muy buen ejemplo digamos la altura la altura digamos que la media es 5.9 y esto nos dice que sí que cuál es la probabilidad por ejemplo cuál es la probabilidad de que de encontrar a alguien que tiene 5 pulgadas más alto que el promedio sale entonces aquí pone 15 en la equis y entonces tendremos una desviación estándar conocidas que no hacemos la varianza la media y simplemente colocamos la el valor que nosotros queramos encontrar digamos en este caso 5 ahora bien no podemos saber cuál cuál es la probabilidad de encontrar exactamente una persona que tiene 5 verdad podríamos dar un rango a lo mejor entre 4.9 y 5.1 verdad porque es infinitamente imposible que sea exactamente 5.9 verdad o cualquier número así que así es como usamos esta función que es muy fuertemente usada les digo aparece en todo lo que es la estadística inferencial y espero que te vuelvas y te pongas o te familiarices con esto espero que eso ocurra así que déjenme jugar un poquito con con la intuición de cómo funciona todo esto si fuéramos a tomar esto y voy a recurrir a tu memoria si pudiéramos reescribir esto digamos que la sigma lo pudiéramos escribir dentro de la raíz tendríamos 1 entre 2 y por sigma cuadrada ok casi nunca se escribe de esta forma pero bueno al menos sigma cuadrada representa a la varianza verdad y así de hecho eso se puede calcular de hecho se calcula antes que la desviación estándar verdad y esto x era la menos un medio simplemente tomamos el resto y lo escribimos como x menos mu sobre sigma y todo esto al cuadrado verdad y este tipo de expresión clarifica mucho más porque qué es esto x menos no es la distancia que hay entre cualquier punto bueno el punto que queremos encontrar digamos este de aquí x menos no es la distancia que hay de ese punto a la media verdad y si dividimos entre sigma que es la desviación estándar y es esta medida lo que nos dice es cuántas desviaciones estándar caben en esa distancia de hecho esto es lo que llamamos la acepta estándar de la de la que hablamos en otro vídeo y si elevamos al cuadrado pero me faltó multiplicar por menos un medio verdad pero miren fíjense si tengo esa la menos un medio por esto es que al a y todo esto al menos un medio verdad así que tomamos el exponente y realmente estamos tomando este número y dividiendo entre la raíz cuadrada así que esto déjenme reescribirlo como 1 entre la raíz de 2 pi por sigma cuadrada por y ahora vamos a jugar con con la formulita de los exponentes verdad esto los los invito a que me manden un email si si empiezan a ver de dónde sale todo esto otra vez creo que está muy bien que veamos distintas fórmulas por ejemplo aquí vuelve a aparecer como en la fórmula de hoy leer no son son números que están relacionados y que nos hablan mucho de cómo está hecho el universo verdad así como la fórmula de la eep y igual a menos 1 verdad pero bueno de cualquier forma déjenme reescribir esto como a a la x menos mu sobre sigma al cuadrado y todo esto lo elevó a la menos un medio y que significa elevar a la menos un medio en realidad significa tomar raíz y entre eso verdad así que esto lo podemos reescribir como 1 sobre la raíz cuadrada de 2 p por la varianza que sigma cuadrada por e a la esencialmente estamos elevando a la zeta al puntaje z verdad y al cuadrado todo esto es el puntaje z y esto al cuadrado y luego todo esto se ve bastante claro verdad tenemos 2 por la varianza por el acepta cuadrada y y sacamos la raíz cuadrada y luego tomamos el inverso el recíproco verdad de cualquier forma creo que es bueno e interesante jugar con las fórmulas de esa forma cuando veas estas fórmulas por el resto de tu vida ya vas a saber de qué estamos hablando no que la distribución normal pero bueno con esto dicho vamos a jugar con los parámetros de la distribución normal en esta hoja de cálculo y graficado la distribución puedes cambiar digamos los parámetros de estos cuadritos en azul así que ahorita estamos graficando la distribución normal con media 0 y desviación estándar 4 digamos entonces la varianza es es 16 así que qué pasa si movemos la media de 0 a 5 web la gráfica se movió hacia la derecha por cinco unidades verdad estaba centrada aquí y ahora está centrada en 5 ahora qué pasa si ponemos menos 5 ahora toda la campana se movió 5 unidades a la izquierda del centro que pasa si cambiamos la desviación estándar la varianza es el promedio de las distancias cuadradas de la media verdad ok entonces la desviación estándar es la raíz cuadrada de eso así que bueno es digamos más o menos el promedio de las distancias a la media no no tan así pero bueno vamos a cambiarlo vamos a ver qué pasa cuando cambiamos la desviación estándar 2 entonces la gráfica se parece cada vez más a la media verdad si hacemos digamos la desviación estándar igual a 10 todo se empieza apachurrar y ahora esta gráfica por supuesto se extiende en toda la recta verdad pero bueno tenemos un número corto de valores en donde está concentrado la probabilidad aunque está definida la función en toda la recta real por ejemplo si tenemos una desviación estándar de 10 hay una ligera probabilidad de obtener un 1000 pero es muy baja hay cierta probabilidad pero es muy baja ok por ejemplo la probabilidad de que todos los átomos de mi cuerpo se arreglen de alguna forma cuando me siento bueno a lo mejor tardará mucho la vida del universo para que eso ocurra pero bueno esto puede describir que puede pasar cualquier cosa aunque de forma muy poco probable así que de lo que he hablado en esta distribución puedes figurar te lo en una distribución normal que no puedes representar lo que vale la probabilidad en cada punto verdad sino que tienes que dar la probabilidad de que esté entre 22 valores digamos si éste es nuestra distribución y yo quiero saber cuál es la probabilidad de digamos no sé qué fenómeno es este pero de obtener un cero digamos que sea exactamente cero la probabilidad de cero debería usar menos el número cero pero justamente el área debajo del cero no hay área es una línea así que tenemos que dar una probabilidad entre dos valores digamos nos entre menos de ocho lo puedo poner aquí arriba puedo decir la probabilidad de entre -0 punto 0.05 a 0.005 bueno está redondeado dice que está cerca al 0 déjenme hacerlo con otros no menos digamos entre menos uno y uno me calculó que era el 7 por ciento ok y esto lo hizo en un segundo así que déjenme ver qué es lo que hizo entre uno y menos uno lo que está haciendo excel digamos estamos entre menos uno que es más o menos por aquí y uno por acá estamos calculando el área debajo de la curva el área debajo de la curva para estos dos valores digamos desde cálculos sabemos que esa área la podemos encontrar como la integral desde menos 1 a 1 de esta función la p de x donde la desviación estándar sigma es 10 y la media es menos 5 así que estamos calculando calculando para este ejemplo la en la integral de la función de distribución de la normal que es uno entre sigma que es 10 por la raíz de dos pi por ea la menos un medio x x menos menos la media que es menos 5 así que realmente tendríamos 5 positivo verdad que sería x + 5 sobre la desviación estándar que es 10 y todo esto al cuadrado verdad y esto respecto a x esto es lo que nos está encontrando este 7% o lo que es equivalente a punto 07 eso es lo que estamos encontrando desafortunadamente evaluar esta integral de forma analítica es muy difícil así que lo vamos a hacer numéricamente y una forma fácil relativamente de hacerlo bueno no tan fácil pero pero bueno hemos de fin se ha definido una función que que es es una herramienta muy buena para calcular este tipo de áreas esta herramienta es la función de distribución acumulativa vamos a denotar la así y es una función que depende de x nos da el área debajo de la curva de esta curva digamos que por aquí anda nuestro punto x justo aquí nos da el área debajo de la curva hasta x así que otra forma de pensarlo es que nos da la probabilidad de que obtengamos algún valor menor o igual que x así que el área sería desde menos infinito hasta x de nuestra función de probabilidad y esta es la integral respecto de xy entonces cuando usamos excel y la función de distribución normal digamos es la distribución normal le tenemos que dar el valor x le damos la media en la desviación estándar y si queremos la función acumulativa la distribución acumulativa en este caso decimos t de true y en caso de que queramos la distribución normal que es esta gráfica le damos false pulse en mayúsculas así que déjenme mover esto un poco hacia abajo y sacar la herramienta de pluma así que la distribución y la función de distribución acumulativa está justo aquí entonces si le ponemos en excel esta es la función de distribución acumulativa la misma para esta distribución normal nada más que aquí estamos acumulando lo espero que tenga la intuición así que si queremos saber cuál es la probabilidad de obtener 20 o menos nos vamos a la gráfica de esta distribución la distribución acumulativa de aquí podemos ver que si vamos a 20 justo nos vamos casi al a que es la probabilidad la probabilidad es muy alta de se aproxima al cien por ciento y eso tiene sentido porque el área debajo de la curva hasta 20 pues prácticamente es toda no por ejemplo cuál es menos la acumulativa la distribución acumulativa hasta -5 entonces aquí tenemos menos 5 y nos da justo el 50% y eso es porque menos 5 es la media y eso nos da justamente que nos da el 50% verdad ahora si queremos saber la probabilidad de estar entre menos uno y uno lo que vamos a hacer es déjenme regresar a mi herramienta de pluma lo que lo que tenemos que hacer es calcular la probabilidad de obtener menos que menos 1 verdad así que esto de esta área y después calculamos la probabilidad de obtener menos que 1 déjenme hacerlo con otro color la probabilidad de obtener 1 menos y restamos el área amarilla a la morada verdad y obtendremos esta área justamente que es exactamente lo que queríamos en realizar y que hicimos en la hoja de cálculo esto puede ser un poquito complicado de estar saltando entre la captura de pantalla de la pluma y demás así que lo que hicimos fue evaluar la función en menos 1 perdón primero vamos a evaluarlo en 1 evaluamos en uno la función de distribución acumulativa y luego evaluamos en uno en menos uno perdón y la diferencia entre estos dos nos va a dar ese numerito nos dice esencialmente cuál es la probabilidad de estar entre esos dos entre menos uno y uno otra forma de pensarlo es el que nos da el área del área debajo de la curva entre menos uno y uno y realmente los quiero motivarlos a que empiecen a jugar con excel y todas estas cosas y los parámetros entonces esto fue lo que obtuvimos ahora otra otra pregunta interesante es cuál es la probabilidad de estar entre las las líneas de la desviación estándar digamos esta es la las dos líneas de la desviación estándar cuál es la probabilidad de estar entre esas dos como algunas personas lo piensan cuál es la probabilidad de estar a lo más una desviación estándar de distancia de la media no íbamos a utilizar digamos en este caso la media es menos 5 y la desviación estándar es 10 entonces queremos la probabilidad de entre menos 15 y la media más la desviación estándar en este caso es 5 verdad entonces queremos la probabilidad entre menos 15 y 5 que el 68.3 de hecho en este caso es la probabilidad de caer a lo más en una desviación estándar de la media suponiendo que tenemos una distribución normal y eso pasa para cualquier tipo de distribución normal y nuevamente este es el área debajo de esta curva y la forma en que la obtenemos es con la distribución de la función de distribución acumulativa ok entonces evaluamos en 5 digamos aquí estamos en el 5 esta es una desviación estándar arriba de la media digamos esto parece que será como como un 90% no está arriba del 90 y digamos si evaluamos en menos 15 más o menos parece como entre 15 16 quizás 17 vamos a ponerle que es el 18% verdad pero pero la imagen grande digamos es a la que hay que restarle la pequeña verdad entonces este valor de arriba nos dice la probabilidad de caer en cinco o menos muy bien a lo cual hay que restarle la probabilidad de caer en menos 15 o menos verdad muy bien entonces vamos a subir entonces cuando cuando tenemos 55 cuando evaluamos 5 en la función de distribución acumulativa eso nos da el área debajo de la curva desde menos infinito hasta 5 verdad y cuando evaluamos en menos 15 acá abajo nos dice la probabilidad de que estemos de este lado ok entonces si restamos esta área de la más grande nos quedamos únicamente con el área debajo de la curva que nos interesa ahora para entender un poquito más acerca de esta hoja de cálculo porque realmente quiero que jueguen con ella y vean lo que ocurre si hacemos si cambiamos la distribución digamos vamos a cambiarlo a la media 5 la gráfica se desplazó hacia la derecha verdad hasta 5 déjenme cambiarlo ok se desplazó de esta forma ahora si cambiamos la desviación estándar veremos un cambio cualitativamente muy fuerte digamos si le ponemos 6 todo parece como una curva más más apretada y si le ponemos 2 se vuelve más más apretada más angosta y quiero que jueguen realmente con estos parámetros para que tengan una idea intuitiva de lo que está pasando con la distribución me hace pensar mucho en cómo se relaciona con la distribución binomial que vimos en otro vídeo ahora para graficar esta curva lo que hice fue tomar en puntos entre menos 20 y 20 más o menos y las iba incrementando en cantidades de 1 digamos así que esto no es una curva continua simplemente son puntos gráfica 2 conectados por una línea después calculé la distancia de ese punto a la media simplemente tomé los puntos x menos no en este caso es menos 5 está calculando esa distancia así que aquí por ejemplo es menos 20 y menos 5 son menos 25 solo hice eso hay aquí en la tercera columna lo que hice fue calcular básicamente el puntaje z que es dividir entre sigma que es cuántas desviaciones estándar caben en esa distancia verdad por ejemplo en la primera es 12.5 verdad del lado izquierdo y luego metí toda esta fórmula dada por la función de distribución digamos esté en en menos 20 o en 2 nos da la altura verdad nos da la altura en esta curva y luego es bueno eso me da el valor en la curva pero después dice la probabilidad de que ocurriera calculando con la distribución de función acumulativa verdad de hecho esta es la probabilidad la función de distribución acumulativa de que ocurra x o todos los anteriores o el área debajo de la curva hasta x verdad aquí por ejemplo dice 0 pero no es cero sino en 0.00 0 0 1 lo que es ello no está redondeado hacer pero bueno entonces la integral debajo de esta curva tiene que ser 1 porque así tomar en cuenta todas las posibles circunstancias y eso debe suceder para una cantidad muy grande de valores de x por ejemplo si le damos menos menos y 1000 nos da el 100% no es el 100% pero probablemente será como 99.999 99 por ciento así que de hecho esto lo redondea para calcular esto simplemente tome la función de distribución acumulativa del valor menos 1.000 y se lo reste al de la función evaluado en 1000 de cualquier forma espero que ya hayan tenido una buena sensación una buena intuición de lo que es la distribución normal les les les motivó a que tomen esta hoja de cálculo y empiezan a jugar con ella en ejercicios posteriores jugaremos también con esta hoja de cálculo para algunos modelos digamos si estamos haciendo un modelo financiero que tiene alguna distribución normal alrededor de cierto valor esperado o no sea alguna distribución de ganancias netas no sé hay un buen de ejemplos nos vemos en el próximo vídeo