Contenido principal
Tiempo actual: 0:00Duración total:26:24

Transcripción del video

la distribución normal es quizás la más el más importante de los conceptos en estadística todo lo que hacemos todo lo que hacemos en estadística inferencial esencialmente basado en datos que hasta cierto punto están basados en una distribución normal así que lo que quiero hacer en este vídeo en esta hoja de cálculo es es esencialmente darles un un entendimiento profundo de lo que es esta distribución tanto como sea posible para que por el resto de tu vida tú sepas que es la distribución normal su fórmula como zeus etcétera así que esta hoja de cálculo así como sabes descargable en triple doble un punto canalla de mi punto diagonal downloads y hasta y bueno hay puedes ver todo lo que se puede descargar diagonal normal intro punto xls y ahí se puede descargar de cualquier forma si ibas a la wikipedia puedes encontrar ahí tecleando le distribución normal de hecho dejen de poner mi herramienta de pluma esto es lo que van a encontrar literalmente yo copie y pegue esta fórmula de la wikipedia pero bueno está sigma de aquí por ejemplo esa es la desviación estándar de la distribución vamos a jugar un poquito en esta gráfica con eso para ver qué significa y digo ya sabemos lo que significa la desviación estándar pero esta es la desviación estándar de esta distribución que es una función de densidad de probabilidad y te sugiero que vean de nuevo las los videos de funciones de densidad porque es un poquito difícil saltar de la distribución mi novia binomial que es discreta a la normal por ejemplo en la binomial teníamos valores discretos es decir por ejemplo nos fijábamos en el histograma pero en una probabilidad continúa no podemos decir cuál es la probabilidad de obtener un 5 necesitamos decir la probabilidad de estar entre algunos valores digamos entre 4.5 y 5.5 y ahí tendremos nos en algún rango no entonces nuestra probabilidad lo podremos leer en esta no la podemos leer en la gráfica sino que vamos a calcular el área bajo la curva estaré así que para los que ya saben cálculo si pd x es la función de densidad de probabilidad de una distribución normal bueno en general no es una distribución normal pero casi siempre digamos que queremos calcular la probabilidad de que mañana llueva en entre 4.5 y 5.5 pulgadas de lluvia entonces vamos a tener la integral de 4.5 a 5.5 de la función de densidad de probabilidad en este caso la que está acá arriba dpd x de x así que es el área debajo de la curva para los que no han visto los cálculos le sugiero que vean los videos toda la lista de vídeos así que estamos obteniendo toda el área de 4.5 a 5.5 debajo de esa curva y esto es difícil de encontrar analítica mentí analíticamente pero no numéricamente porque bueno como en encontramos la integral de esto podemos aproximarlo una forma de aproximar lo es por ejemplo como lo hacíamos en general con integral es verdad usar el área de éste tropezó y de y digamos aquí podemos figurarnos el área de éste tropezó y de verdad pero también podríamos tomarnos el punto medio de la base y déjeme déjeme cambiar de color porque ya se está volviendo está muy verde así que tomamos el punto medio digamos tomamos esta altura que está dada por la función y multiplicamos por la base para obtener el área de este rectángulo que que puede ser una muy buena aproximación verdad porque del lado derecho tenemos un excedente de área que es la que parece como que la que le falta del lado izquierdo y qué es lo que voy a hacer en este vídeo vamos a aproximar el área debajo de la curva y dar una buena un buen entendimiento de lo que es la distribución normal a partir de una binomial que esencialmente si uno tiene muchos intentos de un experimento digamos lo que es interesante de la distribución normal digamos si ésta es la gráfica la gráfica esto en otras palabras es lo que la gente le llama el problema del límite central que es una de las cosas más interesantes del universo el problema de límites entre no lo voy a demostrar aquí presencialmente nos dice que si tenemos algún tipo de fenómeno digamos tirar monedas no y lanzamos muchas monedas todas ellas son independientes de cada uno de los otros intentos entonces si tomamos la suma de cada una de esas variables y aproximamos por un número infinito de ellas tendremos una distribución normal lo que es interesante a a partir de estos intentos es que bueno realmente nunca tomé que fuera una distribución normal cada uno de los intentos de la moneda simplemente podíamos hablar de interacciones moleculares en algún compuesto x que interactúa con otro compuesto ye y no se puede no tener una distribución normal por lo que pasa es que si tomamos la suma de una infinidad de este tipo de interacciones entonces tendremos al final una distribución normal y eso es por eso es tan importante esta distribución aparece en la naturaleza todo el tiempo y y si tomamos puntos 2 datos de algún fenómeno muy complejo la suma seguramente la suma de una infinidad de este tipo de intentos va a parecerse muy bien a una distribución normal ok entonces de cualquier forma vamos a digerir esto un poco más déjeme reescribir todo esto esto es lo que encontrarán en la wikipedia no eres critto como a lo mejor de esta forma uno entre sigma por la raíz de dos pie y aquí e la exponenciales es tomar a la este exponente verdad que es menos x - la media al cuadrado entre dos sigmas cuadrada pero sigma es la desviación estándar y sigma cuadrada es la varianza verdad así que como ya sabemos todas estas letras griegas realmente lo que nos está diciendo es la altura de una función de distribución ok entonces digamos que esta distribución es no sé qué tan lejos viven al norte la gente de mi casa o que no bueno no fue muy buen ejemplo digamos la altura ahora digamos que la media es 5.9 y esto nos dice que decir qué cuál es la probabilidad por ejemplo cuál es la probabilidad de que de encontrar a alguien que tiene cinco pulgadas más alto que el promedio vale entonces aquí pone 1 y el 5 en la x y entonces tendremos una desviación estándar conocidas que conocemos la varianza a la media y simplemente colocamos la el el valor que nosotros queremos encontrar digamos en este caso cinco ahora bien no podemos saber cuán cuál es la probabilidad de encontrar exactamente una persona que tiene cinco verdad podríamos dar un rango a lo mejor entre 4.9 y 5.1 verdad porque es infinitamente imposible que sea exactamente 5.9 bordado cualquier número así que así es cómo usamos esta función que es muy fuertemente usada les digo aparece en todo lo que es la estadística inferencial y espero que te vuelvas te pongas o te familiarices con esto espero que eso ocurra así que dejen de jugar un poquito con con la intuición de cómo funciona todo esto si fuéramos a tomar esto y voy a recurrir a tu memoria si pudiéramos reescribir esto digamos que la sigma lo podríamos escribir dentro de la raíz tendríamos 1 / 2 y por sigma cuadrada que casi nunca se escribe esta forma pero bueno al menos sigma cuadrada representa a la a la varianza verdad y así y de hecho eso se puede calcular de hecho se calcula antes que la desviación estándar verdad y esto multiplicado por ea la menos un medio simplemente tomamos lo del resto ajá y lo escribimos como x - mu sobre sigma y todo esto al cuadrado verdad y este tipo de de de expresión clarifica mucho más porque qué es esto x - muy es la distancia que hay entre cualquier punto bueno el punto que queremos encontrar digamos esté aquí x - no es la distancia que hay de ese punto a la media verdad y si dividimos entre sigma que la desviación estándar y esta medida lo que nos dice es cuántas desviaciones estándar caben en esa distancia de hecho esto es lo que llamamos la z estándar de la clyfc de la que hablamos en otro vídeo y si elevamos al cuadrado lado pero me faltó multiplicar por menos un medio verdad pero miren fíjense si tengo al menos un medio por hora esto es mala y todo esto a la menos un medio verdad así que tomamos el exponente y realmente estamos tomando este número y dividiendo entre la raíz cuadrada así que esto déjenme reescribirlo como uno entre la raíz de dos pisos y por sigma cuadrada por y ahora vamos a jugar con con la formulita de los exponentes verdad los los invito a que me manden un email si se empiezan a ver de dónde sale todo esto otra vez creo que está muy bien que veamos distintas fórmulas por ejemplo aquí vuelve a aparecer y y como en la fórmula de oyler no son los números que están relacionados y que nos hablan mucho de cómo está hecho el universo verdad así como la fórmula de ea la eep igual a menos una verdad pero bueno de cualquier forma de gm reescribir esto como e a la x - mu sobre sigma al cuadrado y todo esto lo elevó a la menos un medio y que significa elevar a la menos un medio en realidad significa tomar raíz y dividir en tres la verdad así que esto lo podemos reescribir como uno sobre la raíz cuadrada de dos pip por la varianza que sigma cuadrada por e hala esencialmente estamos elevando a la z al puntaje se está verdad y al cuadrado todo esto es el puntaje zeta y esto al cuadrado y luego todo esto se ve bastante claro verdad tenemos espí por la varianza por ea la ce está cuadrada y sacamos la raíz cuadrada y luego tomamos el el inverso el recíproco verdad de cualquier forma creo que es bueno e interesante jugar con las fórmulas de esa forma cuando veas estas fórmulas por el resto de tu vida ya vas a ver de qué estamos hablando que la distribución normal pero bueno con esto dicho vamos a jugar con los parámetros de la distribución norma en esta hoja de cálculo es graficado la distribución puedes cambiar digamos los parámetros estos cuadritos de en azul así que ahorita estamos graficando la de la distribución normal con media 0 y y desviación estándar 4 no digamos entonces la varianza es el 16 así que qué pasa si movemos la media de 0 a 5 la gráfica se movió hacia la derecha por cinco unidades verdad estaba centrada aquí y ahora está centrada en 5 para qué pasa si ponemos -5 ahora toda la campana se movió cinco unidades a la izquierda del centro qué pasa si cambiamos la desviación estándar la varianza es el promedio de las distancias cuadradas de la media verdad ok entonces la desviación estándar es la raíz cuadrada de eso así que bueno es digamos más o menos el promedio de las distancias a la media no no tan así pero bueno vamos a cambiarlo vamos a ver qué pasa cuando cambiamos la desviación estándar 2 entonces la gráfica se parece cada vez más a la media verdad si hacemos digamos la desviación estándar igual a 10 todo se empieza apachurrar y ahora esta gráfica por supuesto se extiende en toda la recta verdad pero bueno tenemos un número corto de valores en donde está concentrado el la probabilidad aunque está definida la función en toda la recta real por ejemplo si tenemos una desviación estándar de 10 hay una ligera probabilidad de obtener un mil pero es muy baja hay cierta probabilidad por es muy baja ok por ejemplo la probabilidad de que todos los átomos de mi cuerpo se arreglen una forma cuando me siento bueno lo mejor tardará muy la vida del universo para que eso ocurra pero bueno esto puede describir qué puede pasar cualquier cosa aunque de forma muy poco probable así que de lo que ha hablado en esta distribución es figurar telo en una distribución normal que no puedes representar lo que vale la probabilidad en cada punto verdad sino que tienes que dar la probabilidad de que éste entre 22 valores digamos si ésta es nuestra distribución y yo quiero saber cuál es la probabilidad de digamos no sé qué fenómeno es éste pero de obtener un cero y vamos que sea exactamente cero la probabilidad de cero debería usar menos el número cero pero justamente el área debajo del cero no hayan es una línea sí que tenemos que dar una probabilidad entre dos valor digamos no se entre menos hecho lo puedo poner aquí arriba puedo decir la probabilidad entre menos 0.005 y 0.005 bueno está redondeado dice que está cerca al 0 dejen de hacerlo con otros menos uno y uno me calculó que el 7 por ciento ok y esto lo hizo en un segundo así que déjenme ver qué es lo que hizo entre 1 in y menos uno lo que está haciendo excel digamos estamos entre menos uno que es más o menos por aquí y uno por acá estamos calculando el área debajo de la curva el área debajo de la curva para estos dos valores digamos de cálculo sabemos que esa área la podemos encontrar como la integral desde menos uno a uno de esta función la pd x donde la desviación estándar sigma es 10 y la media es menos cinco así que estamos calculando opep calculado para este ejemplo la en la integral de la función de distribución de la normal que es uno entre sigma que es 10 por la raíz de dos pisos y por alá - un medio por x - - la media que es menos cinco así que realmente tendríamos cinco positivo verdad que sería x + 5 sobre la desviación estándar que es 10 10 y todo esto al cuadrado verdad y esto respecto x esto es lo que nos está encontrando este 7 por ciento ó lo que es equivalente a punto 07 es lo que estamos encontrando desafortunadamente evaluar este integral de forma analítica es muy difícil así que lo vamos a hacer numéricamente y una forma fácil relativamente de hacerlo bueno no tan fácil pero bueno hemos de fin se ha definido una función que es es una herramienta muy buena para calcular este tipo de áreas esta herramienta es la función de distribución acumulativa vamos a derrotarla así y es una función que depende de x nos da el área debajo de la curva de esta curva digamos que por aquí anda nuestro punto equis justo aquí nos da el área debajo de la curva hasta x así que otra forma de pensar lo es que nos da la probabilidad de que obtengamos algún valor menor o igual que quizá sí que el área sería desde - infinito hasta x de nuestra función de probabilidad y esta es la integral respecto de x entonces cuando usamos excel y la función de distribución normal digamos es la distribución normal le tenemos que dar el valor x le damos la media en la desviación estándar y si queremos la función acumulativa la distribución acumulativa en este caso decimos te de true y en caso de que queramos la distribución normal que esta gráfica le damos bots woods nunca en mayúsculas así que déjenme mover esto un poco hacia abajo y sacar la herramienta de pluma así que la distribución es la función de distribución acumulativa está justo aquí entonces si le ponemos flu en excel esta es la distribución son de distribución acumulativa la misma para esta distribución normal nada más que aquí estamos acumulando lo espero que tenga la intuición así que si queremos saber cuál es la probabilidad de obtener 20 o menos nos vamos a la gráfica de esta distribución la distribución acumulativa de aquí podemos ver que si vamos a 20 justo nos vamos casi al a que es la probabilidad la probabilidad muy alta de se aproxima al 100% no hay eso tiene sentido porque el área debajo de la curva hasta 20 prácticamente todas no por ejemplo cuáles - la la acumulativa la distribución acumulativa hasta -5 entonces aquí tenemos menos cinco y nos da justo el 50 por ciento y eso es porque -5 es la media y eso nos da justamente que nos da el 50 por ciento verdad ahora si queremos saber la probabilidad de estar entre menos uno y uno lo que vamos a hacer es regresar a mi herramienta diploma lo que lo que tenemos que hacer es calcular la probabilidad de obtener menos que menos uno verdad así que es toda esta área y después calculamos la probabilidad de obtener menos que uno deje de hacerlo con otro color la probabilidad de obtener 1 - aquí y restamos el área amarilla a la morada verdad y obtendremos esta área justamente que es exactamente lo que queríamos en realizar y que hicimos en la hoja de cálculo esto puede ser un poquito complicado de estar saltando entre la captura de pantalla de la pluma y demás así que lo que hicimos fue evaluar la función en -1 perdón primero vamos a evaluarlo en 1 la evaluamos en 1 la función de distribución acumulativa y luego evaluamos en uno en -1 perdón y la diferencia entre estos dos nos va a dar o ese numerito nos dice esencialmente cuál es la probabilidad de estar entre esos dos entre menos uno y uno otra forma de pensar lo es que nos da el área de lara debajo de la curva entre menos uno y uno y realmente lo que quiero motivarlos a que empiecen a jugar con excel y y todas estas cosas y los parámetros entonces esto fue lo que obtuvimos ahora otra otra pregunta interesante es cuál es la probabilidad de estar entre las de las líneas de la desviación estándar digamos estela las dos líneas de la desviación estándar cuál es la probabilidad de estar entre esos dos o como algunas personas lo piensan cuál es la probabilidad de estar a lo más una desviación estándar de distancia de la media no íbamos a utilizar digamos en este caso la media es menos cinco y la desviación estándar es 10 entonces queremos la probabilidad entre menos 15 y la media más la desviación estándar en este caso de 5 verdad entonces queremos la probabilidad entre menos 15 y 5 que el 68.3 de hecho este caso es la probabilidad de caer a lomas en una desviación estándar de la media suponiendo que tenemos una distribución normal y eso pasa para cualquier tipo de distribución normal y nuevamente este es el área debajo de esta curva y la forma en que la obtenemos es con la distribución de la función de distribución acumulativa ok entonces evaluamos en 5 digamos aquí estamos en el 5 esta es una desviación estándar arriba de la media digamos esto parece que será como como como un 90 por ciento no está arriba del 90 y digamos si evaluamos en -15 más o menos parece como entre 15 16 quizás 17 vamos a ponerle que es el 18% verdad pero pero la la imagen grande digamos es a la que hay que restarle la pequeña verdad entonces este valor de arriba nos dice la probabilidad de caer en cinco o menos muy bien a lo cual hay que restarle la probabilidad de caer en menos 15 o menos verdad muy bien entonces vamos a subir entonces cuando cuando tenemos 55 cuando evaluamos 5 en la función de distribución acumulativa eso nos da el área debajo de la curva desde - infinito hasta cinco verdad y cuando evaluamos en -15 acá abajo nos dice la probabilidad de que estemos de estela ok entonces si restamos esta área de la más grande nos quedamos únicamente con el área debajo de la curva que nos interesa ahora para entender un poquito más acerca de esta hoja de cálculo porque realmente quiero que jueguen con ella y vean lo que ocurre si si hacemos si cambiamos la distribución digamos vamos a cambiarlo a la media 5 la gráfica se desplazó hacia la derecha verdad hasta cinco cambiarlo key se desplazó de esta forma ahora sí si cambiamos la desviación estándar veremos un cambio cualitativamente muy fuerte digamos si le ponemos 6 todo parece como una curva más más apretada y si le ponemos dos se vuelve más más apretada más angosta y quiero que jueguen realmente con estos parámetros para que tengan una idea intuitiva de lo que está pasando con la distribución me hace pensar mucho en cómo se relaciona con la distribución binomial que vimos en otro video ahora para graficar esta curva lo que hice fue tomar de puntos entre menos 20 y 20 y las iba incrementando en cantidades de uno digamos así que esto no es una curva continua simplemente son puntos graficados conectados por una línea después calcula la distancia de ese punto a la media simplemente tomé los puntos x menos no en este caso es menos cinco está calculando esa distancia así que aquí por ejemplo es menos 20 y menos cinco son menos 25 sólo hice eso hay aquí en la tercera columna lo que hice fue calcular básicamente el el puntaje z que es dividir entre sigma que es cuántas desviaciones estándar caben en esa distancia verdad por ejemplo en la primera es 12.5 verdad del lado izquierdo y luego me metí toda esta fórmula a dada por la función de distribución digamos esté en -20 windows nos da la altura verdad nos da la altura en esta curva y luego bueno eso me da el valor en la curva pero después hice la probabilidad de que ocurriera calculando con la distribución de función acumulativa verdad de hecho ésta es la probabilidad la función de distribución acumulativa de que ocurra x o todos los anteriores o el área debajo de la curva hasta x verdad aquí por ejemplo dice 0 pero no es cero sino en 0.00 001 lo que selló no está redondeado hacer pero bueno entonces la integral debajo de esta curva tiene que ser uno porque así tomar en cuenta todas las posibles circunstancias y eso debe suceder para una cantidad muy grande de valores de x por ejemplo si le damos menos menos mil y mil nos da el cien por ciento no es el cien por ciento pero probablemente será como un 99.99 99 por ciento así que de hecho esto lo redondea para calcular estos simplemente tomé la función de distribución acumulativa del valor menos mil y se lo respete al de la función evaluado en mil personas pero que ya hayan tenido una buena sensación una buena intuición de lo que es la distribución normal les les motivó a que tomen esta hoja de cálculo y empiezan a jugar con ella en ejercicios posteriores jugaremos también con esta hoja de cálculo para algunos modelos digamos si estamos haciendo un modelo financiero que tiene alguna distribución normal alrededor de cierto valor esperado no sea alguna distribución de ganancias netas no sé hay un buen ejemplo nos vemos en el próximo video