miércoles, 27 de enero de 2010

Aleatoriedad 2: La Revancha

Durante la clase del pasado martes se continuó profundizando en temas concernientes a las variables aleatorias, tocándole esta vez el turno a la distribución de probabilidad en sí. Quisiera comenzar este tema basándome en la idea central del caso 01: una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral de un experimento aleatorio determinado. Ahora que ha quedado un poco más claro lo que significa variable aleatoria, veamos su clasificación.

Una variable aleatoria puede clasificarse en dos tipos: discreta o continua. En la vida práctica, una variable aleatoria continua se utiliza para representar datos medidos, como lo son temperatura, presión o densidad, mientras que una variable discreta representan datos que son contados, como la cantidad de piezas producidas por una empresa o el número de etapas en una columna de destilación.

Volviendo con las distribuciones de probabilidad, estas pueden verse como una representación de la forma en que se espera que los resultados (las variables aleatorias) varíen. La clasificación para una distribución de probabilidad es semejante a la clasificación antes mencionada de una variable aleatoria, es decir, una distribución de probabilidad puede ser discreta o continua. La diferencia en esta clasificación radica en las mediciones recabadas con respecto al tiempo, siendo una distribución discreta aquella que se realiza por secuencias y una distribución continua aquella en la que el intervalo de tiempo es también continuo.

Para fines prácticos, puede verse una distribución discreta como aquella que asigna probabilidades a un único valor independiente. Algunas distribuciones dentro de esta categoría son las siguientes:

· Distribución Uniforme Discreta. Distribución en donde los posibles resultados de un experimento tienen la misma probabilidad de ocurrir. Por ejemplo, el lanzamiento de un dado de seis caras.


· Distribución Binomial. Consiste en la distribución de los resultados de una serie de pruebas repetidas del denominado experimento de Bernoulli, que consiste en un experimento en donde solo existen dos resultados posibles, que pueden ser alto o bajo, ligero o pesado, encendido o apagado, etcétera. Un buen ejemplo de esta distribución podría ser el lanzamiento de una moneda cinco veces, en donde cada lanzamiento correspondería con un experimento de Bernoulli.


· Distribución Multinomial. Se trata de una generalización de la distribución binomial y ocurre cuando el experimento de Bernoulli contiene más de dos posibles resultados, como pueden ser ligero, pesado o aceptable, alto, medio o bajo, etcétera. Un ejemplo de esta distribución es el lanzamiento de un dado, pero cuyo resultado se clasifica como bajo si la cara cae en 1 ó 2, medio si la cara cae en 3 ó 4, o alto, si la cara cae en 5 ó 6.


· Distribución de Poisson. Esta distribución depende a su vez de los denominados experimentos de Poisson, que consisten en aquellos experimentos cuyo resultado determina la cantidad de eventos que ocurren durante un intervalo determinado o en una región en específico. Por tanto, la variable aleatoria de Poisson puede representar el número de bacterias en un cultivo biológico o el número de estudiantes que se quedan sin computadora en Yalma por clase.


· Distribución Geométrica. La distribución geométrica cuantifica el número de fallas antes de que se dé el primer éxito en un experimento de Bernoulli. Un hecho importante de esta distribución es que “no tiene memoria”, esto significa que, por ejemplo, la probabilidad de que una pieza de un equipo falle en una o dos horas no depende del tiempo que lleva funcionando. Un ejemplo aplicado a las monedas de la distribución de Bernoulli, sería la cantidad de veces en que cae cruz antes de obtener la primera cara.

Por otro lado, las distribuciones continuas pueden verse como aquellas que asignan probabilidades a un rango continuo de valores, de modo que cualquier valor por sí mismo tiene una probabilidad de cero asociada a él. Estas distribuciones comparten rasgos característicos con las distribuciones discretas. Algunas distribuciones dentro de esta categoría son las siguientes:

· Distribución Uniforme Continua. Distribución en donde al igual que en el caso de la Uniforme Discreta, cada resultado dentro del intervalo en estudio tiene la misma posibilidad de suceder.


· Distribución Normal. Esta es quizás la más famosa y utilizada de todas las distribuciones continuas. Se le denomina distribución normal debido a que una gran cantidad de variables aleatorias durante un experimento tienen este tipo de distribución.


· Distribución Gamma. Se emplea ampliamente con variables aleatorias no negativas que tienen una distribución sesgada a la derecha. Entre las características que la vuelven importante en la investigación se encuentran el hecho de que la variable de Poisson que mide el tiempo transcurrido hasta obtener las n ocurrencias esperadas sigue una distribución gamma, pero más importante aún es el hecho de que esta distribución “no tiene memoria”.


· Distribución Exponencial. Se trata de un caso especial de la distribución gamma cuando uno de sus parámetros es igual a la unidad.


· Distribución Ji-Cuadrada. Se trata también de un caso especial de la distribución gamma, al tomar valores específicos los parámetros de esta distribución.

Pasando a la segunda meta, es necesario estudiar diversos algoritmos generadores de números aleatorios para determinar la distribución de probabilidad que presentan. Antes, me gustaría desviarme un poco, de nuevo, del objetivo principal para poder hablar acerca de la aleatoriedad y de las necesidades básicas que debe cumplir un algoritmo generador de números aleatorios. La aleatoriedad hace noción a todo proceso que no posee un resultado previsible, lo que implica que no es posible predecir el resultado antes de que éste se produzca. Para que una serie de números generados (o recabados, según sea el caso) sean completamente aleatorios, la distribución de probabilidad de dichos números debe ser uniforme, en donde cada número tiene una probabilidad igual de ser seleccionado para tener una incertidumbre completa (es decir, que no pueda ni siquiera seleccionarse un intervalo de la escala numérica de donde podría tomarse el número con cierta certeza). Desde un punto de vista enteramente computacional, resultaría imposible generar números completamente aleatorios sencillamente porque tarde o temprano el algoritmo seleccionado comenzará a repetir los mismos números debido a la naturaleza matemática del algoritmo mismo, pero puede aproximarse mucho a una aleatoriedad total aumentando el ciclo o tiempo en que tarda en proporcionar los mismos resultados. La calidad o complejidad del algoritmo es entonces pieza fundamental para poder afirmar si los números generados son pseudo-aleatorios o cuasi-aleatorios.

En esta sección, se van a analizar diferentes conjuntos de números aleatorios provenientes de algunas de las herramientas más comúnmente utilizadas. Comencemos con el generador de números aleatorios de una de las aplicaciones de oficina de mayor uso en la actualidad: Microsoft Excel.

El análisis consiste en la generación de 500 números “aleatorios” entre 1 y 50 mediante la fórmula integrada y la generación de una gráfica de la distribución en la frecuencia de estos números. La siguiente gráfica muestra la distribución obtenida:



Como puede apreciarse en la gráfica, la distribución está lejos de ser uniforme. Los picos y valles que se perciben en la gráfica muestra que algunos números tienen una mayor probabilidad de obtenerse que el promedio, mientras que otros números exhiben una probabilidad mucho menor. Este comportamiento tan alejado de la uniformidad nos hace pensar en lo eficiente que es este generador para aplicaciones demasiado precisas. A continuación, se realiza el mismo experimento pero utilizando el generador de números aleatorios de la calculadora TI-89 Titanium, una de las calculadoras de mayor uso en el ámbito de la ingeniería a nivel académico-estudiantil. El experimento consiste en la generación de 500 números aleatorios entre 1 y 50. La siguiente gráfica muestra la distribución de las frecuencias obtenidas:




Como puede observarse, el comportamiento es parecido al gráfico presentado para los números generados por Microsoft Excel, en donde resaltan los picos y valles que muestran la irregularidad en la distribución de probabilidad de este generador. De nueva cuenta se obtiene una distribución no-uniforme, por lo que las conclusiones para el caso anterior continúan siendo válidas.

En una tercera prueba, se utilizó una tabla de números aleatorios encontrada en el sitio web de la Universidad Nacional Autónoma de México UNAM. Esta tabla consiste en cierta cantidad de números aleatorios comprendidos entre 0 y 9. Para este análisis se redujo la cantidad de números producidos a 100, debido al tiempo en que tarda la selección de estos datos. La siguiente gráfica muestra, una vez más, la distribución de frecuencias obtenidas:



Evidentemente, se tiene un comportamiento similar a los dos casos anteriores, aunque la tendencia es menos marcada por las limitaciones de esta tabla. Sin embargo, se demuestra una vez más que no existe uniformidad en las fuentes de números aleatorios utilizados comúnmente. Como una medida de comparación con estas distribuciones, decidí utilizar esta vez el estímulo B de la clase anterior, el generador de números aleatorios reales de la página Random.org, que debería de tener una distribución más bien uniforme. Aún con estos números, no se espera que la distribución sea completamente uniforme, ya que el ruido espacial, por complejo que sea, no es un evento completamente aleatorizado sino un conjunto de reacciones altamente complejas. Para esta prueba se generaron 50 números aleatorios (esto porque el generador gratis arroja un resultado a la vez) comprendidos entre 1 y 50. La siguiente gráfica presenta los resultados:




A simple vista se demuestra la gran diferencia que existe con las tres fuentes de números aleatorios antes citados. La uniformidad que exhibe esta última, si bien no es precisa, es una aproximación mucho más exacta a una distribución de verdaderos números aleatorios. El servicio que ofrecen es realmente impresionante, especialmente para esos casos en donde la simulación debe tener una cierta precisión para evitar posibles fallan en las conclusiones.

En cuanto a los tres casos anteriores, realmente no podría afirmar si se trata de una distribución en específico. Pareciera que los datos no se ajustan a ninguna distribución, sino que intentan imitar la distribución uniforme, obviamente sin conseguirlo.

Brincando al cuarto tema a tratar durante la clase (así es, estimado lector, me salté el tercer tema, pero creo que es conveniente hacerlo en ese orden) aún y cuando una gran cantidad de los experimentos científicos son representados correctamente mediante una distribución de probabilidad normal, existen miles de situaciones en que la distribución se aleja considerablemente de la normalidad. Es necesario entonces comprobar si nuestros datos de origen corresponden con elementos de poblaciones normales.

Son muchas las pruebas de normalidad que existen actualmente, pero para mencionar algunas y finalizar con el tercer tema a tratar, entre las más comunes en las fuentes bibliográficas se encuentran:

· Gráfica de cuantiles – cuantiles normales. Consiste en graficar lo que se conoce acerca de los cuantiles de la distribución normal (cabe señalar que los cuantiles son valores de la distribución que la dividen en intervalos iguales). Mediante esta gráfica es posible apreciar si la población se desvía de gran manera de la normalidad.


· Prueba de Lilliefors. Consiste en aplicar y evaluar la hipótesis de que las mediciones provienen de una población normal contra la alternativa de que la muestra proviene de una distribución diferente a la normal.


· Prueba de Anderson–Darling. Esta es una de las pruebas más potentes para encontrar desviaciones de la normalidad. Este método se basa en el hecho de que una población normal que sigue, a su vez, una distribución normal puede transformarse a una distribución uniforme.


· Prueba de Shapiro–Wilk. Es similar a la prueba de Lilliefors en el hecho de que plantea una prueba de hipótesis acerca de si la muestra proviene de una población normal.