Bioestadística
 

 


 
 
Teorema de BAYES (estadística Bayesiana).

El Teorema de BAYES se apoya en el proceso inverso al que hemos visto en el Teorema de la Probabilidad Total:
Teorema de la probabilidad total: a partir de las probabilidades del suceso A (probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente).

Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente) deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?).

La fórmula del Teorema de Bayes es: 

Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que este teorema también exige que el suceso A forme un sistema completo.
 
 

Primer ejemplo.

El parte meteorológico ha anunciado tres posibilidades para el fin de semana:

a) Que llueva: probabilidad del 50%.

b) Que nieve: probabilidad del 30%

c) Que haya niebla: probabilidad del 20%.

Según estos posibles estados meteorológicos, la posibilidad de que ocurra un accidente es la siguiente:
a) Si llueve: probabilidad de accidente del 20%.

b) Si nieva: probabilidad de accidente del 10%

c) Si hay niebla: probabilidad de accidente del 5%.

Resulta que efectivamente ocurre un accidente y como no estabamos en la ciudad no sabemos que tiempo hizo (llovío, nevó o hubo niebla). El teorema de Bayes nos permite calcular estas probabilidades:
Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el 20%).

Una vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso A cambian: son probabilidades condicionadas P (A/B), que se denominan "probabilidades a posteriori".

Vamos a aplicar la fórmula:

a) Probabilidad de que estuviera lloviendo:

La probabilidad de que efectivamente estuviera lloviendo el día del accidente (probabilidad a posteriori) es del 71,4%.

b) Probabilidad de que estuviera nevando:

La probabilidad de que estuviera nevando es del 21,4%.

c) Probabilidad de que hubiera niebla: 

La probabilidad de que hubiera niebla es del 7,1%
 

Otro ejemplo.

En una etapa de la producción de un artículo se aplica soldadura y para eso se usan tres diferentes robots. La probabilidad de que la soldadura sea defectuosa varía para cada uno de los tres, así como la proporción de artículos que cada uno procesa, de acuerdo a la siguiente tabla.

robot 
defectuosos
art. procesados
A
0.002
18 %
B
0.005
42 %
C
0.001
40 %

Ahora podemos hacernos un par de preguntas:

a) La primera pregunta nos va a llevar a lo que se conoce con el nombre de fórmula de la probabilidad total.

Queremos conocer la proporción global de defectos delos tres robots. Después de reflexionar un momento se ve que si todas las soldaduras las pusiera el robot C, habría pocos defectos, serían 0.001 o 0.1%. En cambio, si todas las pone el B, ¡sería un desastre!, tendríamos cinco veces más: 0.005 o 0.5%. De modo que en nuestra respuesta debemos tener en cuenta las diferentes proporciones de lo maquinado en cada robot.

Nuestra idea es empezar por descomponer el evento ``defectuoso'' en ``viene del robot A y es defectuoso'' o ``viene del robot B y es defectuoso'' o ``viene del robot C y es defectuoso''. En símbolos tendremos

P(d) = P(A y d) + P(B y d) + P(C y d)

ó

P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

Antes de ponerle números y resolver nuestro problema fijémonos en la fórmula obtenida.

Hay tres eventos A, B y C que son ajenos y cubren todo el espacio muestral.
Conocemos las probabilidades de cada uno de ellos.
Además, conocemos las probabilidades condicionales de otro evento dado cada uno de ellos.

La fórmula de arriba se llama fórmula de la probabilidad total.

Llenando con nuestros números, tenemos que

P(d) = (0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001)

o sea que P(d) = 0.00286 casi 3 piezas por cada mil.

Es bueno comparar este resultado con los porcentajes de soldaduras defectuosas de cada robot por separado. Podemos ver que el resultado se encuentra entre todas ellas y se encuentra relativamente cerca de los porcentajes de los robots más utilizados (el B y el C). Esto es muy razonable.

b) La segunda pregunta es, a la vez más simple y más complicada. Nos va a llevar a lo que se conoce con el nombre de teorema de Bayes.

La probabilidad que buscamos es una condicional pero al revés de las que tenemos. Buscamos

P( C | d)

para calcularla usamos la definición de probabilidad condicional:

P( C | d) = [P(C y d)] / [P( d )]

El numerador (lo de arriba) lo calculamos con

P( C y d ) = P(C) P(d|C)

y el denominador lo calculamos con la fórmula de probabilidad total

P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

juntando las dos tenemos la fórmula de Bayes:

P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)]
Aplicándola a nuestro caso tenemos
 

P(C|d) = [(0.40)(0.001)]/[(0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001)]

o sea

P(C|d) = [0.0004]/[0.00286] = 0.1399

casi 14%.

O sea que si tomamos una pieza al azar, la probabilidad de que haya sido soldada por el robot C es alta, 40%. Pero, como ese robot produce sólo 1 de cada mil soldaduras defectuosas, al saber que la pieza seleccionada es defectuosa, la probabilidad de que provenga del robot C disminuye a solamente 14%. Esto quiere decir que, en este caso el saber que la soldadura es defectuosa, nos provee con una gran cantidad de información.

Si analizáramos, usando de nuevo la fórmula de Bayes las probabilidades de los robots A y B, tendríamos

P(B|d) = 0.7343 y P(A|d) = 0.1259

Comparadas con las probabilidades de cada máquina sin saber que la pieza es defectuosa vemos un gran incremento en la probabilidad de B.

Si, por el contrario la pieza no hubiese tenido defectos de soldadura, el mismo teorema de Bayes nos daría (haga Ud. las cuentas y ¡fíjese que no me haya equivocado yo!):

P(A|no d) = 0.1802 P(B|no d) = 0.4191 y P(C|no d) = 0.4007

Las probabilidades no son idénticas a las probabilidades no condicionales, pero la diferencia es muy pequeña.

Para apreciar mejor el cambio, pongamos en una sola tabla las probabilidades iniciales y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza.

Robot
P( )
P( |d)
P( |no d)
A
0.18
0.1259
0.1802
B
0.42
0.7343
0.4191
C
0.40
0.1399
0.4007

Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la pieza no tiene defectos, prácticamente no altera las probabilidades de produción en uno u otro.

Por el contrario, el robot C es tan bueno, comparado con el B que, al saber que la pieza es defectuosa, las probabilidades cambian dramáticamente.

En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que el sentido común nos dice de otra forma. Note que la fórmula de Bayes nos sirvió para pasar de las probabilidades no condicionales a las condicionales.

Otro ejemplo más del uso del teorema de Bayes.

Otro ejemplo clásico del uso del teorema de Bayes es un problema de oro y plata. Hay tres bolsas que tienen, cada una dos monedas. Las de la primera son de oro, las de la segunda son de plata y las de la tercera son una de plata y otra de oro. Se escoje una bolsa al azar y de ella una moneda también al azar. Si la moneda es de oro, ¿cuál es la probabilidad de que la otra moneda en la bolsa sea de oro también?

Primero notemos que la segunda bolsa no pudo haber sido elegida (porque no tiene monedas de oro), sólo pudo haber sido seleccionada la primera o la tercera. Si la bolsa elegida hubiese sido la tercera, el evento cuya probabilidad nos interesa no se realiza. De modo que el evento que nos interesa es equivalente a que se haya elegido la primera bolsa.

Una vez establecido lo anterior, apliquemos el teorema de Bayes para calcular:

P(1ª|Au) = [P(1ª)P(Au|1ª)] / [P(1ª)P(Au|I) + P(2ª)P(Au|2ª) + P(3ª)P(Au|3ª)]

Las probabilidades que entran al lado derecho de la igualdad las sacamos, inmediatamente, de las condiciones del problema y después de hacer cuentas tenemos:

P(1ª|Au) = 2 / 3

Este problema es clásico porque existe una "solución" a la que muchas personas llegan y es falsa. El argumento es el siguiente. Como todas las bolsas son igualmente posibles, y el hecho de que la primer moneda extraída sea de oro, nos indica que no se trata de la segunda bolsa. Concluímos que las dos bolsas restantes tienen igual probabilidad y, por tanto, la probabilidad de que la otra moneda sea de oro es 1/2.

Si Ud. piensa de acuerdo a este razonamiento (¡erróneo!), es muy difícil que encuentre en qué se equivoca.

Lo que está mal es que lo que averiguamos, al saber que la moneda extraída es de oro, es algo más que el rechazo de la segunda bolsa. Si sólo nos dijeran que la bolsa escogida al azar no fué la segunda, sin informarnos del metal de la moneda sacada, todavía tendríamos incertidumbre respecto a la primera moneda; todavía podríamos apostar a si ésta es de oro o de plata. Al decirnos que la moneda fué de oro, estamos aprendiendo algo más, y eso echa por tierra el argumento de "igual probabilidad para las dos bolsas restantes".

La información con la que contamos nos indica que nos hallamos frente a un caso en el que la bolsa era la primera y sacamos, o la primera de las monedas que contenia, o la segunda, (ya llevamos 2 posibilidades), o bien la bolsa era la tercera y en ese caso tan solo podría ser que sacáramos en primer lugar la moneda de oro, luego la que queda dentro es de plata (una única posibilidad). Tenemos 3 posibles sucesos en los que en 2 de ellos sacaríamos a continuacion una moneda de oro (2/3 de probabilidad), y tan solo una de las veces la nueva moneda sería de plata (1/3 de probabilidad).

Lo interesante del problema es que, si nos hubieran dicho que la moneda sacada fué de plata, aplicando la fórmula de Bayes, llegamos a la conclusión de que la probabilidad de que la otra moneda sea también de plata es 2/3 [¡Haga Ud. las cuentas!].

Es decir, si vamos a apostar al metal de la otra moneda, nos conviene apostar por el metal de la primera.

Este ejemplo nos lleva a reflexionar sobre el uso adecuado de la información contenida en "lo dado" en el cálculo de la probabilidad condicional.

Una última cuestion: Suponga que asiste a uno de los numerosos programas de televisión en los que despues de haber hecho el payaso/a (o mostrado sus habilidades) para diversión de la audiencia, le ofrecen que escoja una de 3 puertas que esconden un gran regalo (un coche, un apartamento, etc... ) una de ellas y las otras 2 no contienen nada. Tras elegir usted una, el presentador o presentadora del programa abre una de las que rechazó, mostrando que no contenía nada (esto siempre lo podrá hacer, eliga usted la que eliga) y le da la oportunidad de plantarse con la que escogió inicialmente o cambiar a la otra que queda aún sin abrir. ¿que debería hacer?. Tenga en cuenta que despues de conocer el contenido de una de las puertas que no eligió inicialmente "sabe algo mas que al principio". Una pista: no es indiferente plantarse o cambiar, uno de los 2 comportamientos es mas ventajoso que el otro. Si tiene la solución, y quiere verificarla, enviemela por correo electrónico a diz@farm.ucm.es indicando en él "Bayes televisión".


Temario.

Buscadores.
 
    Enlace hacia algunos de los "Robots genéricos de búsqueda" mas usados en Internet, desde los que podrá realizar búsquedas selectivas de temas relacionados con la "estadística" en general y la "Bioestadística" en particular:


La corrección de algunos errores presentes en esta página ha sido posible gracias a Miguel Angel Porta Gándara de Mexico.
Ultima modificación: 15-V-2003.