You are on page 1of 161

IMCA: Metodos Computacionales en Estadstica I

IMCA-FINCYT
Curso: Elementos computacionales en Estadstica

Carlos A. Abanto-Valle
Instituto de Matematica-UFRJ

Lima, Abril de 2015

1 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion

Contenido
1

Introduccion
Inferencia via la funcion de verosimilitud
Inferencia Bayesiana

Optimizacion y solucion de ecuaciones no lineales

Simulacion

Integracion

Simulacion estocastica via cadenas de Markov (MCMC)


2 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia via la funcion de verosimilitud

Inferencia Clasica
i.i.d.

Sean Xi f (X | ), i = 1, . . . , n.
= (1 , . . . , p )> un vector de parametros desconocido.
La funcion de verosimilitud es definida por
L() =

n
Y

f (Xi | )

i=1

Cuando los datos no son i.i.d., la funcion de verosimilitud se


define como la funcion de distribucion conjunta
L() = f (X1 , . . . , Xn | )
vista como una funcion de .
3 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia via la funcion de verosimilitud

Inferencia Clasica
que maximiza
El objetivo en inferencia clasica es obtener
L(), esto es
= arg max

L()
El estimador maximo verosmil es invariante a transformaciones.
Tpicamente es mas simple trabajar con el logaritmo de la
funcion de verosimilitud, esto es:
`() = log L()

4 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia via la funcion de verosimilitud

Inferencia Clasica
Observese que maximizar L() com relacion a es equivalente a
encontrar la solucion para el sistema
`()
=0

donde

`()
`()
`() >
=(
,...,
)

1
n

recibe el nombre de funcion score.


La funcion score satisfaz
E(

`()
)=0

5 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia via la funcion de verosimilitud

Inferencia Clasica
Solo en algunos casos se puede encontrar una solucion analtica
para el problema
= arg max

`()
depende en las realizaciones de las
La distribucion muestral de
variables aleatoreas X1 , . . . , Xn .
La matriz de informacion de Fisher es definida por
I() = E(

2 `()
`() `()
) = E(
)
>
>

los valores esperados son calculados con relacion a X1 , . . . , Xn .

6 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia via la funcion de verosimilitud

Inferencia Clasica
Sobre condiciones de regularidad la varianza asintotica de
bftheta es dada por I( )1 , donde representa o valor
verdadero de .
Asi,

Np ( , I( )1 )

7 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia Bayesiana

Inferencia Bayesiana
es una variable aleatorea.
p() es denominada distribucion a priori representacion
inicial de la incertidumbre acerca de antes de que se observen
los datos
y1 , . . . , yn son las observaciones de la variable aleatorea y
p(y1 , . . . , yn | ) es la funcion de verosimilitud informacion
obtenida atraves de los datos
p( | y1 , . . . , yn ) es la distribucion a posteriori cuantifica
como se modifica nuestro conocimiento acerca de con la
informacion y1 , . . . , yn

8 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia Bayesiana

Inferencia Bayesiana
La distribucion a posteriori es dada por
p( | y) =

p(y | )p()
.
p(y | )p()d

(1)

donde y = (y1 , . . . , yn )0 . El denominador (1) define la verosimilitud


marginal
Z
p(y) =
p(y | )p()d

9 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia Bayesiana

Inferencia Bayesiana
En la mayor parte de las aplicaciones de interes, p(y) no tiene forma
analtica cerrada y su evaluacion mediante metodos numericos es
difcil de aplicar.
p( | y) p() p(y | )
| {z }
|{z} | {z }
posteriori

(2)

priori verosimilitud

10 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia Bayesiana

Inferencia Bayesiana
Supongase que y1 es observado p( | y1 ) representa la distribucion a
posteriori. Luego, se observa y2 . cual es la distribucion a posteriori
de dado que se conoce y1 y y2 ?
p( | y1 , y2 ) p( | y1 )p(y2 | )

11 / 162

IMCA: Metodos Computacionales en Estadstica I


Introduccion
Inferencia Bayesiana

Inferencia Bayesiana
Sea z una observacion futura. Cual es la distribucion de z | y?
Z
p(z | y) =
p(z | , y)p( | y)d
En muchas ocasiones zy | , asi tenemos que p(z | , y) = p(z | ).

12 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Contenido
1

Introduccion

Optimizacion y solucion de ecuaciones no lineales


El metodo de Newton-Raphson
Metodo Scoring de Fisher
Metodo de la Secante
Optimizacion con restricciones

Simulacion

Integracion

Simulacion estocastica via cadenas de Markov (MCMC)


13 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Optimizacion en Estadstica
En estadstica se necesita optimizar muchas funciones.
por ejemplo: La funcion de verosimilitud, la distribucion
posterior, entropia, etc.
La maximizacion de estas funciones conducen el proceso de
inferencia.

14 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Optimizacion en Estadstica
Muchas funciones no pueden ser optimizadas analticamente.
Por ejemplo, considerese la maximizacion de
g(x) =

log x
x+1

con relacion a x.
Igualando la primera derivada de g(x) a cero, se tiene que
1+

1
log(x) = 0
x

la cual no tiene solucion analtica.


15 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Optimizacion en Estadstica
En el caso de la estimacion por maxima verosimilitud, g es el
logaritmo de la verosimilitud ` y es el argumento.
es el EMV, este valor maximiza la log-verosimilitud.
Si
es la solucion de

`()
=0

Si el objetivo es encontrar el maximo a posteriori, es la


solucion de
log p( | X)
=0

16 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Ejemplo
Sean yi N (, 2 ), iid
La funcion de verosimilitud es dada por
p(y | , 2 )


n 
Y
1 1/2 1 2 (yi )2
e 2
2
i=1

n
1 X
n
log p(y | , 2 ) l log 2 2
(yi )2
2
2
i=1

17 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Ejemplo
log p(y | , 2 )

log p(y |
2

, 2 )

Assim,
= y e
2 =

= +

n
1 X
(yi )
2
i=1

n
n
1 X
+
(yi )2
2 2 2 4
i=1

yi y /n,

as quais sao obtidas a partir de

log p(y | , 2 )

log p(y | , 2 )
2

= 0
= 0
18 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Ejemplo
n
1 X
(yi )
4

log p(y | , 2 )
2

log p(y | , 2 )
2

n
= 2

log p(y | , 2 )
( 2 )2

i=1

n
n
1 X

(yi )2
2 4 6
i=1

19 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales

Ejemplo
En general no es posible obtener de forma analtica el EMV,
entonces metodos numericos son usados.

20 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
El metodo de Newton-Raphson

Motivacion

21 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
El metodo de Newton-Raphson

Motivacion
Sea f (x) una funcion y el objetivo es obtener la solucion z de
modo que f (z) = 0.
f (z) f (xn ) + (z xn )f 0 (xn )
0 f (xn ) + (z xn )f 0 (xn )

z xn

f (xn )
f 0 (xn )

De forma iterativa,
xn+1 = xn

f (xn )
f 0 (xn )

22 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
El metodo de Newton-Raphson

Motivacion
Sea L() la funcion de verosimilitud y `() = log L()
el algoritmo de Newton-Raphson puede ser usado para obtener el
EMV. Asi
`0 (n )
n+1 = n 00
` (n )
En el contexto Bayesiano, sea h() = log p( | y). El maximo a
posteriori, puede obtenerse por
n+1 = n

h0 (n )
h00 (n )

23 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Metodo Scoring de Fisher

Descripcion del metodo

Este metodo resulta da sustitucion de la segunda derivada por el


negativo de su valor esperado
n+1 = n

`0 (n )
E(`00 (n ))

24 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Metodo de la Secante

El Metodo

25 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Metodo de la Secante

El Metodo
Geometricamente, corresponde a sustituir el papel da tangente,
en el metodo de N-R, por una secante.
Esto significa que se necesitan siempre dos puntos para
determinar la solucion, lo que implica considerar dos valores
iniciales que seran denotados por x1 e x0 .
De forma analoga al metodo de N-R, calculando ahora el punto
de interseccion de la secante con el eje de las abcisas, se obtiene
la formula para xn+1 :
xn+1 = xn f (xn )

xn xn1
f (xn ) f (xn1 )

26 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
En estadstica, es frequente que la maximizacion (minimizacion)
tenga algun tipo de restriccion. La forma mas simple de tratar
ese problema es hacer una reparametrizacion de modo que la
optimizacion sea irrestricta.
Por ejemplo, si 0 < xi < 1 en general se usa la transformacion
logstica,


xi
i = log
1 xi
realizando una optimizacion irrestricta en i R y evaluando la
funcion objetivo como
f(

ei
)
1 + ei

27 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Otro exemplo, se desea obtener el valor que maximiza
f (x) = x3 ex /6, x > 0
l(x) = log(f (x)) = 3 log(x) x log(6)
3
l0 (x) =
1
x
3
l00 (x) = 2
x
El metodo de N-R
xn+1 = xn

3
xn

x32
n

28 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Se x0 = 6, entao x1 = 0

29 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]

6 -0.5 -0.083333 6
0 Inf -Inf NaN
NaN NaN NaN NaN
NaN NaN NaN NaN

30 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]

x
grad
hess grad/hess
0.010000 299.000000 -30000.000000 -0.009967
0.019967 149.250417 -7525.062639 -0.019834
0.039800 74.376043 -1893.849306 -0.039272
0.079073 36.939691
-479.806721 -0.076989
0.156062 18.223184
-123.176938 -0.147943
0.304005
8.868268
-32.460907 -0.273198
0.577203
4.197477
-9.004589 -0.466149
1.043352
1.875349
-2.755876 -0.680491
1.723843
0.740298
-1.009546 -0.733298
2.457141
0.220931
-0.496891 -0.444627
2.901768
0.033852
-0.356284 -0.095016
2.996783
0.001073
-0.334049 -0.003213
2.999997
0.000001
-0.333334 -0.000003
3.000000
0.000000
-0.333333 0.000000
3.000000
0.000000
-0.333333 0.000000
31 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos

32 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Se desea obtener el maximo de f (x) = 3x2 (1 x), 0 < x < 1.
Sean
l(x) = log(f (x)) = log(3) + 2 log(x) + log(1 x)
2
1
l0 (x) =

x 1x
2
1
l00 (x) = 2
x
(1 x)2
Aplicando el algoritmo de N-R
xn+1 = xn

2
x
x22

1
1x
1
(1x)2

33 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]

x
grad
hess grad/hess
0.100000 18.888889 -201.23457 -0.093865
0.193865 9.075969 -54.75344 -0.165761
0.359626 3.999750 -17.90279 -0.223415
0.583041 1.031977 -11.63537 -0.088693
0.671734 -0.068938 -13.71236 0.005027
0.666706 -0.000536 -13.50161 0.000040
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000

34 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]

x
grad
hess grad/hess
0.400000 3.333333 -15.27778 -0.218182
0.618182 0.616246 -12.09297 -0.050959
0.669141 -0.033527 -13.60189 0.002465
0.666676 -0.000126 -13.50038 0.000009
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000

35 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Como x (0, 1) podemos realizar una optimizacion irrestricta en


x
= log
1x

36 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]

alpha
0.693134
0.693137
0.693139
0.693141
0.693142
0.693143
0.693144
0.693145
0.693145
0.693146
0.693146

x
0.666664
0.666664
0.666665
0.666665
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666

grad
4.1e-05
3.2e-05
2.5e-05
1.9e-05
1.5e-05
1.2e-05
9.0e-06
7.0e-06
5.0e-06
4.0e-06
3.0e-06

hess grad/hess
-13.49988
-3e-06
-13.49991
-2e-06
-13.49993
-2e-06
-13.49994
-1e-06
-13.49995
-1e-06
-13.49996
-1e-06
-13.49997
-1e-06
-13.49998
-1e-06
-13.49998
0e+00
-13.49999
0e+00
-13.49999
0e+00

37 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Ajuste de um modelo logistico a datos de dosis-respuesta
(Dobson, 1990). En este experimento, la variable de interes es el
numero de insectos muertos (Y) de un numero inicial (n)
despues de 5h de exposicion a una concentracion (X) de un
veneno. Los datos son,

y
n
x

1
6.00
59.00
1.69

2
13.00
60.00
1.72

3
18.00
62.00
1.76

4
28.00
56.00
1.78

5
52.00
63.00
1.81

6
53.00
59.00
1.84

7
61.00
62.00
1.86

8
60.00
60.00
1.88

38 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
Sean Y1 , . . . , YN indenpendientes tal que Yi B(ni , i ), entonces
 
ni yi
p(yi ) =
(1 i )ni yi
yi i
Se asume la siguiente relacion entre la probabilidad de muerte y
la concentracion de veneno,

= 0 + 1 x.
1
Asi se tiene que
=

exp{0 + 1 x}
1 + exp{0 + 1 x}

39 / 162

IMCA: Metodos Computacionales en Estadstica I


Optimizacion y solucion de ecuaciones no lineales
Optimizacion con restricciones

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]

beta0
0.00000
-37.85638
-53.85319
-59.96521
-60.70778
-60.71745
-60.71745

beta1
0.00000
21.33743
30.38351
33.84419
34.26485
34.27032
34.27033

40 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion

Contenido
1

Introduccion

Optimizacion y solucion de ecuaciones no lineales

Simulacion
Simulacion de la distribucion exacta
Simulacion aproximada

Integracion

Simulacion estocastica via cadenas de Markov (MCMC)


41 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


Sea X uma variable aleatorea. La funcion de distribucion se
define por
Z x
F(x) =
f (t)dt

Sea, U = F(x) U(0, 1).


P(U u) = P(F(X) u) = P(F 1 F(X) F 1 (u)) = P(X
F 1 (u)) = F(F 1 (u)) = u

42 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


X E()
(
ex
f (x) =
0

x>0
o.c

La funcion de distribucion
(
0
FX (x) =
1 ex

x<0
x0

Sea U U(0, 1) entonces U = FX (x) = 1 eX X =


log(U)/ E()
43 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


Ejemplo:
Escribir un metodo para generar el valor de una v. a. X con funcion de
densidad
(
1
f (x) =
0

0
FX (x) =
x

x
2

x2
2

0<x<2
o.c
x<0
0x<2
x2

44 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


F no es inversible sobre R, pero solo nos interesa encontrar una inversa
F 1 : (0, 1) 7 (0, 2)
(

2+2 1U
x2

x
= u = x =
(3)
2
22 1U

45 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


Ejemplo: Distribucion de Cauchy.
Seja X C(, ). La fpd y la fd son dadas por


1
(x )2
f (x) =
1+

b2


x
1 1
+ arctan
FX (x) =
2

Asi, generase u U(0, 1) y se tiene que




1
x = + tan [u ]
2

46 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de la transformacion inversa


Ejemplo: La distribucion logstica:
Seja X L(, ). La fpd y la fd son dadas por
f (x) =

FX (x) =

1


exp{ x
}
1+

exp{ x
}

2

1
1 + exp{ x
}

Asi, generase u U(0, 1) y se tiene que




u
x = + log
1u
47 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Distribucion beta

X B(, )
(
f (x) =

(+) 1
(1
()() x

x)1

E(x) =
V(x) =

0<x<1
o.c

( +

)2 (

+ + 1)

48 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Distribucion beta
Sea X G(, 1) e Y G(, 1) entonces
Z =

X
B(, ).
X+Y

49 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de Box-Muller-N(0,1)

Sean Ui variables i.i.d tal que Ui U(0, 1) i = 1, 2.

p
2 log(U1 )cos(2U2 )
p
=
2 log(U1 )sen(2U2 )

X1 =
X2

50 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Metodo de Marsaglia e Bray-N(0,1)

Sean U1 , U2 U(0, 1)
V1 = 2U1 1, V2 = 2U2 1 y S = V12 + V22 1
r

2 log(S)
V1
S

2 log(S)
V2
S

X1 =
X2 =

51 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Usando 12 uniformes-N(0,1)

Sean P
Ui U(0, 1), i = 1, . . . , 12. E(Ui ) = 1/2, V(Ui ) = 1/12,
X = ni=1 Ui /n.
X E(X)
X 1/2
p
=p
N (0, 1)
V(X)
1/12 n

52 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Simulacion usando representacion de mixturas

Z
p(x | y)p(y)dy

f (x) =
Y

Se puede generar de X en dos etapas


y p(y) y x p(x | y)

53 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: La distribucion t-Student

Sea X t (0, 1).


Se puede generar valores de la distribucion t-Student usando la
representacion de mixturas.
X = 1/2 
donde G(/2, /2) e  N (0, 1).

54 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

El metodo de Aceptacion-Rechazo
Problema: Generar valores de f (x) es complicado o
computacionalmente costoso.
Solucion: Generar valores de g(x) de la cual es
computacionalmente simple hacerlo.
Requisito:
f (x) Mg(x), x
Entonces, generamos independientemente y g y u U(0, 1)
Si,
u

f (y)
Mg(y)

Aceptamos el valor, luego X = Y. Caso contrario rechazamos y


repetimos el procedimiento.
55 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Formalmente

P(Y x | U {f (Y)/Mg(Y)}) =
=

=
=

P(Y x, U f (Y)/{Mg(Y)})
P(U f (Y)/{Mg(Y)})
R x R f (Y)/{Mg(Y)}
dug(y)dy
0
R R f (Y)/{Mg(Y)}
dug(y)dy
0
R
x
[f (Y)/{Mg(Y)}]g(y)dy
R

[f (Y)/{Mg(Y)}]g(y)dy
R
x
f (y)dy
R
= P(X x)
f (y)dy

56 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: distribucion beta

Generar X Be(a = 2.7, b = 6.3)


Propuesta 1: g U(0, 1)
Propuesta 2: g Be(2, 6).
M = sup

f (x)
g(x)

57 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de la distribucion N+ (0, 1)


Sea X N+ (0, 1). La densidad de X es dada por

2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0

x0
o.c.

La constante M, puede ser obtenida por


M = sup
x

2
f (x)
2
= e2
g(x)
2
58 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de la distribucion N+ (0, 1)


Dado que la probabilidad de aceptacion es M1 es necesario
minimizar M com relacion a , esto es: = 1.
1. Generar x E(1).
2. Generar u U(0, 1) y si u e
contrario retornar a 1.

(x1)2
2

x N+ (0, 1). Caso

59 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) 0 < 1


Sea X G(, 1), de modo que la densidad de X es dada por
( 1 x
x
e
x>0
()
f (x) =
0
o.c.
Sea
g(x) =

e
x+1
x1 I1 (x) +
e
I2 (x)
+e
+e

donde
(
1
I1 =
0

0<x1
o.c.

(
1 x>1
I2 (x) =
0 o.c.

60 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) 0 < 1


La funcion de distribucion de la propuesta es dada por
(
e
x
0<x1
G(x) = +e
e

x+1
) x>1
+e + +e (1 e
M = supx

f (x)
g(x)

+e
e()

Sea
w(x) = ex I1 (x) + x1 I2 (x)

61 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) 0 < 1


El algoritmo A-R, puede ser esquematizado de la siguiente forma
1

1. Generar u1 U(0, 1) y hacer x = ([ +e


e ]u1 ) si u1


e
x = log +e
e (1 u1 ) , si u1 > +e

e
+e ,

2. Generar u2 U(0, 1). Si u2 w(x) x f (x) en otro caso


volver al paso 1.

62 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) > 1


Sean g(x) y G(x) la fdp y la fd de la propuesta las cuales son
especificadas por
(
g(x) =
G(x) =

x1
+x

0
(

x>0
o.c.

+x

x>0

o.c

por el metodo de la trasnformacion inversa un valor x de g(x) es


generado via

1

u
x=
;
1u

u U(0, 1)
63 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) > 1

Los parametros = 2 1 y = son escogidos de modo


f (x)
que se minimize M = supx g(x)
con relacion y .
Luego, se tiene que
M=

4 e

() 2 1

64 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: Simulacion de: G(, 1) > 1


El algoritmo A-R, puede ser esquematizado de la siguiente forma

1
1. Hacer a = 21
, b = log 4 y M = + 2 1
2. Generar ui U(0, 1) i = 1, 2.


u1
3. Asignar y = a log 1u1 , x = ey , z = u21 u2 y r = b + My x.
4. Aceptar x si r log z, en otro caso retornar a 2.

65 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Squeezed rejection sampling


El algoritmo A-R require la evaluacion de f para cada candidato
y.
En casos donde evaluar f es costoso pero el algoritmo A-R es
u til, se puede mejorar el algoritmo A-R utilizando el squeezed
A-R.
La estrategia evita la evaluacion de f en algunos casos,
evaluando una funcion squeeze, s(x).
s(x) f (x) en todo el soporte de definicion de f . g(x) tambien es
usado de modo que f (x) Mg(x).

66 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Squeezed rejection sampling


El algoritmo puede ser descrito de la siguiente forma
1. Generar y g
2. Generar u U(0, 1).
3. Si u

s(y)
Mg(y)

hacer x = y x f (x). Ir al paso 6.

f (y)
. Si la considicion es
4. En otro caso, verificar si u Mg(y)
verificada, hacer x = y x f (x).

5. Si la condicion no es satisfecha, se rechaza y.


6. Volver al paso 1.

67 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Squeezed rejection sampling

68 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: simulacion de N (0, 1) usando SRS


El objetivo: x N (0, 1).
La propuesta: g(x). La densidad g(x) es especificada por
1
g(x) = e|x|
2
M = supx

f (x)
g(x)

2
e

Sea h(x) = Mg(x) =

2 1 |x|
e2e

La funcion squeeze s(x) =

1
2e

e |x|
.
2 e

si x (1, 1)

69 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: simulacion de N (0, 1) usando SRS

70 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Ejemplo: simulacion de N (0, 1) usando SRS


El algoritmo funciona de la siguiente forma
1. Generar y g
2. Generar u U(0, 1).
q

3. Si u

s(y)
Mg(y)

1
2e

2 1 |y|
e e
2

= e|y|1 , hacer x = y x f (x). Ir

al paso 6.
1

f (y)
4. En otro caso, verificar si u Mg(y)
= e 2 (|y|1) . Si la
considicion es verificada, hacer x = y x f (x).

5. Si la condicion no es satisfecha, se rechaza y.


6. Volver al paso 1.

71 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

El metodo de la razon de uniformes


Sean U y V v.a. uniformes en
r
v
C = {(u, v), 0 u h( )}
u
h es una funcion integrable no negativa e , entonces la densidad
de V/U es proporcional a h
p
p
p
Sea a = supx h(x), c = infx x h(x) e d = supx x h(x)

72 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

El metodo de la razon de uniformes


La densidad conjunta de U y V es dada pora
(
p
k 0 v h( uv )
f (u, v) =
0 o.c
donde k es la constante de integracion.
Considerese la transformacion de (u, v) 7 (x, y), donde x = v/u
e y = u. Esto significa que u = y e v = xy.
El jacobiano de la transformacion es: J = y.

73 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

El metodo de la razon de uniformes


La densidad conjunta de x e y es dada por
g(x, y) = g(u, xy)|J| = ky
p
para 0 y h(x)
la densidad marginal de x es
Z

h(x)

g(x) =
0

donde
k= R

k
kydy = h(x)
2

2
h(x)dx
74 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

El metodo de la razon de uniformes


Generar U y V de U(0, 1)
Hacer u1 = bU y v1 = c + (d c)V
Hacer x = v1 /u1
Si u21 h(x), x es una muestra de h, caso contrario repetir el
procedimiento.

75 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Generacion de v.a. de la N (0, 1) usando el metodo de RU

1 2

Sea h(x) = e 2 x , los valores de b, c y d son obtenidos a partir de


b = sup
x

p
p
p
h(x) = 1, c = inf x h(x) = 2e1 , d = sup x h(x) = 2e1
x

76 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion de la distribucion exacta

Generacion de v.a. de la N (0, 1) usando el metodo de RU

Generar u U(0, 1) y v U(0, 1).

Definir v1 = (2v 1) 2e1 , u1 = u


Hacer x =

v1
u1 ,

si u21 e

21 ( u1 )2
1

4u21 log u1 u22

77 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion aproximada

Muestreo por importancia


Objetivo: Simular valores de f (x).
Problema: Costoso computacionalmente .
Solucion: Obtener valores de g(x) es mas simple.
Sea x1 , . . . , xn una muestra generada a partir de g(x).
Se define q(x) =
definida por

f (x)
g(x) .

La probabilidad de aceptacion de xi es

q(xi )
, i = 1, . . . , n
w(xi ) = Pn
j=1 q(xj )

78 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion aproximada

Muestreo por importancia


Para obtener valores de f (x) el siguiente procedimiento es
realizado
1. Generar xi g(x), i = 1, . . . , n
2. Calcular w(xi ), i = 1, . . . , n
3. Generar u U(0, 1) e hacer x = xi se j1 u < j , donde
Pj
j = i=1 w(xi )

x obtenido en 3 representa un valor aleatoreo obtenido de f (x).


Todos los pesos w(xi ) i = 1, . . . , n necesitan calcularse.
Es necesario generar n valores de g(x)
Si se necesita generar N > n valores de f (x), paso 3 tiene que
ejecutarse N veces.
79 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion aproximada

Ejemplo: Simulacion de la distribucion N+ (0, 1)


Sea X N+ (0, 1). La densidad de X es dada por

2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0
sea q =

f (x)
g(x)

x0
o.c.

1 2
2 e 2 x +x
2

80 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion
Simulacion aproximada

Ejemplo: Simulacion de la distribucion N+ (0, 1)


Para obtener valores de f (x) el siguiente procedimiento es
realizado
1. Generar xi E(1), i = 1, . . . , n
i)
2. Calcular w(xi ) = Pj q(xw(x
, i = 1, . . . , n
)
k=1

3. Generar u U(0, 1) e hacer x = xi se j1 u < j , donde


Pj
j = i=1 w(xi )

x obtenido en 3 representa un valor aleatoreo obtenido de f (x).


Todos los pesos w(xi ) i = 1, . . . , n necesitan calcularse.
Es necesario generar n valores de g(x)
Si se necesita generar N valores de f (x), paso 3 tiene que
ejecutarse N veces.
81 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion

Contenido
1

Introduccion

Optimizacion y solucion de ecuaciones no lineales

Simulacion

Integracion
Integracion numerica
Integracion usand aproximaciones analticas
Integracion por Monte Carlo
Muestreo por importancia

Simulacion estocastica via cadenas de Markov (MCMC)


82 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion numerica

Introduccion
Considerese la integral de la forma
Z

f (x)dx
a

El valor de la integral puede ser determinada analticamente solo


para pocas funciones.
En el resto de los casos aproximaciones numericas son
necesarias.
La aproximacion de integrales surgen naturalmente en inferencia
Bayesiana, ya que la distribucion posterior no tiene solucion
analtica cerrada.

83 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion numerica

Introduccion
Supongase que el intervalor [a, b] es particionado en n
subintervalos.
Sean los intervalos [xi , xi+1 ] para i = 0, 1, . . . , n 1. com x0 = a
y xn = b
Asi, la integral puede ser calculada atraves de
Z

f (x)dx =
a

n1 Z
X
i=0

xi+1

f (x)dx

xi

84 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion numerica

Introduccion
La idea es calcular cada subintegral dentro del intervalo [xi , xi+1 ].
Inserte m + 1 nodos, xij , j = 0, . . . , m.
En general los intervalos y nodos de igual logitud.
La idea es
Z

xi+1

f (x)dx
xi

m
X

Aij f (xij )

j=0

85 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion numerica

Introduccion

86 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion numerica

Introduccion

87 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

La idea: Aproximacion Normal


Sea p( | y) la distribucion posterior de .

p( | y) p()p(y | )
Sea `() = log p( | y). Haciendo una expansion en S.T. de
la moda de la distribucion
segundo orden alrededor de
posterior, tenemos que
2
> `() ( )

+ ( )
> `()
+ 1 ( )
`() `()
2
>

es la moda de la distribucion posterior, entonces


Pero como
2
+ 1 ( )
> `() ( )

`() `()
2
>
88 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

La idea: Aproximacion Normal



Sea, V =

`( )
2

p( | y)

1

>

e`()
d
e`( )

> 1

1
e[`( ) 2 ( ) V ( )]
R [`( ) 1 ( )> V 1 ( )]
2
e
d

1
p

[2] 2 |V| 2

1
p
2

[2] |V|

1
[ 2

|V| 2

e 2 ( )
1

1
2

> 1

1
e 2 ( ) V ( )
> 1

p
1
] 2 1 e 2 ( ) V ( ) d

> V 1 (

89 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo: Bernoulli
Consideremos que yi Ber() (0, 1) i = 1, . . . , n es una
muestra aleatorea. Luego la verosimilitud es dada por
p(y | )

Pn

i=1 yi

(1 )n

Pn

i=1 yi

Asumiendo que a priori que Be(a0 , b0 ), se tiene que la fdp a


posteriori de
p( | y) a0 1 (1 )b0 1
Pn

Pn

i=1 yi

Pn

(1 )n

i=1 yi

Pn

= i=1 yi +a0 1 (1 )n i=1 yi +b0 1


P
P
Asi | y Be( ni=1 yi + a0 , n ni=1 yi + b0 ).

90 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo: Bernoulli
El logaritmo de la posteriori es dado por
`() = log p( | y) (a1 1) log() + (b1 1) log(1 )
d`()
a1 1 (b1 1)
=

(1 )
Sea tal que

d`()
d

= 0, entonces =

a1 1
a1 +b1 2

d2 `()
a1 1 (b1 1)
= 2
2
d

(1 )2

91 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo: Bernoulli
En nuestro ejemplo
| y Be(7, 2)

3
d2 `()
6

Entonces la moda = 7 y d2
= 76

=6/7

92 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

2.5

3.0

Ejemplo: Bernoulli

0.0

0.5

1.0

density
1.5

2.0

Beta(7,2)
N(6/7,6/7^3)

0.0

0.2

0.4

0.6

0.8

1.0

93 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo: Poisson
Sea yi P(), i = 1, . . . , n. Luego la verosimilitud es dada por
p(y | )

n
Y

yi e =

Pn

i=1 yi

en

i=1

Asumiendo a priori que G(a0 , b0 ), se tiene que la fdp a posteriori


de
p( | y) a0 eb0

Pn

i=1 yi

en

= a0 +y1 e(b0 +n)


Asi | y G(a0 +

Pn

i=1 yi , b0

+ n).

94 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo: Poisson
y = (6, 15, 9, 12, 11, 9, 10, 9, 12, 7)0 , n = 10,

Pn

i=1 yi

= 100

Priori 1: G(0.1, 0.01) Posteriori 1:


| y G(100.1, 10.01)
El logaritmo de la posteriori es dado por
`() = log p( | y) (a1 1) log() (b1 )

Sea tal que

d`()
d

d`()
a1 1
=
b1
d

= 0, entonces = a1 1
b1

d2 `()
a1 1
= 2
2
d

95 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

0.3

0.4

Ejemplo: Poisson

0.0

0.1

density
0.2

G(100.1,10.01)
N(xm,sqrt(s2g))

10

12

14

16

96 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Aproximacion de Laplace

Sea g() una funcion Rp R+


Se desea calcular E(g() | y), entonces tenemos que
R
g()p( | y)d
R
E(g() | y) =
p( | y)d
Sea ~() = log g() + log p( | y). Sean la moda de ~() e

1

~( )

V =
>

97 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Aproximacion de Laplace

Aplicando una aproximacion normal en el numerador y


denominador tendremos que
1

E(g() | y)

|V| 2
|V |

1
2

e[~(

)`()]

98 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion usand aproximaciones analticas

Ejemplo Bernoulli

Se desea calcular E( 1
). Esto puede calcularse analiticamente.

Puede usarse la aproximacion de Laplace

E( 1
) = 7.840605

99 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Introduccion al Metodo de Monte Carlo

Muchas cantidades de interes en inferencia estadstica pueden


ser expresadas como el valor esperado de una funcion de una
variable aleatorea, E(h(X))
Sea f la densidad de X y denotese a el valor esperado de h(X)
en relacion a f .
Sea X1 , . . . , Xn una muestra i.i.d extrada de f .
puede aproximarse por
n

MC

1X
h(Xi )
=
n

h(X)f (X)dX =

i=1

100 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Introduccion al Metodo de Monte Carlo

Sea (X) = [h(X) ]2 . Asumiendo que h(X)2 tiene esperanza


finita en relacion a f .
La varianza muestral de
MC es 2 /n = E((X)), donde el valor
esperado se define en relacion a f .
Un estimador de la varianza muestral es dado por
n

1 X
c MC ] =
[h(Xi )
MC ]2
var[
n1
i=1

101 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

El metodo de la fuerza bruta

102 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

El metodo de la fuerza bruta


Sea
p = I/A
donde I es el a rea abajo de f (x) y A representa el a rea del
rectangulo entre (a,b) e c
Gernerar ui1 U(a, b) y ui2 U(0, c) para i = 1, . . . , N.
Verificar
P la condicion que ui2 f (ui1 ). Sea
n = ni=1 I({i; ui2 f (ui1 )})
Asi se tiene que
n Bin(N, p)
Luego, p puede ser estimado por

p=

n
n
I = (b a)c
N
N
103 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

El metodo de la fuerza bruta


Asi,




(b a)c 2
(b a)c 2

Var(I) =
Var(n) =
Np(1 p)
N
N
la cual puede ser estimada por
2
I) = [(b a)c]
Var(
p(1
p)
N

104 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Ejemplo
Z
I=

ex = ex |10 = 1 e1 = 0.6321206

105 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Ejemplo

106 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Ejemplo
Sea
p = I/A
donde I es el a rea abajo de ex y A representa el a rea del
cuadrado entre (0, 1) (0, 1)
Gernerar ui1 U(0, 1) y ui2 U(0, 1) para i = 1, . . . , N.
Verificar
ui2 eui1 . Sea
Pn la condicion que
u
i1
n = i=1 I({i; ui2 e })
Asi se tiene que
n Bin(N, p)
Luego, p puede ser estimado por

p=

n
n
I =
N
N
107 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

0.0

0.2

0.4

0.6

0.8

1.0

Ejemplo

2000

4000

6000

8000

10000

108 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

Monte Carlo simple


Nuevamente, el problema es calcular a integral
Z

Z
f (x)dx = (b a)

I=
a

f (x)
a

1
dx
ba

La solucion: simular x1 , . . . , xb U(a, b)


Luego, la integral puede ser aproximada por
I = (b a) 1
n

n
X

f (xi ) = (b a)fn

i=1

La varianza puede ser estimada por estimada por


n

2 X
I) = (b a) ( [f (xi ) fn ]2 )
Var(
n2
i=1

109 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

En el ejemplo anterior
Z
I=

ex = ex |10 = 1 e1 = 0.6321206

xi U(0, 1), i = 1, . . . , n
n

X
I = 1
exi
n
i=1

110 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

0.40

0.45

0.50

0.55

0.60

0.65

0.70

En el ejemplo anterior

2000

4000

6000

8000

10000

111 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

En el ejemplo anterior
Otra forma de calcular numericamente
Z 1
I=
ex dx
0

es simular xi E(1), i = 1, . . . , N.
En este
P caso la integral puede ser aproximada
I = N I(xi (0, 1)), donde I(x B) es una funcion
i=1
indicadora.
I) =
Luego, se tiene que I(xi (0, 1)) Ber(I). Asi, Var(

I(1I)
N

112 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Integracion por Monte Carlo

0.4

0.5

0.6

I1

0.7

0.8

0.9

En el ejemplo anterior

2000

4000

6000

8000

10000

113 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

El metodo cuando se conoce la constante de integracion


Sea Rp um vetor aleatorio com fdp p()
R
Se desea calcular E[h()] = h()p()d.
Resolver la integral analticamente es difcil.
Un problema adicional: simular de p() es difcil o
computacionalmente costoso.
Solucion: Simular de q().
Asi la integral puede expresarse pora
Z
Z
h()p()
h()p()d =
q()d
E[h()] =

q()
h()p()
= Eq [
]
q()
114 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

El metodo cuando se conoce la constante de integracion


Simular i q( i ), i = 1, . . . , N
Luego, calcular
hIS
n =

N
1 X h( i )p( i ) N
E[h()]
N
q( i )
i=1

La estimativa de la varianza del estimador es dada por


2
N 
1 X h( i )p( i )
IS
IS

Var(hn ) = 2
hn
n
q( i )
i=1

115 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

Ejemplo: Bernoulli
Pn
Pn
| y Be( i=1 yi + a0 , n i=1 yi + b0 ).
Suponga que:
| y Be(7, 2)

| y)
Se desea calcular: E( 1

la cual se puede calcular analticamente

E(
| y)
1

Z
=
=

(a1 + b1 ) a1 1

(1 )b1 1 d
1

(a1 )(b1 )
0
a1
(a1 + 1)(b1 1)
=
=7
(a1 )(b1 )
b1 1

116 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

Ejemplo: Bernoulli
Simular i Be(7, 2), i = 1, . . . , N
Calcular

N
1 X i

hN =
N
1 i
i=1

La estimativa da variancia de
hN esta dada por
N
X
h ) = 1
[h(i ) hn ]2
Var(
n
N2
i=1

117 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

10

Ejemplo: Bernoulli

2000

4000

6000

8000

10000

118 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

Ejemplo: Bernoulli
Ahora calcularemos la razon usando la distribucion uniforme como
densidade de importancia.

hIS
n =

N
i
1 X
dbeta(i , 7, 2)
N
1 i
i=1

119 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

El metodo cuando la constante de integracion es


desconocida
Sea Rp um vetor aleatorio com fdp p()
R
h( )p( )d
Se desea calcular E[h()] = R
.
p( )d
Resolver la integral analticamente es una tarea complicada y es
difcil de generar valores de p().
Solucion: Simular de q().
Asi la integral puede ser expresada por

E[h()] =

R
R
h( )p( )
h()p()d
q( ) q()d
R
=
R p( )
p()d
q( ) q()d
Eq [h()w()]
Eq [w()]
120 / 162

IMCA: Metodos Computacionales en Estadstica I


Integracion
Muestreo por importancia

El metodo cuando la constante de integracion es


desconocida
Simular i q( i ), i = 1, . . . , N
Logo, calcular
hIS
n

PN
=

i=1 h( i )w( i ) N

PN
i=1 w( i )

E[h()]

A estimativa da variancia do estimador e dada por


2
N 
X
1
IS
IS

[h( i ) hn ]wi
Var(hn ) = PN
( i=1 wi )2 i=1

121 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)

Contenido
1

Introduccion

Optimizacion y solucion de ecuaciones no lineales

Simulacion

Integracion

Simulacion estocastica via cadenas de Markov (MCMC)


El algoritmo de Metropolis-Hastings
El algoritmo de Gibbs
122 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

El problema

Seja Rp con densidade ().


Problema: Generar valores de () es bastante complicado.
Solucion: Generar q() de la cual es mas facil hacerlo, q() recibe
el nombre de propuesta de densidad

123 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

El algortimo de M-H
El algoritmo puede ser descrito atraves de los siguientes pasos:
1. Hacer i = 0, (0) .
2. Para j 1. Sea, x = (j1) .
Se genera y q(y | x) y u U(0, 1).
Si u < (x, y) se acepta y, (j) = y en otro caso, (j) = x, donde


(y) q(x | y)
(x, y) = min
,1
(x) q(y | x)
3. Hacer j = j + 1 y retornar a 2 hasta alcanzar convergencia.
Un ingrediente crucial en el uso del algoritmo de M-H es la eleccion
de la propuesta de densidad.
124 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes
Supongase que la propuesta del algoritmo de M-H, es
q(y | x) = q(y). Esto significa que la cadena es independiente
del valor anterior.
En este caso, se define w(y) =

(y)
q(y)

y w(x) =

(x)
q(x) .

Luego se tiene que




w(y)
(x, y) = min 1,
w(x)

125 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes
Ejemplo:
Supongase que y1 , . . . , y100 sean observaciones i.i.d. de la
mixtura
f (y) = N (7, 0.52 ) + (1 )N (10, 0.52 )

(0, 1)

Los datos son simulados con = 0.7


La priori para delta: U(0, 1).
La distribucion posterior sera dada por
()

100 
Y
i=1


1
2

exp{
(yi 7) }
2 0.52
2 0.52
1

1
+ (1 )
exp{
(yi 10)2 }
2
2 0.52
2 0.5


126 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes

127 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes
Aplicacion del algoritmo de MH:
Propuesta 1: q Be(1, 1)
Propuesta 2: q Be(2, 10)
Ambas son propuestas independientes.
w(y) =

(y)
q(y)

f (y)
q(y)

y w(x) =

(x)
q(x)

f (x)
q(x) .



w(y)
(x, y) = min 1,
w(x)

128 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes

129 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Cadenas independientes

130 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo
Otra alternativa para la propuesta es un paseo aleatoreo.
Esto significa, que y = x + , donde  h(.)
En este caso, q(y | x) = h(y x).
Las propuestas mas comunes son la uniforme centrada en el
origen, la distribucion normal o la distribucion t-Student.
 tiene una distribucion simetrica, lo que implica que
q(y | x) = q(x | y).
Esta u ltima afirmacion implica que


(y)
(x, y) = min
,1
(x)

131 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo
Ejemplo de mixturas (continuacion):
La distribucion posterior es
()

100 
Y
i=1


1
2
exp{
(yi 7) }

2 0.52
2 0.52
1

1
exp{
+ (1 )
(yi 10)2 }
2
2 0.52
2 0.5
1

Sea = logit() = log( 1


). Una cadena de Markov en
usando un paseo aleatoreo, usando como propuesta con
incremento ut U(b, b).

132 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo
Uma primeira alternativa es utilizar la cadena en la escala de .
En este caso la propuesta q(. | ut ) debe ser transformada al
espacio de , considerando el jaconiano de la transformacion.
Sea el valor de la iteracion anterior t1 y el valor propuesto
la probabilidad de aceptacion del algoritmo de M-H es dada por


( )q(logit( t1 ) | logit( )) | J( t1 ) |
t1
( , ) = min 1,
( t1 )q(logit( ) | logit( t1 )) | J( ) |

133 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo
Otra alternativa es utilizar la cadena en la escala de .
En este caso la densidad de debe ser transformada a la
e
densidad de , donde = logit1 () = 1+e

Sea el valor de la iteracion anterior t1 y el valor propuesto


la probabilidad de aceptacion del algoritmo de M-H es dada por


(logit1 ( )) | J( ) | q( t1 | )
t1

( , ) = min 1,
(logit1 ( t1 )) | J( t1 ) | q( | t1 )

134 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo
En los datos de mixtura, = + 
Propuesta 1:  U(1, 1)
Propuesta 2:  U(0.01, 0.01)
La siguiente figura representa la salida de , rodando la cadena
en la escala de .

135 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Metropolis-Hastings

Paseo aleatoreo

136 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

El problema

Seja Rp con densidade ().


Problema: Generar valores de () es bastante complicado.
Solucion: Aplicar el algoritmo de Gibbs.
Ingredientes: Las distribuciones condicionales completas.
= (1 , 2 , . . . , r )0 . A condicional completa de i , i = 1, . . . , r
es dada por:
(i | i )

137 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

El Algoritmo
(0)

(0)

1. Hacer j = 0, Inicializar (0) = (1 , . . . , r )0


2. Para j 1. Generar
(j)

(j1)

, . . . , r(j1) )

(j)

(j1)

(1 | 2

(j)

(2 | 1 , 3
..
.

(j)

(k | 1 , . . . , k1 , k+1 , . . . , r(j1) )
..
.

2
k

.. ..
. .

.. ..
. .

(r)

, . . . , r(j1) )

(j)

(j)

(j)

(j)

(j1)

(r | 1 , . . . , r1 )

3. Hacer j = j + 1 y retornar a 2, hasta alcanzar convergencia.


138 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Ejemplo: Normal Bivariada

Consideremos
  

0
1
(X, Y) N
,
0
1
As condicionais completas
Y | X = x N (x, 1 2 )
X | Y = y N (y, 1 2 )

139 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Aplicacion Algoritmo de Gibbs

1. Iniciar los valores X (0) e Y (0)


2. Para j > 1 Simular
Y (j) N (X (j1) , 1 2 )
X (j) N (Y (j) , 1 2 )

3. Hacer j = j + 1 y proceder hasta alcanzar convergencia.

140 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Las conjuntas

2
0

2.3

4.6

6.9

141 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

0.3
0.0

0.1

0.2

densidad de Y

0.2
0.1
0.0

densidad de X

0.3

0.4

0.4

Las marginales

142 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Ejemplo: Modelo Normal locacion escala

Sea
yi = + i ,

i = 1, . . . , n

La funcion de verosimilitud
1
 n
n 
Y
1 2 1 2 (yi )2
1 2 1 2 Pni=1 (yi )2
2
p(y | , )
e
=
e 2
2
2
2

i=1

La priori:
p(, 2 ) p( | 2 )p( 2 )

143 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Ejemplo: Modelo Normal locacion escala

Priori de
| 2 N (0 , k01 2 )
Priori de 2
2 IG(

n0 S0
, )
2 2

La posteriori:
  n+n0 +1 +1
P
2
1
1 [S + n (y )2 +k0 (0 )2 ]
p(, | y) 2
e 22 0 i=1 i

144 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Ejemplo: Modelo Normal locacion escala

La posteriori pertenece a la clase NIG y se saben las marginales,


se aplicara el algoritmo de Gibbs.
Las distribuciones condicionales completas son:
n1 S1
2 | y, IG( , )
2 2
Pn
donde n1 = n + n0 + 1 y S1 = S0 + i=1 (yi )2 + k0 ( 0 )2
| y, 2 N (1 , 12 )
donde 1 =

0 k0 +n
y
n+k0

y 12 =

2
n+k0

145 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

El algoritmo

1. Iniciar (0) y 2(0)


2. Para j 1
2.1
(j) N (1 ,

2(j1)
)
n + k0

2.2

Pn
n1 S0 + i=1 (yi )2 + k0 ((j) 0 )2
,
)
2
2
3. Hacer j = j + 1 e retornar a 2 hasta alcanzar convergencia.
2(j) IG(

146 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Resultados
0.5

0.4

0.3

.9

0.2

.6

.3

1.8

1.9

2.0

2.1

2.2

147 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

6
0

0.2

0.3

densidad

0.4

10

0.5

Resultados

2000

4000

6000

8000

10000

0.1

0.2

0.3

0.4

0.5

densidad

2.0
1.9

1.8

2.1

2.2

Index

2000

4000

6000

Index

8000

10000

1.8

1.9

2.0

2.1

2.2

148 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Poisson
Sea yi P(), i = 1, . . . , m, Xi P(), i = m + 1, . . . , n
Se desconoce m
Asummiendo que la distribucion a priori de , , m es dada por
p(, , m) p()p()p(m)
Se especifica: G(a0 , b0 ), G(a1 , b1 ),
p(m) = n1 , m = 1, . . . , n

149 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Poisson
La distribucion a posteriori es dada por
p(, , m)

Pm

i=1 yi

em

Pn

i=m+1 yi

e(nm)

a0 1 eb0 a1 1 eb1

Pm

i=1 yi 1 e(b0 +m)


Pn
a1 + i=m+1 yi 1 (b1 +nm)

= a0 +

Entonces las distribuciones


condicionales completas son:
Pm
| y, m G(a0 + P i=1 yi , b0 + m),
| y, m G(a1 + ni=m+1 yi , b1 + n m) e
p(m | , ) =

Pn
Pm
y
i=1 yi em() i=m+1 i
Pn
Pj
y
y
i=1 i ej() i=j+1 i
j=1

Pn

150 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Poisson

1000

2000

1000

2000

1000

2000

iteracin

3000

4000

5000

3000

4000

5000

3000

4000

5000

10

12

14

16

0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35

10

12

14

16

0.0

0.2

0.4

m
8

0.6

10

0.8

12

14

1.0

iteracin

iteracin

8
m

10

12

14

151 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Modelo de Regresion
yt = 0 + 1 Xt1 + 2 Xt2 + . . . + p Xtp + t
donde t N (0, 2 ). Entonces la distribucion posterior es dada por
2

p(, | Y) p( |

2 )p( 2 )

1
2

n/2

exp{ 21 2 (y X)> (y X)}

152 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Modelo de Regresion
Asumiendo que N ( 0 , 2 0 ) y 2 IG( n20 , S20 ), se tiene
que las distribuciones condicionales completas son dadas por
>
1
| 2 N ( 1 , 2 1 ), 1 = (1
0 + X X) ,
1
>
1 = 1 (X y + 0 0 )

2 | IG( n21 , S21 ), donde n1 = n0 + p + 1 + n y


>
S1 = S0 + ( 0 )> 1
0 ( 0 ) + ((y X) (y X)

153 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

1.0

1000

1000

3000

5000

3000

5000

iteration

densidad

0.5

0.4

0.6

0.0

0.2
0.0
6

10

12

14

16

1000

1000

3000

5000

3000

5000

iteration

0.0

0.5
0

1.0

1.5

2.0

3.4

0.8
iteration

densidad

1.0

0.5

4.0
1.0

1.5

2.0

2.5

3.0

3.5

0.0

4.4

0.0

1.0

0.2

4.2

1.5

0.4

2.0

0.6

densidad

3.8

1.5

2.5

0.5

3.6

1.0

3.0

1.2

2.5

0.00

0.5

0.05

10

0.10

0.15

12

densidad

0.8

0.20

14

1.0

0.25

16

1.5

1.2

0.30

Modelo de Regresion

iteration

4.4

4.0

3.6

3.2

154 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


A finales de 1800 los lobos marinos en Nueva Zelanda casi
fueron llevados a la extincion por cazadores polonesicos y
europeos.
En los u ltimos anos la abundancia de lobos marinos en Nueva
Zelandia ha ido en aumento.
Este incremento ha sido de gran interes para los cientficos, y
estos animales han sido estudiados ampliamente .
El objetivo del estudio es estimar el numero de cras en una
colonia de lobos utilizando un procedimiento de capturarecaptura.

155 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


En estos estudios, se hacen esfuerzos repetidos para contar una
poblacion de tamano desconocido.
La poblacion a ser contada es la de cras.
Emplease un proceso de captura-recaptura.
Los individuos capturados durante cada censo se liberan con un
marcador que indica su captura.
Una captura de un individuo marcado durante cualquier censo
posterior se denomina una recaptura.

156 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


El tamano de la poblacion se puede estimar sobre la base de la
historia de la captura y recuperar datos.
Las altas tasas de recaptura sugieren que el verdadero tamano de
la poblacion no excede en gran medida el numero total de
individuos u nicos jamas capturado.

157 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


Sea N el tamano de la poblacion desconocida a ser estimada
usando I intentos de censo.
Sea c = (c1 , . . . , cI )> el numero total de capturas incluyendo las
recapturas y m = (m1 , . . . , mI )> el numero de individuos
capturados por primera vez.
Supongase que la poblacion esta cerrada durante el perodo de
estudio.
Sea r el numero de animales distintos capturados durante el
perodo de estudio.
Sea = (1 , . . . , I )> las probabilidades de captura de cada
intento de censo.
El estudio asume que cada uno de los animales tienen la misma
probabilidad de ser capturados. En tanto que las probabilidades
de captura cambian con el tiempo.

158 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos

159 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


La funcion de verosimilitud para este modelo es dada por
I

L(N, | c, r)

N! Y ci
i (1 )Nci .
(N r)!
i=1

Este modelo es llamado de modelo M(t).


Desde el punto de vista Bayesiano N e son asumidos a priori
independientes.
Se asume que p(N) 1 e para las probabilidades de captura se
tiene que
i | 1 , 2 Be(1 , 2 )

i = 1, . . . , I

160 / 162

IMCA: Metodos Computacionales en Estadstica I


Simulacion estocastica via cadenas de Markov (MCMC)
El algoritmo de Gibbs

Estudio de captura-recaptura de crias de lobos marinos


Se 1 = 2 = 12 , se tiene la priori de Jeffreys.
La combinacion de priori uniforme para N e priori de Jeffreys
para i es recomendada si I > 5. La posteriori resultante es
propia para I > 2 e existe al menos una recaptura (ci mi > 1).
Las distribuciones condicionales completas necesarias para la
aplicacion del Algoritmo de Gibbs son dadas por
N (t+1) r | . N B(r + 1, 1

I
Y

(t)

i )

i=1
(t+1)

1
1
| . Be(ci + , N ( t + 1) ci + ), i = 1, . . . , I
2
2

161 / 162

You might also like