Professional Documents
Culture Documents
IMCA-FINCYT
Curso: Elementos computacionales en Estadstica
Carlos A. Abanto-Valle
Instituto de Matematica-UFRJ
1 / 162
Contenido
1
Introduccion
Inferencia via la funcion de verosimilitud
Inferencia Bayesiana
Simulacion
Integracion
Inferencia Clasica
i.i.d.
Sean Xi f (X | ), i = 1, . . . , n.
= (1 , . . . , p )> un vector de parametros desconocido.
La funcion de verosimilitud es definida por
L() =
n
Y
f (Xi | )
i=1
Inferencia Clasica
que maximiza
El objetivo en inferencia clasica es obtener
L(), esto es
= arg max
L()
El estimador maximo verosmil es invariante a transformaciones.
Tpicamente es mas simple trabajar con el logaritmo de la
funcion de verosimilitud, esto es:
`() = log L()
4 / 162
Inferencia Clasica
Observese que maximizar L() com relacion a es equivalente a
encontrar la solucion para el sistema
`()
=0
donde
`()
`()
`() >
=(
,...,
)
1
n
`()
)=0
5 / 162
Inferencia Clasica
Solo en algunos casos se puede encontrar una solucion analtica
para el problema
= arg max
`()
depende en las realizaciones de las
La distribucion muestral de
variables aleatoreas X1 , . . . , Xn .
La matriz de informacion de Fisher es definida por
I() = E(
2 `()
`() `()
) = E(
)
>
>
6 / 162
Inferencia Clasica
Sobre condiciones de regularidad la varianza asintotica de
bftheta es dada por I( )1 , donde representa o valor
verdadero de .
Asi,
Np ( , I( )1 )
7 / 162
Inferencia Bayesiana
es una variable aleatorea.
p() es denominada distribucion a priori representacion
inicial de la incertidumbre acerca de antes de que se observen
los datos
y1 , . . . , yn son las observaciones de la variable aleatorea y
p(y1 , . . . , yn | ) es la funcion de verosimilitud informacion
obtenida atraves de los datos
p( | y1 , . . . , yn ) es la distribucion a posteriori cuantifica
como se modifica nuestro conocimiento acerca de con la
informacion y1 , . . . , yn
8 / 162
Inferencia Bayesiana
La distribucion a posteriori es dada por
p( | y) =
p(y | )p()
.
p(y | )p()d
(1)
9 / 162
Inferencia Bayesiana
En la mayor parte de las aplicaciones de interes, p(y) no tiene forma
analtica cerrada y su evaluacion mediante metodos numericos es
difcil de aplicar.
p( | y) p() p(y | )
| {z }
|{z} | {z }
posteriori
(2)
priori verosimilitud
10 / 162
Inferencia Bayesiana
Supongase que y1 es observado p( | y1 ) representa la distribucion a
posteriori. Luego, se observa y2 . cual es la distribucion a posteriori
de dado que se conoce y1 y y2 ?
p( | y1 , y2 ) p( | y1 )p(y2 | )
11 / 162
Inferencia Bayesiana
Sea z una observacion futura. Cual es la distribucion de z | y?
Z
p(z | y) =
p(z | , y)p( | y)d
En muchas ocasiones zy | , asi tenemos que p(z | , y) = p(z | ).
12 / 162
Contenido
1
Introduccion
Simulacion
Integracion
Optimizacion en Estadstica
En estadstica se necesita optimizar muchas funciones.
por ejemplo: La funcion de verosimilitud, la distribucion
posterior, entropia, etc.
La maximizacion de estas funciones conducen el proceso de
inferencia.
14 / 162
Optimizacion en Estadstica
Muchas funciones no pueden ser optimizadas analticamente.
Por ejemplo, considerese la maximizacion de
g(x) =
log x
x+1
con relacion a x.
Igualando la primera derivada de g(x) a cero, se tiene que
1+
1
log(x) = 0
x
Optimizacion en Estadstica
En el caso de la estimacion por maxima verosimilitud, g es el
logaritmo de la verosimilitud ` y es el argumento.
es el EMV, este valor maximiza la log-verosimilitud.
Si
es la solucion de
`()
=0
16 / 162
Ejemplo
Sean yi N (, 2 ), iid
La funcion de verosimilitud es dada por
p(y | , 2 )
n
Y
1 1/2 1 2 (yi )2
e 2
2
i=1
n
1 X
n
log p(y | , 2 ) l log 2 2
(yi )2
2
2
i=1
17 / 162
Ejemplo
log p(y | , 2 )
log p(y |
2
, 2 )
Assim,
= y e
2 =
= +
n
1 X
(yi )
2
i=1
n
n
1 X
+
(yi )2
2 2 2 4
i=1
yi y /n,
log p(y | , 2 )
log p(y | , 2 )
2
= 0
= 0
18 / 162
Ejemplo
n
1 X
(yi )
4
log p(y | , 2 )
2
log p(y | , 2 )
2
n
= 2
log p(y | , 2 )
( 2 )2
i=1
n
n
1 X
(yi )2
2 4 6
i=1
19 / 162
Ejemplo
En general no es posible obtener de forma analtica el EMV,
entonces metodos numericos son usados.
20 / 162
Motivacion
21 / 162
Motivacion
Sea f (x) una funcion y el objetivo es obtener la solucion z de
modo que f (z) = 0.
f (z) f (xn ) + (z xn )f 0 (xn )
0 f (xn ) + (z xn )f 0 (xn )
z xn
f (xn )
f 0 (xn )
De forma iterativa,
xn+1 = xn
f (xn )
f 0 (xn )
22 / 162
Motivacion
Sea L() la funcion de verosimilitud y `() = log L()
el algoritmo de Newton-Raphson puede ser usado para obtener el
EMV. Asi
`0 (n )
n+1 = n 00
` (n )
En el contexto Bayesiano, sea h() = log p( | y). El maximo a
posteriori, puede obtenerse por
n+1 = n
h0 (n )
h00 (n )
23 / 162
`0 (n )
E(`00 (n ))
24 / 162
El Metodo
25 / 162
El Metodo
Geometricamente, corresponde a sustituir el papel da tangente,
en el metodo de N-R, por una secante.
Esto significa que se necesitan siempre dos puntos para
determinar la solucion, lo que implica considerar dos valores
iniciales que seran denotados por x1 e x0 .
De forma analoga al metodo de N-R, calculando ahora el punto
de interseccion de la secante con el eje de las abcisas, se obtiene
la formula para xn+1 :
xn+1 = xn f (xn )
xn xn1
f (xn ) f (xn1 )
26 / 162
Ejemplos
En estadstica, es frequente que la maximizacion (minimizacion)
tenga algun tipo de restriccion. La forma mas simple de tratar
ese problema es hacer una reparametrizacion de modo que la
optimizacion sea irrestricta.
Por ejemplo, si 0 < xi < 1 en general se usa la transformacion
logstica,
xi
i = log
1 xi
realizando una optimizacion irrestricta en i R y evaluando la
funcion objetivo como
f(
ei
)
1 + ei
27 / 162
Ejemplos
Otro exemplo, se desea obtener el valor que maximiza
f (x) = x3 ex /6, x > 0
l(x) = log(f (x)) = 3 log(x) x log(6)
3
l0 (x) =
1
x
3
l00 (x) = 2
x
El metodo de N-R
xn+1 = xn
3
xn
x32
n
28 / 162
Ejemplos
Se x0 = 6, entao x1 = 0
29 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
6 -0.5 -0.083333 6
0 Inf -Inf NaN
NaN NaN NaN NaN
NaN NaN NaN NaN
30 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
x
grad
hess grad/hess
0.010000 299.000000 -30000.000000 -0.009967
0.019967 149.250417 -7525.062639 -0.019834
0.039800 74.376043 -1893.849306 -0.039272
0.079073 36.939691
-479.806721 -0.076989
0.156062 18.223184
-123.176938 -0.147943
0.304005
8.868268
-32.460907 -0.273198
0.577203
4.197477
-9.004589 -0.466149
1.043352
1.875349
-2.755876 -0.680491
1.723843
0.740298
-1.009546 -0.733298
2.457141
0.220931
-0.496891 -0.444627
2.901768
0.033852
-0.356284 -0.095016
2.996783
0.001073
-0.334049 -0.003213
2.999997
0.000001
-0.333334 -0.000003
3.000000
0.000000
-0.333333 0.000000
3.000000
0.000000
-0.333333 0.000000
31 / 162
Ejemplos
32 / 162
Ejemplos
Se desea obtener el maximo de f (x) = 3x2 (1 x), 0 < x < 1.
Sean
l(x) = log(f (x)) = log(3) + 2 log(x) + log(1 x)
2
1
l0 (x) =
x 1x
2
1
l00 (x) = 2
x
(1 x)2
Aplicando el algoritmo de N-R
xn+1 = xn
2
x
x22
1
1x
1
(1x)2
33 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
x
grad
hess grad/hess
0.100000 18.888889 -201.23457 -0.093865
0.193865 9.075969 -54.75344 -0.165761
0.359626 3.999750 -17.90279 -0.223415
0.583041 1.031977 -11.63537 -0.088693
0.671734 -0.068938 -13.71236 0.005027
0.666706 -0.000536 -13.50161 0.000040
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
34 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
x
grad
hess grad/hess
0.400000 3.333333 -15.27778 -0.218182
0.618182 0.616246 -12.09297 -0.050959
0.669141 -0.033527 -13.60189 0.002465
0.666676 -0.000126 -13.50038 0.000009
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
35 / 162
Ejemplos
Como x (0, 1) podemos realizar una optimizacion irrestricta en
x
= log
1x
36 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
alpha
0.693134
0.693137
0.693139
0.693141
0.693142
0.693143
0.693144
0.693145
0.693145
0.693146
0.693146
x
0.666664
0.666664
0.666665
0.666665
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666
grad
4.1e-05
3.2e-05
2.5e-05
1.9e-05
1.5e-05
1.2e-05
9.0e-06
7.0e-06
5.0e-06
4.0e-06
3.0e-06
hess grad/hess
-13.49988
-3e-06
-13.49991
-2e-06
-13.49993
-2e-06
-13.49994
-1e-06
-13.49995
-1e-06
-13.49996
-1e-06
-13.49997
-1e-06
-13.49998
-1e-06
-13.49998
0e+00
-13.49999
0e+00
-13.49999
0e+00
37 / 162
Ejemplos
Ajuste de um modelo logistico a datos de dosis-respuesta
(Dobson, 1990). En este experimento, la variable de interes es el
numero de insectos muertos (Y) de un numero inicial (n)
despues de 5h de exposicion a una concentracion (X) de un
veneno. Los datos son,
y
n
x
1
6.00
59.00
1.69
2
13.00
60.00
1.72
3
18.00
62.00
1.76
4
28.00
56.00
1.78
5
52.00
63.00
1.81
6
53.00
59.00
1.84
7
61.00
62.00
1.86
8
60.00
60.00
1.88
38 / 162
Ejemplos
Sean Y1 , . . . , YN indenpendientes tal que Yi B(ni , i ), entonces
ni yi
p(yi ) =
(1 i )ni yi
yi i
Se asume la siguiente relacion entre la probabilidad de muerte y
la concentracion de veneno,
= 0 + 1 x.
1
Asi se tiene que
=
exp{0 + 1 x}
1 + exp{0 + 1 x}
39 / 162
Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
beta0
0.00000
-37.85638
-53.85319
-59.96521
-60.70778
-60.71745
-60.71745
beta1
0.00000
21.33743
30.38351
33.84419
34.26485
34.27032
34.27033
40 / 162
Contenido
1
Introduccion
Simulacion
Simulacion de la distribucion exacta
Simulacion aproximada
Integracion
42 / 162
x>0
o.c
La funcion de distribucion
(
0
FX (x) =
1 ex
x<0
x0
0
FX (x) =
x
x
2
x2
2
0<x<2
o.c
x<0
0x<2
x2
44 / 162
2+2 1U
x2
x
= u = x =
(3)
2
22 1U
45 / 162
b2
x
1 1
+ arctan
FX (x) =
2
46 / 162
FX (x) =
1
exp{ x
}
1+
exp{ x
}
2
1
1 + exp{ x
}
Distribucion beta
X B(, )
(
f (x) =
(+) 1
(1
()() x
x)1
E(x) =
V(x) =
0<x<1
o.c
( +
)2 (
+ + 1)
48 / 162
Distribucion beta
Sea X G(, 1) e Y G(, 1) entonces
Z =
X
B(, ).
X+Y
49 / 162
Metodo de Box-Muller-N(0,1)
p
2 log(U1 )cos(2U2 )
p
=
2 log(U1 )sen(2U2 )
X1 =
X2
50 / 162
Sean U1 , U2 U(0, 1)
V1 = 2U1 1, V2 = 2U2 1 y S = V12 + V22 1
r
2 log(S)
V1
S
2 log(S)
V2
S
X1 =
X2 =
51 / 162
Usando 12 uniformes-N(0,1)
Sean P
Ui U(0, 1), i = 1, . . . , 12. E(Ui ) = 1/2, V(Ui ) = 1/12,
X = ni=1 Ui /n.
X E(X)
X 1/2
p
=p
N (0, 1)
V(X)
1/12 n
52 / 162
Z
p(x | y)p(y)dy
f (x) =
Y
53 / 162
54 / 162
El metodo de Aceptacion-Rechazo
Problema: Generar valores de f (x) es complicado o
computacionalmente costoso.
Solucion: Generar valores de g(x) de la cual es
computacionalmente simple hacerlo.
Requisito:
f (x) Mg(x), x
Entonces, generamos independientemente y g y u U(0, 1)
Si,
u
f (y)
Mg(y)
Formalmente
P(Y x | U {f (Y)/Mg(Y)}) =
=
=
=
P(Y x, U f (Y)/{Mg(Y)})
P(U f (Y)/{Mg(Y)})
R x R f (Y)/{Mg(Y)}
dug(y)dy
0
R R f (Y)/{Mg(Y)}
dug(y)dy
0
R
x
[f (Y)/{Mg(Y)}]g(y)dy
R
[f (Y)/{Mg(Y)}]g(y)dy
R
x
f (y)dy
R
= P(X x)
f (y)dy
56 / 162
f (x)
g(x)
57 / 162
2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0
x0
o.c.
2
f (x)
2
= e2
g(x)
2
58 / 162
(x1)2
2
59 / 162
e
x+1
x1 I1 (x) +
e
I2 (x)
+e
+e
donde
(
1
I1 =
0
0<x1
o.c.
(
1 x>1
I2 (x) =
0 o.c.
60 / 162
x+1
) x>1
+e + +e (1 e
M = supx
f (x)
g(x)
+e
e()
Sea
w(x) = ex I1 (x) + x1 I2 (x)
61 / 162
e
+e ,
62 / 162
x1
+x
0
(
x>0
o.c.
+x
x>0
o.c
u
x=
;
1u
u U(0, 1)
63 / 162
4 e
() 2 1
64 / 162
1
1. Hacer a = 21
, b = log 4 y M = + 2 1
2. Generar ui U(0, 1) i = 1, 2.
u1
3. Asignar y = a log 1u1 , x = ey , z = u21 u2 y r = b + My x.
4. Aceptar x si r log z, en otro caso retornar a 2.
65 / 162
66 / 162
s(y)
Mg(y)
f (y)
. Si la considicion es
4. En otro caso, verificar si u Mg(y)
verificada, hacer x = y x f (x).
67 / 162
68 / 162
f (x)
g(x)
2
e
2 1 |x|
e2e
1
2e
e |x|
.
2 e
si x (1, 1)
69 / 162
70 / 162
3. Si u
s(y)
Mg(y)
1
2e
2 1 |y|
e e
2
al paso 6.
1
f (y)
4. En otro caso, verificar si u Mg(y)
= e 2 (|y|1) . Si la
considicion es verificada, hacer x = y x f (x).
71 / 162
72 / 162
73 / 162
h(x)
g(x) =
0
donde
k= R
k
kydy = h(x)
2
2
h(x)dx
74 / 162
75 / 162
1 2
p
p
p
h(x) = 1, c = inf x h(x) = 2e1 , d = sup x h(x) = 2e1
x
76 / 162
v1
u1 ,
si u21 e
21 ( u1 )2
1
77 / 162
f (x)
g(x) .
La probabilidad de aceptacion de xi es
q(xi )
, i = 1, . . . , n
w(xi ) = Pn
j=1 q(xj )
78 / 162
2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0
sea q =
f (x)
g(x)
x0
o.c.
1 2
2 e 2 x +x
2
80 / 162
Contenido
1
Introduccion
Simulacion
Integracion
Integracion numerica
Integracion usand aproximaciones analticas
Integracion por Monte Carlo
Muestreo por importancia
Introduccion
Considerese la integral de la forma
Z
f (x)dx
a
83 / 162
Introduccion
Supongase que el intervalor [a, b] es particionado en n
subintervalos.
Sean los intervalos [xi , xi+1 ] para i = 0, 1, . . . , n 1. com x0 = a
y xn = b
Asi, la integral puede ser calculada atraves de
Z
f (x)dx =
a
n1 Z
X
i=0
xi+1
f (x)dx
xi
84 / 162
Introduccion
La idea es calcular cada subintegral dentro del intervalo [xi , xi+1 ].
Inserte m + 1 nodos, xij , j = 0, . . . , m.
En general los intervalos y nodos de igual logitud.
La idea es
Z
xi+1
f (x)dx
xi
m
X
Aij f (xij )
j=0
85 / 162
Introduccion
86 / 162
Introduccion
87 / 162
p( | y) p()p(y | )
Sea `() = log p( | y). Haciendo una expansion en S.T. de
la moda de la distribucion
segundo orden alrededor de
posterior, tenemos que
2
> `() ( )
+ ( )
> `()
+ 1 ( )
`() `()
2
>
`() `()
2
>
88 / 162
`( )
2
p( | y)
1
>
e`()
d
e`( )
> 1
1
e[`( ) 2 ( ) V ( )]
R [`( ) 1 ( )> V 1 ( )]
2
e
d
1
p
[2] 2 |V| 2
1
p
2
[2] |V|
1
[ 2
|V| 2
e 2 ( )
1
1
2
> 1
1
e 2 ( ) V ( )
> 1
p
1
] 2 1 e 2 ( ) V ( ) d
> V 1 (
89 / 162
Ejemplo: Bernoulli
Consideremos que yi Ber() (0, 1) i = 1, . . . , n es una
muestra aleatorea. Luego la verosimilitud es dada por
p(y | )
Pn
i=1 yi
(1 )n
Pn
i=1 yi
Pn
i=1 yi
Pn
(1 )n
i=1 yi
Pn
90 / 162
Ejemplo: Bernoulli
El logaritmo de la posteriori es dado por
`() = log p( | y) (a1 1) log() + (b1 1) log(1 )
d`()
a1 1 (b1 1)
=
(1 )
Sea tal que
d`()
d
= 0, entonces =
a1 1
a1 +b1 2
d2 `()
a1 1 (b1 1)
= 2
2
d
(1 )2
91 / 162
Ejemplo: Bernoulli
En nuestro ejemplo
| y Be(7, 2)
3
d2 `()
6
Entonces la moda = 7 y d2
= 76
=6/7
92 / 162
2.5
3.0
Ejemplo: Bernoulli
0.0
0.5
1.0
density
1.5
2.0
Beta(7,2)
N(6/7,6/7^3)
0.0
0.2
0.4
0.6
0.8
1.0
93 / 162
Ejemplo: Poisson
Sea yi P(), i = 1, . . . , n. Luego la verosimilitud es dada por
p(y | )
n
Y
yi e =
Pn
i=1 yi
en
i=1
Pn
i=1 yi
en
Pn
i=1 yi , b0
+ n).
94 / 162
Ejemplo: Poisson
y = (6, 15, 9, 12, 11, 9, 10, 9, 12, 7)0 , n = 10,
Pn
i=1 yi
= 100
d`()
d
d`()
a1 1
=
b1
d
= 0, entonces = a1 1
b1
d2 `()
a1 1
= 2
2
d
95 / 162
0.3
0.4
Ejemplo: Poisson
0.0
0.1
density
0.2
G(100.1,10.01)
N(xm,sqrt(s2g))
10
12
14
16
96 / 162
Aproximacion de Laplace
~( )
V =
>
97 / 162
Aproximacion de Laplace
E(g() | y)
|V| 2
|V |
1
2
e[~(
)`()]
98 / 162
Ejemplo Bernoulli
Se desea calcular E( 1
). Esto puede calcularse analiticamente.
E( 1
) = 7.840605
99 / 162
MC
1X
h(Xi )
=
n
h(X)f (X)dX =
i=1
100 / 162
1 X
c MC ] =
[h(Xi )
MC ]2
var[
n1
i=1
101 / 162
102 / 162
p=
n
n
I = (b a)c
N
N
103 / 162
Var(I) =
Var(n) =
Np(1 p)
N
N
la cual puede ser estimada por
2
I) = [(b a)c]
Var(
p(1
p)
N
104 / 162
Ejemplo
Z
I=
ex = ex |10 = 1 e1 = 0.6321206
105 / 162
Ejemplo
106 / 162
Ejemplo
Sea
p = I/A
donde I es el a rea abajo de ex y A representa el a rea del
cuadrado entre (0, 1) (0, 1)
Gernerar ui1 U(0, 1) y ui2 U(0, 1) para i = 1, . . . , N.
Verificar
ui2 eui1 . Sea
Pn la condicion que
u
i1
n = i=1 I({i; ui2 e })
Asi se tiene que
n Bin(N, p)
Luego, p puede ser estimado por
p=
n
n
I =
N
N
107 / 162
0.0
0.2
0.4
0.6
0.8
1.0
Ejemplo
2000
4000
6000
8000
10000
108 / 162
Z
f (x)dx = (b a)
I=
a
f (x)
a
1
dx
ba
n
X
f (xi ) = (b a)fn
i=1
2 X
I) = (b a) ( [f (xi ) fn ]2 )
Var(
n2
i=1
109 / 162
En el ejemplo anterior
Z
I=
ex = ex |10 = 1 e1 = 0.6321206
xi U(0, 1), i = 1, . . . , n
n
X
I = 1
exi
n
i=1
110 / 162
0.40
0.45
0.50
0.55
0.60
0.65
0.70
En el ejemplo anterior
2000
4000
6000
8000
10000
111 / 162
En el ejemplo anterior
Otra forma de calcular numericamente
Z 1
I=
ex dx
0
es simular xi E(1), i = 1, . . . , N.
En este
P caso la integral puede ser aproximada
I = N I(xi (0, 1)), donde I(x B) es una funcion
i=1
indicadora.
I) =
Luego, se tiene que I(xi (0, 1)) Ber(I). Asi, Var(
I(1I)
N
112 / 162
0.4
0.5
0.6
I1
0.7
0.8
0.9
En el ejemplo anterior
2000
4000
6000
8000
10000
113 / 162
N
1 X h( i )p( i ) N
E[h()]
N
q( i )
i=1
Var(hn ) = 2
hn
n
q( i )
i=1
115 / 162
Ejemplo: Bernoulli
Pn
Pn
| y Be( i=1 yi + a0 , n i=1 yi + b0 ).
Suponga que:
| y Be(7, 2)
| y)
Se desea calcular: E( 1
E(
| y)
1
Z
=
=
(a1 + b1 ) a1 1
(1 )b1 1 d
1
(a1 )(b1 )
0
a1
(a1 + 1)(b1 1)
=
=7
(a1 )(b1 )
b1 1
116 / 162
Ejemplo: Bernoulli
Simular i Be(7, 2), i = 1, . . . , N
Calcular
N
1 X i
hN =
N
1 i
i=1
La estimativa da variancia de
hN esta dada por
N
X
h ) = 1
[h(i ) hn ]2
Var(
n
N2
i=1
117 / 162
10
Ejemplo: Bernoulli
2000
4000
6000
8000
10000
118 / 162
Ejemplo: Bernoulli
Ahora calcularemos la razon usando la distribucion uniforme como
densidade de importancia.
hIS
n =
N
i
1 X
dbeta(i , 7, 2)
N
1 i
i=1
119 / 162
E[h()] =
R
R
h( )p( )
h()p()d
q( ) q()d
R
=
R p( )
p()d
q( ) q()d
Eq [h()w()]
Eq [w()]
120 / 162
PN
=
i=1 h( i )w( i ) N
PN
i=1 w( i )
E[h()]
[h( i ) hn ]wi
Var(hn ) = PN
( i=1 wi )2 i=1
121 / 162
Contenido
1
Introduccion
Simulacion
Integracion
El problema
123 / 162
El algortimo de M-H
El algoritmo puede ser descrito atraves de los siguientes pasos:
1. Hacer i = 0, (0) .
2. Para j 1. Sea, x = (j1) .
Se genera y q(y | x) y u U(0, 1).
Si u < (x, y) se acepta y, (j) = y en otro caso, (j) = x, donde
(y) q(x | y)
(x, y) = min
,1
(x) q(y | x)
3. Hacer j = j + 1 y retornar a 2 hasta alcanzar convergencia.
Un ingrediente crucial en el uso del algoritmo de M-H es la eleccion
de la propuesta de densidad.
124 / 162
Cadenas independientes
Supongase que la propuesta del algoritmo de M-H, es
q(y | x) = q(y). Esto significa que la cadena es independiente
del valor anterior.
En este caso, se define w(y) =
(y)
q(y)
y w(x) =
(x)
q(x) .
125 / 162
Cadenas independientes
Ejemplo:
Supongase que y1 , . . . , y100 sean observaciones i.i.d. de la
mixtura
f (y) = N (7, 0.52 ) + (1 )N (10, 0.52 )
(0, 1)
100
Y
i=1
1
2
exp{
(yi 7) }
2 0.52
2 0.52
1
1
+ (1 )
exp{
(yi 10)2 }
2
2 0.52
2 0.5
126 / 162
Cadenas independientes
127 / 162
Cadenas independientes
Aplicacion del algoritmo de MH:
Propuesta 1: q Be(1, 1)
Propuesta 2: q Be(2, 10)
Ambas son propuestas independientes.
w(y) =
(y)
q(y)
f (y)
q(y)
y w(x) =
(x)
q(x)
f (x)
q(x) .
w(y)
(x, y) = min 1,
w(x)
128 / 162
Cadenas independientes
129 / 162
Cadenas independientes
130 / 162
Paseo aleatoreo
Otra alternativa para la propuesta es un paseo aleatoreo.
Esto significa, que y = x + , donde h(.)
En este caso, q(y | x) = h(y x).
Las propuestas mas comunes son la uniforme centrada en el
origen, la distribucion normal o la distribucion t-Student.
tiene una distribucion simetrica, lo que implica que
q(y | x) = q(x | y).
Esta u ltima afirmacion implica que
(y)
(x, y) = min
,1
(x)
131 / 162
Paseo aleatoreo
Ejemplo de mixturas (continuacion):
La distribucion posterior es
()
100
Y
i=1
1
2
exp{
(yi 7) }
2 0.52
2 0.52
1
1
exp{
+ (1 )
(yi 10)2 }
2
2 0.52
2 0.5
1
132 / 162
Paseo aleatoreo
Uma primeira alternativa es utilizar la cadena en la escala de .
En este caso la propuesta q(. | ut ) debe ser transformada al
espacio de , considerando el jaconiano de la transformacion.
Sea el valor de la iteracion anterior t1 y el valor propuesto
la probabilidad de aceptacion del algoritmo de M-H es dada por
( )q(logit( t1 ) | logit( )) | J( t1 ) |
t1
( , ) = min 1,
( t1 )q(logit( ) | logit( t1 )) | J( ) |
133 / 162
Paseo aleatoreo
Otra alternativa es utilizar la cadena en la escala de .
En este caso la densidad de debe ser transformada a la
e
densidad de , donde = logit1 () = 1+e
( , ) = min 1,
(logit1 ( t1 )) | J( t1 ) | q( | t1 )
134 / 162
Paseo aleatoreo
En los datos de mixtura, = +
Propuesta 1: U(1, 1)
Propuesta 2: U(0.01, 0.01)
La siguiente figura representa la salida de , rodando la cadena
en la escala de .
135 / 162
Paseo aleatoreo
136 / 162
El problema
137 / 162
El Algoritmo
(0)
(0)
(j1)
, . . . , r(j1) )
(j)
(j1)
(1 | 2
(j)
(2 | 1 , 3
..
.
(j)
(k | 1 , . . . , k1 , k+1 , . . . , r(j1) )
..
.
2
k
.. ..
. .
.. ..
. .
(r)
, . . . , r(j1) )
(j)
(j)
(j)
(j)
(j1)
(r | 1 , . . . , r1 )
Consideremos
0
1
(X, Y) N
,
0
1
As condicionais completas
Y | X = x N (x, 1 2 )
X | Y = y N (y, 1 2 )
139 / 162
140 / 162
Las conjuntas
2
0
2.3
4.6
6.9
141 / 162
0.3
0.0
0.1
0.2
densidad de Y
0.2
0.1
0.0
densidad de X
0.3
0.4
0.4
Las marginales
142 / 162
Sea
yi = + i ,
i = 1, . . . , n
La funcion de verosimilitud
1
n
n
Y
1 2 1 2 (yi )2
1 2 1 2 Pni=1 (yi )2
2
p(y | , )
e
=
e 2
2
2
2
i=1
La priori:
p(, 2 ) p( | 2 )p( 2 )
143 / 162
Priori de
| 2 N (0 , k01 2 )
Priori de 2
2 IG(
n0 S0
, )
2 2
La posteriori:
n+n0 +1 +1
P
2
1
1 [S + n (y )2 +k0 (0 )2 ]
p(, | y) 2
e 22 0 i=1 i
144 / 162
0 k0 +n
y
n+k0
y 12 =
2
n+k0
145 / 162
El algoritmo
2(j1)
)
n + k0
2.2
Pn
n1 S0 + i=1 (yi )2 + k0 ((j) 0 )2
,
)
2
2
3. Hacer j = j + 1 e retornar a 2 hasta alcanzar convergencia.
2(j) IG(
146 / 162
Resultados
0.5
0.4
0.3
.9
0.2
.6
.3
1.8
1.9
2.0
2.1
2.2
147 / 162
6
0
0.2
0.3
densidad
0.4
10
0.5
Resultados
2000
4000
6000
8000
10000
0.1
0.2
0.3
0.4
0.5
densidad
2.0
1.9
1.8
2.1
2.2
Index
2000
4000
6000
Index
8000
10000
1.8
1.9
2.0
2.1
2.2
148 / 162
Poisson
Sea yi P(), i = 1, . . . , m, Xi P(), i = m + 1, . . . , n
Se desconoce m
Asummiendo que la distribucion a priori de , , m es dada por
p(, , m) p()p()p(m)
Se especifica: G(a0 , b0 ), G(a1 , b1 ),
p(m) = n1 , m = 1, . . . , n
149 / 162
Poisson
La distribucion a posteriori es dada por
p(, , m)
Pm
i=1 yi
em
Pn
i=m+1 yi
e(nm)
a0 1 eb0 a1 1 eb1
Pm
= a0 +
Pn
Pm
y
i=1 yi em() i=m+1 i
Pn
Pj
y
y
i=1 i ej() i=j+1 i
j=1
Pn
150 / 162
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Poisson
1000
2000
1000
2000
1000
2000
iteracin
3000
4000
5000
3000
4000
5000
3000
4000
5000
10
12
14
16
10
12
14
16
0.0
0.2
0.4
m
8
0.6
10
0.8
12
14
1.0
iteracin
iteracin
8
m
10
12
14
151 / 162
Modelo de Regresion
yt = 0 + 1 Xt1 + 2 Xt2 + . . . + p Xtp + t
donde t N (0, 2 ). Entonces la distribucion posterior es dada por
2
p(, | Y) p( |
2 )p( 2 )
1
2
n/2
152 / 162
Modelo de Regresion
Asumiendo que N ( 0 , 2 0 ) y 2 IG( n20 , S20 ), se tiene
que las distribuciones condicionales completas son dadas por
>
1
| 2 N ( 1 , 2 1 ), 1 = (1
0 + X X) ,
1
>
1 = 1 (X y + 0 0 )
153 / 162
1.0
1000
1000
3000
5000
3000
5000
iteration
densidad
0.5
0.4
0.6
0.0
0.2
0.0
6
10
12
14
16
1000
1000
3000
5000
3000
5000
iteration
0.0
0.5
0
1.0
1.5
2.0
3.4
0.8
iteration
densidad
1.0
0.5
4.0
1.0
1.5
2.0
2.5
3.0
3.5
0.0
4.4
0.0
1.0
0.2
4.2
1.5
0.4
2.0
0.6
densidad
3.8
1.5
2.5
0.5
3.6
1.0
3.0
1.2
2.5
0.00
0.5
0.05
10
0.10
0.15
12
densidad
0.8
0.20
14
1.0
0.25
16
1.5
1.2
0.30
Modelo de Regresion
iteration
4.4
4.0
3.6
3.2
154 / 162
155 / 162
156 / 162
157 / 162
158 / 162
159 / 162
L(N, | c, r)
N! Y ci
i (1 )Nci .
(N r)!
i=1
i = 1, . . . , I
160 / 162
I
Y
(t)
i )
i=1
(t+1)
1
1
| . Be(ci + , N ( t + 1) ci + ), i = 1, . . . , I
2
2
161 / 162