MCEaula01 PDF

IMCA: Metodos Computacionales en Estadstica I
IMCA-FINCYT
Curso: Elementos computacionales en Estadstica
Carlos A. Abanto-Valle
Instituto de Matematica-UFRJ
Lima, Abril de 2015
1 / 162

Introduccion
Contenido
1
Introduccion
Inferencia via la funcion de verosimilitud
Inferencia Bayesiana
Optimizacion y solucion de ecuaciones no lineales
Simulacion
Integracion
Simulacion estocastica via cadenas de Markov (MCMC)

2 / 162

Introduccion
Inferencia Clasica
i.i.d.
Sean Xi f (X | ), i = 1, . . . , n.
= (1 , . . . , p )> un vector de parametros desconocido.
La funcion de verosimilitud es definida por
L() =
n
Y
f (Xi | )
i=1
Cuando los datos no son i.i.d., la funcion de verosimilitud se

define como la funcion de distribucion conjunta
L() = f (X1 , . . . , Xn | )
vista como una funcion de .
3 / 162

Introduccion
Inferencia Clasica
que maximiza
El objetivo en inferencia clasica es obtener
L(), esto es
= arg max
L()
El estimador maximo verosmil es invariante a transformaciones.
Tpicamente es mas simple trabajar con el logaritmo de la
funcion de verosimilitud, esto es:
`() = log L()
4 / 162

Introduccion
Inferencia Clasica
Observese que maximizar L() com relacion a es equivalente a
encontrar la solucion para el sistema
`()
=0
donde
`()
`()
`() >
=(
,...,
)
1
n
recibe el nombre de funcion score.

La funcion score satisfaz
E(
`()
)=0
5 / 162

Introduccion
Inferencia Clasica
Solo en algunos casos se puede encontrar una solucion analtica
para el problema
= arg max
`()
depende en las realizaciones de las
La distribucion muestral de
variables aleatoreas X1 , . . . , Xn .
La matriz de informacion de Fisher es definida por
I() = E(
2 `()
`() `()
) = E(
)
>
>
los valores esperados son calculados con relacion a X1 , . . . , Xn .
6 / 162

Introduccion
Inferencia Clasica
Sobre condiciones de regularidad la varianza asintotica de
bftheta es dada por I( )1 , donde representa o valor
verdadero de .
Asi,
Np ( , I( )1 )
7 / 162

Introduccion
es una variable aleatorea.
p() es denominada distribucion a priori representacion
inicial de la incertidumbre acerca de antes de que se observen
los datos
y1 , . . . , yn son las observaciones de la variable aleatorea y
p(y1 , . . . , yn | ) es la funcion de verosimilitud informacion
obtenida atraves de los datos
p( | y1 , . . . , yn ) es la distribucion a posteriori cuantifica
como se modifica nuestro conocimiento acerca de con la
informacion y1 , . . . , yn
8 / 162

Introduccion
La distribucion a posteriori es dada por
p( | y) =
p(y | )p()
.
p(y | )p()d
(1)
donde y = (y1 , . . . , yn )0 . El denominador (1) define la verosimilitud

marginal
Z
p(y) =
p(y | )p()d
9 / 162

Introduccion
En la mayor parte de las aplicaciones de interes, p(y) no tiene forma
analtica cerrada y su evaluacion mediante metodos numericos es
difcil de aplicar.
p( | y) p() p(y | )
| {z }
|{z} | {z }
posteriori
(2)
priori verosimilitud
10 / 162

Introduccion
Supongase que y1 es observado p( | y1 ) representa la distribucion a
posteriori. Luego, se observa y2 . cual es la distribucion a posteriori
de dado que se conoce y1 y y2 ?
p( | y1 , y2 ) p( | y1 )p(y2 | )
11 / 162

Introduccion
Sea z una observacion futura. Cual es la distribucion de z | y?
Z
p(z | y) =
p(z | , y)p( | y)d
En muchas ocasiones zy | , asi tenemos que p(z | , y) = p(z | ).
12 / 162

Contenido
1
Introduccion

El metodo de Newton-Raphson
Metodo Scoring de Fisher
Metodo de la Secante
Optimizacion con restricciones
Simulacion
Integracion

13 / 162

Optimizacion en Estadstica
En estadstica se necesita optimizar muchas funciones.
por ejemplo: La funcion de verosimilitud, la distribucion
posterior, entropia, etc.
La maximizacion de estas funciones conducen el proceso de
inferencia.
14 / 162

Muchas funciones no pueden ser optimizadas analticamente.
Por ejemplo, considerese la maximizacion de
g(x) =
log x
x+1
con relacion a x.
Igualando la primera derivada de g(x) a cero, se tiene que
1+
1
log(x) = 0
x
la cual no tiene solucion analtica.

15 / 162

En el caso de la estimacion por maxima verosimilitud, g es el
logaritmo de la verosimilitud ` y es el argumento.
es el EMV, este valor maximiza la log-verosimilitud.
Si
es la solucion de
`()
=0
Si el objetivo es encontrar el maximo a posteriori, es la

solucion de
log p( | X)
=0
16 / 162

Ejemplo
Sean yi N (, 2 ), iid
La funcion de verosimilitud es dada por
p(y | , 2 )

n
Y
1 1/2 1 2 (yi )2
e 2
2
i=1
n
1 X
n
log p(y | , 2 ) l log 2 2
(yi )2
2
2
i=1
17 / 162

Ejemplo
log p(y | , 2 )
log p(y |
2
, 2 )
Assim,
= y e
2 =
= +
n
1 X
(yi )
2
i=1
n
n
1 X
+
(yi )2
2 2 2 4
i=1
yi y /n,
as quais sao obtidas a partir de
log p(y | , 2 )
log p(y | , 2 )
2
= 0
= 0
18 / 162

Ejemplo
n
1 X
(yi )
4
log p(y | , 2 )
2
log p(y | , 2 )
2
n
= 2
log p(y | , 2 )
( 2 )2
i=1
n
n
1 X
(yi )2
2 4 6
i=1
19 / 162

Ejemplo
En general no es posible obtener de forma analtica el EMV,
entonces metodos numericos son usados.
20 / 162

Motivacion
21 / 162

Motivacion
Sea f (x) una funcion y el objetivo es obtener la solucion z de
modo que f (z) = 0.
f (z) f (xn ) + (z xn )f 0 (xn )
0 f (xn ) + (z xn )f 0 (xn )
z xn
f (xn )
f 0 (xn )
De forma iterativa,
xn+1 = xn
f (xn )
f 0 (xn )
22 / 162

Motivacion
Sea L() la funcion de verosimilitud y `() = log L()
el algoritmo de Newton-Raphson puede ser usado para obtener el
EMV. Asi
`0 (n )
n+1 = n 00
` (n )
En el contexto Bayesiano, sea h() = log p( | y). El maximo a
posteriori, puede obtenerse por
n+1 = n
h0 (n )
h00 (n )
23 / 162

Metodo Scoring de Fisher
Descripcion del metodo
Este metodo resulta da sustitucion de la segunda derivada por el

negativo de su valor esperado
n+1 = n
`0 (n )
E(`00 (n ))
24 / 162

El Metodo
25 / 162

El Metodo
Geometricamente, corresponde a sustituir el papel da tangente,
en el metodo de N-R, por una secante.
Esto significa que se necesitan siempre dos puntos para
determinar la solucion, lo que implica considerar dos valores
iniciales que seran denotados por x1 e x0 .
De forma analoga al metodo de N-R, calculando ahora el punto
de interseccion de la secante con el eje de las abcisas, se obtiene
la formula para xn+1 :
xn+1 = xn f (xn )
xn xn1
f (xn ) f (xn1 )
26 / 162

Ejemplos
En estadstica, es frequente que la maximizacion (minimizacion)
tenga algun tipo de restriccion. La forma mas simple de tratar
ese problema es hacer una reparametrizacion de modo que la
optimizacion sea irrestricta.
Por ejemplo, si 0 < xi < 1 en general se usa la transformacion
logstica,

xi
i = log
1 xi
realizando una optimizacion irrestricta en i R y evaluando la
funcion objetivo como
f(
ei
)
1 + ei
27 / 162

Ejemplos
Otro exemplo, se desea obtener el valor que maximiza
f (x) = x3 ex /6, x > 0
l(x) = log(f (x)) = 3 log(x) x log(6)
3
l0 (x) =
1
x
3
l00 (x) = 2
x
El metodo de N-R
xn+1 = xn
3
xn
x32
n
28 / 162

Ejemplos
Se x0 = 6, entao x1 = 0
29 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
6 -0.5 -0.083333 6
0 Inf -Inf NaN
NaN NaN NaN NaN
NaN NaN NaN NaN
30 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
x
grad
hess grad/hess
0.010000 299.000000 -30000.000000 -0.009967
0.019967 149.250417 -7525.062639 -0.019834
0.039800 74.376043 -1893.849306 -0.039272
0.079073 36.939691
-479.806721 -0.076989
0.156062 18.223184
-123.176938 -0.147943
0.304005
8.868268
-32.460907 -0.273198
0.577203
4.197477
-9.004589 -0.466149
1.043352
1.875349
-2.755876 -0.680491
1.723843
0.740298
-1.009546 -0.733298
2.457141
0.220931
-0.496891 -0.444627
2.901768
0.033852
-0.356284 -0.095016
2.996783
0.001073
-0.334049 -0.003213
2.999997
0.000001
-0.333334 -0.000003
3.000000
0.000000
-0.333333 0.000000
3.000000
0.000000
-0.333333 0.000000
31 / 162

Ejemplos
32 / 162

Ejemplos
Se desea obtener el maximo de f (x) = 3x2 (1 x), 0 < x < 1.
Sean
l(x) = log(f (x)) = log(3) + 2 log(x) + log(1 x)
2
1
l0 (x) =
x 1x
2
1
l00 (x) = 2
x
(1 x)2
Aplicando el algoritmo de N-R
xn+1 = xn
2
x
x22
1
1x
1
(1x)2
33 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
x
grad
hess grad/hess
0.100000 18.888889 -201.23457 -0.093865
0.193865 9.075969 -54.75344 -0.165761
0.359626 3.999750 -17.90279 -0.223415
0.583041 1.031977 -11.63537 -0.088693
0.671734 -0.068938 -13.71236 0.005027
0.666706 -0.000536 -13.50161 0.000040
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
34 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
x
grad
hess grad/hess
0.400000 3.333333 -15.27778 -0.218182
0.618182 0.616246 -12.09297 -0.050959
0.669141 -0.033527 -13.60189 0.002465
0.666676 -0.000126 -13.50038 0.000009
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
0.666667 0.000000 -13.50000 0.000000
35 / 162

Ejemplos
Como x (0, 1) podemos realizar una optimizacion irrestricta en

x
= log
1x
36 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
alpha
0.693134
0.693137
0.693139
0.693141
0.693142
0.693143
0.693144
0.693145
0.693145
0.693146
0.693146
x
0.666664
0.666664
0.666665
0.666665
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666
0.666666
grad
4.1e-05
3.2e-05
2.5e-05
1.9e-05
1.5e-05
1.2e-05
9.0e-06
7.0e-06
5.0e-06
4.0e-06
3.0e-06
hess grad/hess
-13.49988
-3e-06
-13.49991
-2e-06
-13.49993
-2e-06
-13.49994
-1e-06
-13.49995
-1e-06
-13.49996
-1e-06
-13.49997
-1e-06
-13.49998
-1e-06
-13.49998
0e+00
-13.49999
0e+00
-13.49999
0e+00
37 / 162

Ejemplos
Ajuste de um modelo logistico a datos de dosis-respuesta
(Dobson, 1990). En este experimento, la variable de interes es el
numero de insectos muertos (Y) de un numero inicial (n)
despues de 5h de exposicion a una concentracion (X) de un
veneno. Los datos son,
y
n
x
1
6.00
59.00
1.69
2
13.00
60.00
1.72
3
18.00
62.00
1.76
4
28.00
56.00
1.78
5
52.00
63.00
1.81
6
53.00
59.00
1.84
7
61.00
62.00
1.86
8
60.00
60.00
1.88
38 / 162

Ejemplos
Sean Y1 , . . . , YN indenpendientes tal que Yi B(ni , i ), entonces

ni yi
p(yi ) =
(1 i )ni yi
yi i
Se asume la siguiente relacion entre la probabilidad de muerte y
la concentracion de veneno,
= 0 + 1 x.
1
Asi se tiene que
=
exp{0 + 1 x}
1 + exp{0 + 1 x}
39 / 162

Ejemplos
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
beta0
0.00000
-37.85638
-53.85319
-59.96521
-60.70778
-60.71745
-60.71745
beta1
0.00000
21.33743
30.38351
33.84419
34.26485
34.27032
34.27033
40 / 162

Simulacion
Contenido
1
Introduccion
Simulacion
Simulacion de la distribucion exacta
Simulacion aproximada
Integracion

41 / 162

Simulacion
Metodo de la transformacion inversa

Sea X uma variable aleatorea. La funcion de distribucion se
define por
Z x
F(x) =
f (t)dt
Sea, U = F(x) U(0, 1).

P(U u) = P(F(X) u) = P(F 1 F(X) F 1 (u)) = P(X
F 1 (u)) = F(F 1 (u)) = u
42 / 162

Simulacion

X E()
(
ex
f (x) =
0
x>0
o.c
La funcion de distribucion
(
0
FX (x) =
1 ex
x<0
x0
Sea U U(0, 1) entonces U = FX (x) = 1 eX X =

log(U)/ E()
43 / 162

Simulacion

Ejemplo:
Escribir un metodo para generar el valor de una v. a. X con funcion de
densidad
(
1
f (x) =
0
0
FX (x) =
x
x
2
x2
2
0<x<2
o.c
x<0
0x<2
x2
44 / 162

Simulacion

F no es inversible sobre R, pero solo nos interesa encontrar una inversa
F 1 : (0, 1) 7 (0, 2)
(
2+2 1U
x2
x
= u = x =
(3)
2
22 1U
45 / 162

Simulacion

Ejemplo: Distribucion de Cauchy.
Seja X C(, ). La fpd y la fd son dadas por

1
(x )2
f (x) =
1+
b2

x
1 1
+ arctan
FX (x) =
2
Asi, generase u U(0, 1) y se tiene que

1
x = + tan [u ]
2
46 / 162

Simulacion

Ejemplo: La distribucion logstica:
Seja X L(, ). La fpd y la fd son dadas por
f (x) =
FX (x) =
1

exp{ x
}
1+
exp{ x
}
2
1
1 + exp{ x
}
Asi, generase u U(0, 1) y se tiene que

u
x = + log
1u
47 / 162

Simulacion
Distribucion beta
X B(, )
(
f (x) =
(+) 1
(1
()() x
x)1
E(x) =
V(x) =
0<x<1
o.c
( +
)2 (
+ + 1)
48 / 162

Simulacion
Distribucion beta
Sea X G(, 1) e Y G(, 1) entonces
Z =
X
B(, ).
X+Y
49 / 162

Simulacion
Metodo de Box-Muller-N(0,1)
Sean Ui variables i.i.d tal que Ui U(0, 1) i = 1, 2.
p
2 log(U1 )cos(2U2 )
p
=
2 log(U1 )sen(2U2 )
X1 =
X2
50 / 162

Simulacion
Metodo de Marsaglia e Bray-N(0,1)
Sean U1 , U2 U(0, 1)
V1 = 2U1 1, V2 = 2U2 1 y S = V12 + V22 1
r
2 log(S)
V1
S
2 log(S)
V2
S
X1 =
X2 =
51 / 162

Simulacion
Usando 12 uniformes-N(0,1)
Sean P
Ui U(0, 1), i = 1, . . . , 12. E(Ui ) = 1/2, V(Ui ) = 1/12,
X = ni=1 Ui /n.
X E(X)
X 1/2
p
=p
N (0, 1)
V(X)
1/12 n
52 / 162

Simulacion
Simulacion usando representacion de mixturas
Z
p(x | y)p(y)dy
f (x) =
Y
Se puede generar de X en dos etapas

y p(y) y x p(x | y)
53 / 162

Simulacion
Ejemplo: La distribucion t-Student
Sea X t (0, 1).

Se puede generar valores de la distribucion t-Student usando la
representacion de mixturas.
X = 1/2
donde G(/2, /2) e N (0, 1).
54 / 162

Simulacion
El metodo de Aceptacion-Rechazo
Problema: Generar valores de f (x) es complicado o
computacionalmente costoso.
Solucion: Generar valores de g(x) de la cual es
computacionalmente simple hacerlo.
Requisito:
f (x) Mg(x), x
Entonces, generamos independientemente y g y u U(0, 1)
Si,
u
f (y)
Mg(y)
Aceptamos el valor, luego X = Y. Caso contrario rechazamos y

repetimos el procedimiento.
55 / 162

Simulacion
Formalmente
P(Y x | U {f (Y)/Mg(Y)}) =
=
=
=
P(Y x, U f (Y)/{Mg(Y)})
P(U f (Y)/{Mg(Y)})
R x R f (Y)/{Mg(Y)}
dug(y)dy
0
R R f (Y)/{Mg(Y)}
dug(y)dy
0
R
x
[f (Y)/{Mg(Y)}]g(y)dy
R
[f (Y)/{Mg(Y)}]g(y)dy
R
x
f (y)dy
R
= P(X x)
f (y)dy
56 / 162

Simulacion
Ejemplo: distribucion beta
Generar X Be(a = 2.7, b = 6.3)

Propuesta 1: g U(0, 1)
Propuesta 2: g Be(2, 6).
M = sup
f (x)
g(x)
57 / 162

Simulacion
Ejemplo: Simulacion de la distribucion N+ (0, 1)

Sea X N+ (0, 1). La densidad de X es dada por
2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0
x0
o.c.
La constante M, puede ser obtenida por

M = sup
x
2
f (x)
2
= e2
g(x)
2
58 / 162

Simulacion

Dado que la probabilidad de aceptacion es M1 es necesario
minimizar M com relacion a , esto es: = 1.
1. Generar x E(1).
2. Generar u U(0, 1) y si u e
contrario retornar a 1.
(x1)2
2
x N+ (0, 1). Caso
59 / 162

Simulacion
Ejemplo: Simulacion de: G(, 1) 0 < 1

Sea X G(, 1), de modo que la densidad de X es dada por
( 1 x
x
e
x>0
()
f (x) =
0
o.c.
Sea
g(x) =
e
x+1
x1 I1 (x) +
e
I2 (x)
+e
+e
donde
(
1
I1 =
0
0<x1
o.c.
(
1 x>1
I2 (x) =
0 o.c.
60 / 162

Simulacion

La funcion de distribucion de la propuesta es dada por
(
e
x
0<x1
G(x) = +e
e
x+1
) x>1
+e + +e (1 e
M = supx
f (x)
g(x)
+e
e()
Sea
w(x) = ex I1 (x) + x1 I2 (x)
61 / 162

Simulacion

El algoritmo A-R, puede ser esquematizado de la siguiente forma
1
1. Generar u1 U(0, 1) y hacer x = ([ +e

e ]u1 ) si u1

e
x = log +e
e (1 u1 ) , si u1 > +e
e
+e ,
2. Generar u2 U(0, 1). Si u2 w(x) x f (x) en otro caso

volver al paso 1.
62 / 162

Simulacion
Ejemplo: Simulacion de: G(, 1) > 1

Sean g(x) y G(x) la fdp y la fd de la propuesta las cuales son
especificadas por
(
g(x) =
G(x) =
x1
+x
0
(
x>0
o.c.
+x
x>0
o.c
por el metodo de la trasnformacion inversa un valor x de g(x) es

generado via

1
u
x=
;
1u
u U(0, 1)
63 / 162

Simulacion
Los parametros = 2 1 y = son escogidos de modo

f (x)
que se minimize M = supx g(x)
con relacion y .
Luego, se tiene que
M=
4 e
() 2 1
64 / 162

Simulacion

El algoritmo A-R, puede ser esquematizado de la siguiente forma
1
1. Hacer a = 21
, b = log 4 y M = + 2 1
2. Generar ui U(0, 1) i = 1, 2.

u1
3. Asignar y = a log 1u1 , x = ey , z = u21 u2 y r = b + My x.
4. Aceptar x si r log z, en otro caso retornar a 2.
65 / 162

Simulacion
Squeezed rejection sampling

El algoritmo A-R require la evaluacion de f para cada candidato
y.
En casos donde evaluar f es costoso pero el algoritmo A-R es
u til, se puede mejorar el algoritmo A-R utilizando el squeezed
A-R.
La estrategia evita la evaluacion de f en algunos casos,
evaluando una funcion squeeze, s(x).
s(x) f (x) en todo el soporte de definicion de f . g(x) tambien es
usado de modo que f (x) Mg(x).
66 / 162

Simulacion

El algoritmo puede ser descrito de la siguiente forma
1. Generar y g
2. Generar u U(0, 1).
3. Si u
s(y)
Mg(y)
hacer x = y x f (x). Ir al paso 6.
f (y)
. Si la considicion es
4. En otro caso, verificar si u Mg(y)
verificada, hacer x = y x f (x).
5. Si la condicion no es satisfecha, se rechaza y.

6. Volver al paso 1.
67 / 162

Simulacion
68 / 162

Simulacion
Ejemplo: simulacion de N (0, 1) usando SRS

El objetivo: x N (0, 1).
La propuesta: g(x). La densidad g(x) es especificada por
1
g(x) = e|x|
2
M = supx
f (x)
g(x)
2
e
Sea h(x) = Mg(x) =
2 1 |x|
e2e
La funcion squeeze s(x) =
1
2e
e |x|
.
2 e
si x (1, 1)
69 / 162

Simulacion
70 / 162

Simulacion

El algoritmo funciona de la siguiente forma
1. Generar y g
2. Generar u U(0, 1).
q
3. Si u
s(y)
Mg(y)
1
2e
2 1 |y|
e e
2
= e|y|1 , hacer x = y x f (x). Ir
al paso 6.
1
f (y)
4. En otro caso, verificar si u Mg(y)
= e 2 (|y|1) . Si la
considicion es verificada, hacer x = y x f (x).
5. Si la condicion no es satisfecha, se rechaza y.

6. Volver al paso 1.
71 / 162

Simulacion
El metodo de la razon de uniformes

Sean U y V v.a. uniformes en
r
v
C = {(u, v), 0 u h( )}
u
h es una funcion integrable no negativa e , entonces la densidad
de V/U es proporcional a h
p
p
p
Sea a = supx h(x), c = infx x h(x) e d = supx x h(x)
72 / 162

Simulacion

La densidad conjunta de U y V es dada pora
(
p
k 0 v h( uv )
f (u, v) =
0 o.c
donde k es la constante de integracion.
Considerese la transformacion de (u, v) 7 (x, y), donde x = v/u
e y = u. Esto significa que u = y e v = xy.
El jacobiano de la transformacion es: J = y.
73 / 162

Simulacion

La densidad conjunta de x e y es dada por
g(x, y) = g(u, xy)|J| = ky
p
para 0 y h(x)
la densidad marginal de x es
Z
h(x)
g(x) =
0
donde
k= R
k
kydy = h(x)
2
2
h(x)dx
74 / 162

Simulacion

Generar U y V de U(0, 1)
Hacer u1 = bU y v1 = c + (d c)V
Hacer x = v1 /u1
Si u21 h(x), x es una muestra de h, caso contrario repetir el
procedimiento.
75 / 162

Simulacion
Generacion de v.a. de la N (0, 1) usando el metodo de RU
1 2
Sea h(x) = e 2 x , los valores de b, c y d son obtenidos a partir de

b = sup
x
p
p
p
h(x) = 1, c = inf x h(x) = 2e1 , d = sup x h(x) = 2e1
x
76 / 162

Simulacion
Generacion de v.a. de la N (0, 1) usando el metodo de RU
Generar u U(0, 1) y v U(0, 1).
Definir v1 = (2v 1) 2e1 , u1 = u

Hacer x =
v1
u1 ,
si u21 e
21 ( u1 )2
1
4u21 log u1 u22
77 / 162

Simulacion
Muestreo por importancia

Objetivo: Simular valores de f (x).
Problema: Costoso computacionalmente .
Solucion: Obtener valores de g(x) es mas simple.
Sea x1 , . . . , xn una muestra generada a partir de g(x).
Se define q(x) =
definida por
f (x)
g(x) .
La probabilidad de aceptacion de xi es
q(xi )
, i = 1, . . . , n
w(xi ) = Pn
j=1 q(xj )
78 / 162

Simulacion

Para obtener valores de f (x) el siguiente procedimiento es
realizado
1. Generar xi g(x), i = 1, . . . , n
2. Calcular w(xi ), i = 1, . . . , n
3. Generar u U(0, 1) e hacer x = xi se j1 u < j , donde
Pj
j = i=1 w(xi )
x obtenido en 3 representa un valor aleatoreo obtenido de f (x).

Todos los pesos w(xi ) i = 1, . . . , n necesitan calcularse.
Es necesario generar n valores de g(x)
Si se necesita generar N > n valores de f (x), paso 3 tiene que
ejecutarse N veces.
79 / 162

Simulacion

Sea X N+ (0, 1). La densidad de X es dada por
2 x22
e
x0
2
f (x) =
0
o.c.
La propuesta g(x) es la densidad
(
ex
g(x) =
0
sea q =
f (x)
g(x)
x0
o.c.
1 2
2 e 2 x +x
2
80 / 162

Simulacion

Para obtener valores de f (x) el siguiente procedimiento es
realizado
1. Generar xi E(1), i = 1, . . . , n
i)
2. Calcular w(xi ) = Pj q(xw(x
, i = 1, . . . , n
)
k=1
3. Generar u U(0, 1) e hacer x = xi se j1 u < j , donde

Pj
j = i=1 w(xi )
x obtenido en 3 representa un valor aleatoreo obtenido de f (x).

Todos los pesos w(xi ) i = 1, . . . , n necesitan calcularse.
Es necesario generar n valores de g(x)
Si se necesita generar N valores de f (x), paso 3 tiene que
ejecutarse N veces.
81 / 162

Integracion
Contenido
1
Introduccion
Simulacion
Integracion
Integracion numerica
Integracion usand aproximaciones analticas
Integracion por Monte Carlo

82 / 162

Integracion
Introduccion
Considerese la integral de la forma
Z
f (x)dx
a
El valor de la integral puede ser determinada analticamente solo

para pocas funciones.
En el resto de los casos aproximaciones numericas son
necesarias.
La aproximacion de integrales surgen naturalmente en inferencia
Bayesiana, ya que la distribucion posterior no tiene solucion
analtica cerrada.
83 / 162

Integracion
Introduccion
Supongase que el intervalor [a, b] es particionado en n
subintervalos.
Sean los intervalos [xi , xi+1 ] para i = 0, 1, . . . , n 1. com x0 = a
y xn = b
Asi, la integral puede ser calculada atraves de
Z
f (x)dx =
a
n1 Z
X
i=0
xi+1
f (x)dx
xi
84 / 162

Integracion
Introduccion
La idea es calcular cada subintegral dentro del intervalo [xi , xi+1 ].
Inserte m + 1 nodos, xij , j = 0, . . . , m.
En general los intervalos y nodos de igual logitud.
La idea es
Z
xi+1
f (x)dx
xi
m
X
Aij f (xij )
j=0
85 / 162

Integracion
Introduccion
86 / 162

Integracion
Introduccion
87 / 162

Integracion
La idea: Aproximacion Normal

Sea p( | y) la distribucion posterior de .
p( | y) p()p(y | )
Sea `() = log p( | y). Haciendo una expansion en S.T. de
la moda de la distribucion
segundo orden alrededor de
posterior, tenemos que
2
> `() ( )
+ ( )
> `()
+ 1 ( )
`() `()
2
>
es la moda de la distribucion posterior, entonces

Pero como
2
+ 1 ( )
> `() ( )
`() `()
2
>
88 / 162

Integracion
La idea: Aproximacion Normal

Sea, V =
`( )
2
p( | y)
1
>
e`()
d
e`( )
> 1
1
e[`( ) 2 ( ) V ( )]
R [`( ) 1 ( )> V 1 ( )]
2
e
d
1
p
[2] 2 |V| 2
1
p
2
[2] |V|
1
[ 2
|V| 2
e 2 ( )
1
1
2
> 1
1
e 2 ( ) V ( )
> 1
p
1
] 2 1 e 2 ( ) V ( ) d
> V 1 (
89 / 162

Integracion
Ejemplo: Bernoulli
Consideremos que yi Ber() (0, 1) i = 1, . . . , n es una
muestra aleatorea. Luego la verosimilitud es dada por
p(y | )
Pn
i=1 yi
(1 )n
Pn
i=1 yi
Asumiendo que a priori que Be(a0 , b0 ), se tiene que la fdp a

posteriori de
p( | y) a0 1 (1 )b0 1
Pn
Pn
i=1 yi
Pn
(1 )n
i=1 yi
Pn
= i=1 yi +a0 1 (1 )n i=1 yi +b0 1

P
P
Asi | y Be( ni=1 yi + a0 , n ni=1 yi + b0 ).
90 / 162

Integracion
Ejemplo: Bernoulli
El logaritmo de la posteriori es dado por
`() = log p( | y) (a1 1) log() + (b1 1) log(1 )
d`()
a1 1 (b1 1)
=
(1 )
Sea tal que
d`()
d
= 0, entonces =
a1 1
a1 +b1 2
d2 `()
a1 1 (b1 1)
= 2
2
d
(1 )2
91 / 162

Integracion
Ejemplo: Bernoulli
En nuestro ejemplo
| y Be(7, 2)

3
d2 `()
6
Entonces la moda = 7 y d2
= 76
=6/7
92 / 162

Integracion
2.5
3.0
Ejemplo: Bernoulli
0.0
0.5
1.0
density
1.5
2.0
Beta(7,2)
N(6/7,6/7^3)
0.0
0.2
0.4
0.6
0.8
1.0
93 / 162

Integracion
Ejemplo: Poisson
Sea yi P(), i = 1, . . . , n. Luego la verosimilitud es dada por
p(y | )
n
Y
yi e =
Pn
i=1 yi
en
i=1
Asumiendo a priori que G(a0 , b0 ), se tiene que la fdp a posteriori

de
p( | y) a0 eb0
Pn
i=1 yi
en
= a0 +y1 e(b0 +n)

Asi | y G(a0 +
Pn
i=1 yi , b0
+ n).
94 / 162

Integracion
Ejemplo: Poisson
y = (6, 15, 9, 12, 11, 9, 10, 9, 12, 7)0 , n = 10,
Pn
i=1 yi
= 100
Priori 1: G(0.1, 0.01) Posteriori 1:

| y G(100.1, 10.01)
El logaritmo de la posteriori es dado por
`() = log p( | y) (a1 1) log() (b1 )
Sea tal que
d`()
d
d`()
a1 1
=
b1
d
= 0, entonces = a1 1
b1
d2 `()
a1 1
= 2
2
d
95 / 162

Integracion
0.3
0.4
Ejemplo: Poisson
0.0
0.1
density
0.2
G(100.1,10.01)
N(xm,sqrt(s2g))
10
12
14
16
96 / 162

Integracion
Aproximacion de Laplace
Sea g() una funcion Rp R+

Se desea calcular E(g() | y), entonces tenemos que
R
g()p( | y)d
R
E(g() | y) =
p( | y)d
Sea ~() = log g() + log p( | y). Sean la moda de ~() e

1
~( )
V =
>

97 / 162

Integracion
Aproximacion de Laplace
Aplicando una aproximacion normal en el numerador y

denominador tendremos que
1
E(g() | y)
|V| 2
|V |
1
2
e[~(
)`()]
98 / 162

Integracion
Ejemplo Bernoulli
Se desea calcular E( 1
). Esto puede calcularse analiticamente.
Puede usarse la aproximacion de Laplace
E( 1
) = 7.840605
99 / 162

Integracion
Introduccion al Metodo de Monte Carlo
Muchas cantidades de interes en inferencia estadstica pueden

ser expresadas como el valor esperado de una funcion de una
variable aleatorea, E(h(X))
Sea f la densidad de X y denotese a el valor esperado de h(X)
en relacion a f .
Sea X1 , . . . , Xn una muestra i.i.d extrada de f .
puede aproximarse por
n
MC
1X
h(Xi )
=
n
h(X)f (X)dX =
i=1
100 / 162

Integracion
Introduccion al Metodo de Monte Carlo
Sea (X) = [h(X) ]2 . Asumiendo que h(X)2 tiene esperanza

finita en relacion a f .
La varianza muestral de
MC es 2 /n = E((X)), donde el valor
esperado se define en relacion a f .
Un estimador de la varianza muestral es dado por
n
1 X
c MC ] =
[h(Xi )
MC ]2
var[
n1
i=1
101 / 162

Integracion
El metodo de la fuerza bruta
102 / 162

Integracion

Sea
p = I/A
donde I es el a rea abajo de f (x) y A representa el a rea del
rectangulo entre (a,b) e c
Gernerar ui1 U(a, b) y ui2 U(0, c) para i = 1, . . . , N.
Verificar
P la condicion que ui2 f (ui1 ). Sea
n = ni=1 I({i; ui2 f (ui1 )})
Asi se tiene que
n Bin(N, p)
Luego, p puede ser estimado por
p=
n
n
I = (b a)c
N
N
103 / 162

Integracion

Asi,

(b a)c 2
(b a)c 2
Var(I) =
Var(n) =
Np(1 p)
N
N
la cual puede ser estimada por
2
I) = [(b a)c]
Var(
p(1
p)
N
104 / 162

Integracion
Ejemplo
Z
I=
ex = ex |10 = 1 e1 = 0.6321206
105 / 162

Integracion
Ejemplo
106 / 162

Integracion
Ejemplo
Sea
p = I/A
donde I es el a rea abajo de ex y A representa el a rea del
cuadrado entre (0, 1) (0, 1)
Gernerar ui1 U(0, 1) y ui2 U(0, 1) para i = 1, . . . , N.
Verificar
ui2 eui1 . Sea
Pn la condicion que
u
i1
n = i=1 I({i; ui2 e })
Asi se tiene que
n Bin(N, p)
Luego, p puede ser estimado por
p=
n
n
I =
N
N
107 / 162

Integracion
0.0
0.2
0.4
0.6
0.8
1.0
Ejemplo
2000
4000
6000
8000
10000
108 / 162

Integracion
Monte Carlo simple

Nuevamente, el problema es calcular a integral
Z
Z
f (x)dx = (b a)
I=
a
f (x)
a
1
dx
ba
La solucion: simular x1 , . . . , xb U(a, b)

Luego, la integral puede ser aproximada por
I = (b a) 1
n
n
X
f (xi ) = (b a)fn
i=1
La varianza puede ser estimada por estimada por

n
2 X
I) = (b a) ( [f (xi ) fn ]2 )
Var(
n2
i=1
109 / 162

Integracion
En el ejemplo anterior
Z
I=
ex = ex |10 = 1 e1 = 0.6321206
xi U(0, 1), i = 1, . . . , n
n
X
I = 1
exi
n
i=1
110 / 162

Integracion
0.40
0.45
0.50
0.55
0.60
0.65
0.70
2000
4000
6000
8000
10000
111 / 162

Integracion
Otra forma de calcular numericamente
Z 1
I=
ex dx
0
es simular xi E(1), i = 1, . . . , N.
En este
P caso la integral puede ser aproximada
I = N I(xi (0, 1)), donde I(x B) es una funcion
i=1
indicadora.
I) =
Luego, se tiene que I(xi (0, 1)) Ber(I). Asi, Var(
I(1I)
N
112 / 162

Integracion
0.4
0.5
0.6
I1
0.7
0.8
0.9
2000
4000
6000
8000
10000
113 / 162

Integracion
El metodo cuando se conoce la constante de integracion

Sea Rp um vetor aleatorio com fdp p()
R
Se desea calcular E[h()] = h()p()d.
Resolver la integral analticamente es difcil.
Un problema adicional: simular de p() es difcil o
computacionalmente costoso.
Solucion: Simular de q().
Asi la integral puede expresarse pora
Z
Z
h()p()
h()p()d =
q()d
E[h()] =

q()
h()p()
= Eq [
]
q()
114 / 162

Integracion
El metodo cuando se conoce la constante de integracion

Simular i q( i ), i = 1, . . . , N
Luego, calcular
hIS
n =
N
1 X h( i )p( i ) N
E[h()]
N
q( i )
i=1
La estimativa de la varianza del estimador es dada por

2
N
1 X h( i )p( i )
IS
IS
Var(hn ) = 2
hn
n
q( i )
i=1
115 / 162

Integracion
Ejemplo: Bernoulli
Pn
Pn
| y Be( i=1 yi + a0 , n i=1 yi + b0 ).
Suponga que:
| y Be(7, 2)
| y)
Se desea calcular: E( 1
la cual se puede calcular analticamente
E(
| y)
1
Z
=
=
(a1 + b1 ) a1 1
(1 )b1 1 d
1
(a1 )(b1 )
0
a1
(a1 + 1)(b1 1)
=
=7
(a1 )(b1 )
b1 1
116 / 162

Integracion
Ejemplo: Bernoulli
Simular i Be(7, 2), i = 1, . . . , N
Calcular
N
1 X i
hN =
N
1 i
i=1
La estimativa da variancia de
hN esta dada por
N
X
h ) = 1
[h(i ) hn ]2
Var(
n
N2
i=1
117 / 162

Integracion
10
Ejemplo: Bernoulli
2000
4000
6000
8000
10000
118 / 162

Integracion
Ejemplo: Bernoulli
Ahora calcularemos la razon usando la distribucion uniforme como
densidade de importancia.
hIS
n =
N
i
1 X
dbeta(i , 7, 2)
N
1 i
i=1
119 / 162

Integracion
El metodo cuando la constante de integracion es

desconocida
Sea Rp um vetor aleatorio com fdp p()
R
h( )p( )d
Se desea calcular E[h()] = R
.
p( )d
Resolver la integral analticamente es una tarea complicada y es
difcil de generar valores de p().
Solucion: Simular de q().
Asi la integral puede ser expresada por
E[h()] =
R
R
h( )p( )
h()p()d
q( ) q()d
R
=
R p( )
p()d
q( ) q()d
Eq [h()w()]
Eq [w()]
120 / 162

Integracion
El metodo cuando la constante de integracion es

desconocida
Simular i q( i ), i = 1, . . . , N
Logo, calcular
hIS
n
PN
=
i=1 h( i )w( i ) N
PN
i=1 w( i )
E[h()]
A estimativa da variancia do estimador e dada por

2
N
X
1
IS
IS
[h( i ) hn ]wi
Var(hn ) = PN
( i=1 wi )2 i=1
121 / 162

Contenido
1
Introduccion
Simulacion
Integracion

El algoritmo de Metropolis-Hastings
El algoritmo de Gibbs
122 / 162

El problema
Seja Rp con densidade ().

Problema: Generar valores de () es bastante complicado.
Solucion: Generar q() de la cual es mas facil hacerlo, q() recibe
el nombre de propuesta de densidad
123 / 162

El algortimo de M-H
El algoritmo puede ser descrito atraves de los siguientes pasos:
1. Hacer i = 0, (0) .
2. Para j 1. Sea, x = (j1) .
Se genera y q(y | x) y u U(0, 1).
Si u < (x, y) se acepta y, (j) = y en otro caso, (j) = x, donde

(y) q(x | y)
(x, y) = min
,1
(x) q(y | x)
3. Hacer j = j + 1 y retornar a 2 hasta alcanzar convergencia.
Un ingrediente crucial en el uso del algoritmo de M-H es la eleccion
de la propuesta de densidad.
124 / 162

Cadenas independientes
Supongase que la propuesta del algoritmo de M-H, es
q(y | x) = q(y). Esto significa que la cadena es independiente
del valor anterior.
En este caso, se define w(y) =
(y)
q(y)
y w(x) =
(x)
q(x) .
Luego se tiene que

w(y)
(x, y) = min 1,
w(x)
125 / 162

Ejemplo:
Supongase que y1 , . . . , y100 sean observaciones i.i.d. de la
mixtura
f (y) = N (7, 0.52 ) + (1 )N (10, 0.52 )
(0, 1)
Los datos son simulados con = 0.7

La priori para delta: U(0, 1).
La distribucion posterior sera dada por
()
100
Y
i=1

1
2
exp{
(yi 7) }
2 0.52
2 0.52
1
1
+ (1 )
exp{
(yi 10)2 }
2
2 0.52
2 0.5

126 / 162

127 / 162

Aplicacion del algoritmo de MH:
Propuesta 1: q Be(1, 1)
Propuesta 2: q Be(2, 10)
Ambas son propuestas independientes.
w(y) =
(y)
q(y)
f (y)
q(y)
y w(x) =
(x)
q(x)
f (x)
q(x) .

w(y)
(x, y) = min 1,
w(x)
128 / 162

129 / 162

130 / 162

Paseo aleatoreo
Otra alternativa para la propuesta es un paseo aleatoreo.
Esto significa, que y = x + , donde h(.)
En este caso, q(y | x) = h(y x).
Las propuestas mas comunes son la uniforme centrada en el
origen, la distribucion normal o la distribucion t-Student.
tiene una distribucion simetrica, lo que implica que
q(y | x) = q(x | y).
Esta u ltima afirmacion implica que

(y)
(x, y) = min
,1
(x)
131 / 162

Paseo aleatoreo
Ejemplo de mixturas (continuacion):
La distribucion posterior es
()
100
Y
i=1

1
2
exp{
(yi 7) }
2 0.52
2 0.52
1
1
exp{
+ (1 )
(yi 10)2 }
2
2 0.52
2 0.5
1
Sea = logit() = log( 1

). Una cadena de Markov en
usando un paseo aleatoreo, usando como propuesta con
incremento ut U(b, b).
132 / 162

Paseo aleatoreo
Uma primeira alternativa es utilizar la cadena en la escala de .
En este caso la propuesta q(. | ut ) debe ser transformada al
espacio de , considerando el jaconiano de la transformacion.
Sea el valor de la iteracion anterior t1 y el valor propuesto
la probabilidad de aceptacion del algoritmo de M-H es dada por

( )q(logit( t1 ) | logit( )) | J( t1 ) |
t1
( , ) = min 1,
( t1 )q(logit( ) | logit( t1 )) | J( ) |
133 / 162

Paseo aleatoreo
Otra alternativa es utilizar la cadena en la escala de .
En este caso la densidad de debe ser transformada a la
e
densidad de , donde = logit1 () = 1+e
Sea el valor de la iteracion anterior t1 y el valor propuesto

la probabilidad de aceptacion del algoritmo de M-H es dada por

(logit1 ( )) | J( ) | q( t1 | )
t1
( , ) = min 1,
(logit1 ( t1 )) | J( t1 ) | q( | t1 )
134 / 162

Paseo aleatoreo
En los datos de mixtura, = +
Propuesta 1: U(1, 1)
Propuesta 2: U(0.01, 0.01)
La siguiente figura representa la salida de , rodando la cadena
en la escala de .
135 / 162

Paseo aleatoreo
136 / 162

El problema
Seja Rp con densidade ().

Problema: Generar valores de () es bastante complicado.
Solucion: Aplicar el algoritmo de Gibbs.
Ingredientes: Las distribuciones condicionales completas.
= (1 , 2 , . . . , r )0 . A condicional completa de i , i = 1, . . . , r
es dada por:
(i | i )
137 / 162

El Algoritmo
(0)
(0)
1. Hacer j = 0, Inicializar (0) = (1 , . . . , r )0

2. Para j 1. Generar
(j)
(j1)
, . . . , r(j1) )
(j)
(j1)
(1 | 2
(j)
(2 | 1 , 3
..
.
(j)
(k | 1 , . . . , k1 , k+1 , . . . , r(j1) )
..
.
2
k
.. ..
. .
.. ..
. .
(r)
, . . . , r(j1) )
(j)
(j)
(j)
(j)
(j1)
(r | 1 , . . . , r1 )
3. Hacer j = j + 1 y retornar a 2, hasta alcanzar convergencia.

138 / 162

Ejemplo: Normal Bivariada
Consideremos

0
1
(X, Y) N
,
0
1
As condicionais completas
Y | X = x N (x, 1 2 )
X | Y = y N (y, 1 2 )
139 / 162

Aplicacion Algoritmo de Gibbs
1. Iniciar los valores X (0) e Y (0)

2. Para j > 1 Simular
Y (j) N (X (j1) , 1 2 )
X (j) N (Y (j) , 1 2 )
3. Hacer j = j + 1 y proceder hasta alcanzar convergencia.
140 / 162

Las conjuntas
2
0
2.3
4.6
6.9
141 / 162

0.3
0.0
0.1
0.2
densidad de Y
0.2
0.1
0.0
densidad de X
0.3
0.4
0.4
Las marginales
142 / 162

Ejemplo: Modelo Normal locacion escala
Sea
yi = + i ,
i = 1, . . . , n
La funcion de verosimilitud
1
n
n
Y
1 2 1 2 (yi )2
1 2 1 2 Pni=1 (yi )2
2
p(y | , )
e
=
e 2
2
2
2
i=1
La priori:
p(, 2 ) p( | 2 )p( 2 )
143 / 162

Priori de
| 2 N (0 , k01 2 )
Priori de 2
2 IG(
n0 S0
, )
2 2
La posteriori:
n+n0 +1 +1
P
2
1
1 [S + n (y )2 +k0 (0 )2 ]
p(, | y) 2
e 22 0 i=1 i
144 / 162

La posteriori pertenece a la clase NIG y se saben las marginales,

se aplicara el algoritmo de Gibbs.
Las distribuciones condicionales completas son:
n1 S1
2 | y, IG( , )
2 2
Pn
donde n1 = n + n0 + 1 y S1 = S0 + i=1 (yi )2 + k0 ( 0 )2
| y, 2 N (1 , 12 )
donde 1 =
0 k0 +n
y
n+k0
y 12 =
2
n+k0
145 / 162

El algoritmo
1. Iniciar (0) y 2(0)

2. Para j 1
2.1
(j) N (1 ,
2(j1)
)
n + k0
2.2
Pn
n1 S0 + i=1 (yi )2 + k0 ((j) 0 )2
,
)
2
2
3. Hacer j = j + 1 e retornar a 2 hasta alcanzar convergencia.
2(j) IG(
146 / 162

Resultados
0.5
0.4
0.3
.9
0.2
.6
.3
1.8
1.9
2.0
2.1
2.2
147 / 162

6
0
0.2
0.3
densidad
0.4
10
0.5
Resultados
2000
4000
6000
8000
10000
0.1
0.2
0.3
0.4
0.5
densidad
2.0
1.9
1.8
2.1
2.2
Index
2000
4000
6000
Index
8000
10000
1.8
1.9
2.0
2.1
2.2
148 / 162

Poisson
Sea yi P(), i = 1, . . . , m, Xi P(), i = m + 1, . . . , n
Se desconoce m
Asummiendo que la distribucion a priori de , , m es dada por
p(, , m) p()p()p(m)
Se especifica: G(a0 , b0 ), G(a1 , b1 ),
p(m) = n1 , m = 1, . . . , n
149 / 162

Poisson
La distribucion a posteriori es dada por
p(, , m)
Pm
i=1 yi
em
Pn
i=m+1 yi
e(nm)
a0 1 eb0 a1 1 eb1

Pm
i=1 yi 1 e(b0 +m)

Pn
a1 + i=m+1 yi 1 (b1 +nm)
= a0 +
Entonces las distribuciones

condicionales completas son:
Pm
| y, m G(a0 + P i=1 yi , b0 + m),
| y, m G(a1 + ni=m+1 yi , b1 + n m) e
p(m | , ) =
Pn
Pm
y
i=1 yi em() i=m+1 i
Pn
Pj
y
y
i=1 i ej() i=j+1 i
j=1
Pn
150 / 162

0.0
0.1
0.2
0.3
0.4
0.5
0.6
Poisson
1000
2000
1000
2000
1000
2000
iteracin
3000
4000
5000
3000
4000
5000
3000
4000
5000
10
12
14
16
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
10
12
14
16
0.0
0.2
0.4
m
8
0.6
10
0.8
12
14
1.0
iteracin
iteracin
8
m
10
12
14
151 / 162

Modelo de Regresion
yt = 0 + 1 Xt1 + 2 Xt2 + . . . + p Xtp + t
donde t N (0, 2 ). Entonces la distribucion posterior es dada por
2
p(, | Y) p( |
2 )p( 2 )
1
2
n/2
exp{ 21 2 (y X)> (y X)}
152 / 162

Modelo de Regresion
Asumiendo que N ( 0 , 2 0 ) y 2 IG( n20 , S20 ), se tiene
que las distribuciones condicionales completas son dadas por
>
1
| 2 N ( 1 , 2 1 ), 1 = (1
0 + X X) ,
1
>
1 = 1 (X y + 0 0 )
2 | IG( n21 , S21 ), donde n1 = n0 + p + 1 + n y

>
S1 = S0 + ( 0 )> 1
0 ( 0 ) + ((y X) (y X)
153 / 162

1.0
1000
1000
3000
5000
3000
5000
iteration
densidad
0.5
0.4
0.6
0.0
0.2
0.0
6
10
12
14
16
1000
1000
3000
5000
3000
5000
iteration
0.0
0.5
0
1.0
1.5
2.0
3.4
0.8
iteration
densidad
1.0
0.5
4.0
1.0
1.5
2.0
2.5
3.0
3.5
0.0
4.4
0.0
1.0
0.2
4.2
1.5
0.4
2.0
0.6
densidad
3.8
1.5
2.5
0.5
3.6
1.0
3.0
1.2
2.5
0.00
0.5
0.05
10
0.10
0.15
12
densidad
0.8
0.20
14
1.0
0.25
16
1.5
1.2
0.30
Modelo de Regresion
iteration
4.4
4.0
3.6
3.2
154 / 162

Estudio de captura-recaptura de crias de lobos marinos

A finales de 1800 los lobos marinos en Nueva Zelanda casi
fueron llevados a la extincion por cazadores polonesicos y
europeos.
En los u ltimos anos la abundancia de lobos marinos en Nueva
Zelandia ha ido en aumento.
Este incremento ha sido de gran interes para los cientficos, y
estos animales han sido estudiados ampliamente .
El objetivo del estudio es estimar el numero de cras en una
colonia de lobos utilizando un procedimiento de capturarecaptura.
155 / 162


En estos estudios, se hacen esfuerzos repetidos para contar una
poblacion de tamano desconocido.
La poblacion a ser contada es la de cras.
Emplease un proceso de captura-recaptura.
Los individuos capturados durante cada censo se liberan con un
marcador que indica su captura.
Una captura de un individuo marcado durante cualquier censo
posterior se denomina una recaptura.
156 / 162


El tamano de la poblacion se puede estimar sobre la base de la
historia de la captura y recuperar datos.
Las altas tasas de recaptura sugieren que el verdadero tamano de
la poblacion no excede en gran medida el numero total de
individuos u nicos jamas capturado.
157 / 162


Sea N el tamano de la poblacion desconocida a ser estimada
usando I intentos de censo.
Sea c = (c1 , . . . , cI )> el numero total de capturas incluyendo las
recapturas y m = (m1 , . . . , mI )> el numero de individuos
capturados por primera vez.
Supongase que la poblacion esta cerrada durante el perodo de
estudio.
Sea r el numero de animales distintos capturados durante el
perodo de estudio.
Sea = (1 , . . . , I )> las probabilidades de captura de cada
intento de censo.
El estudio asume que cada uno de los animales tienen la misma
probabilidad de ser capturados. En tanto que las probabilidades
de captura cambian con el tiempo.
158 / 162

159 / 162


La funcion de verosimilitud para este modelo es dada por
I
L(N, | c, r)
N! Y ci
i (1 )Nci .
(N r)!
i=1
Este modelo es llamado de modelo M(t).

Desde el punto de vista Bayesiano N e son asumidos a priori
independientes.
Se asume que p(N) 1 e para las probabilidades de captura se
tiene que
i | 1 , 2 Be(1 , 2 )
i = 1, . . . , I
160 / 162


Se 1 = 2 = 12 , se tiene la priori de Jeffreys.
La combinacion de priori uniforme para N e priori de Jeffreys
para i es recomendada si I > 5. La posteriori resultante es
propia para I > 2 e existe al menos una recaptura (ci mi > 1).
Las distribuciones condicionales completas necesarias para la
aplicacion del Algoritmo de Gibbs son dadas por
N (t+1) r | . N B(r + 1, 1
I
Y
(t)
i )
i=1
(t+1)
1
1
| . Be(ci + , N ( t + 1) ci + ), i = 1, . . . , I
2
2
161 / 162

MCEaula01 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

MCEaula01 PDF

Uploaded by

Copyright:

Available Formats

IMCA: Metodos Computacionales en Estadstica I

Lima, Abril de 2015

IMCA: Metodos Computacionales en Estadstica I

Optimizacion y solucion de ecuaciones no lineales

Simulacion estocastica via cadenas de Markov (MCMC)

IMCA: Metodos Computacionales en Estadstica I

Cuando los datos no son i.i.d., la funcion de verosimilitud se

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

recibe el nombre de funcion score.

IMCA: Metodos Computacionales en Estadstica I

los valores esperados son calculados con relacion a X1 , . . . , Xn .

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

donde y = (y1 , . . . , yn )0 . El denominador (1) define la verosimilitud

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

Optimizacion y solucion de ecuaciones no lineales

Simulacion estocastica via cadenas de Markov (MCMC)

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

la cual no tiene solucion analtica.

IMCA: Metodos Computacionales en Estadstica I

Si el objetivo es encontrar el maximo a posteriori, es la

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

as quais sao obtidas a partir de

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

Descripcion del metodo

Este metodo resulta da sustitucion de la segunda derivada por el

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

IMCA: Metodos Computacionales en Estadstica I

Optimizacion y solucion de ecuaciones no lineales

Simulacion estocastica via cadenas de Markov (MCMC)

IMCA: Metodos Computacionales en Estadstica I

Metodo de la transformacion inversa

Sea, U = F(x) U(0, 1).

IMCA: Metodos Computacionales en Estadstica I

Metodo de la transformacion inversa

Sea U U(0, 1) entonces U = FX (x) = 1 eX X =