You are on page 1of 30

Metodos Estadsticos III

Jose Gabriel Castillo

ESPOL, Guayaquil

Castillo, J.G. (ESPOL) ME-III 1 / 30


Analisis por Componentes Principales

Castillo, J.G. (ESPOL) ME-III 2 / 30


Analisis por Componentes Principales

Es un analisis que se concentra en una sola muestra, de multiples


componentes (p) interdependientes y sin agrupacion.

El principal objetivo es reducir la dimension del conjunto de datos con


variables interrelacionadas y que retiene la mayor parte de la variacion
relevante del fenomeno.

Transforma la informacion a una base de datos con Componentes


Principales (CP) ortogonales (independientes) entre s.

El primer componente principal es el que retiene la mayor parte de la


variacion presente en las variables de estudio.

Castillo, J.G. (ESPOL) ME-III 3 / 30


Analisis por Componentes Principales

Para que se utiliza?


En el campo de la biometra facial (reconocimiento facial) y
compresion de imagenes.

Encontrar patrones en datos de grandes dimensiones.

Construccion de indicadores, ej. SELBEN (BDH); para jerarquizacion


o seleccion de beneficiarios.
En el Analisis de Regresion para reducir la dimension del problema:
I Si el numero de variables independientes es relativamente grande al
numero de observaciones.
I Si las variables independientes estan altamente correlacionadas
(multicolinealidad)

Castillo, J.G. (ESPOL) ME-III 4 / 30


Procedimiento general

Encontrar una funcion de x, z1 = a10 X que tenga la maxima varianza.

Luego encontrar otra funcion lineal de x, z2 = a20 X , no correlacionada


con la anterior (ortogonal a z1 ), con la varianza maxima en la nueva
direccion.

As sucesivamente.

Se espera que la mayor parte de la variacion de x sea capturada por m


componentes principales, en donde m << p

Castillo, J.G. (ESPOL) ME-III 5 / 30


Enfoque Geometrico

NOTACION

x1i
x2i
Xi = . , es un vector de p variables aletorias. En donde i = 1, ..., n y

..
xpi
j = 1, ..., p.

A partir del vector de medias [ = (Xj )] trasladamos el origen hacia X , es


decir centramos los vectores en la media: (Xij Xj ), i j. En adelante,
por facilidad de notacion, supondremos en que cada esta centrado.

Obtenemos , la matriz de varianzas y covarianzas de la matriz de


informacion X . En la practica se reemplaza por S, la matriz de varianzas y
covarianzas muestral (estimador insesgado), cuando es desconocida.

Castillo, J.G. (ESPOL) ME-III 6 / 30


Enfoque Geometrico utilizando matriz de varianzas y
covarianzas muestrales
Recordemos que S se escribe como:

s11 s12 ... s1p
s21 s22 ... s2p
S= .

.. .. ..
.. . . .
sp1 sp2 ... spp

en donde, las varianzas se encuentran sobre la diagonal y las covarianzas


fuera de ella.

De acuerdo a las propiedades estudiadas, la matriz S es cuadrada, simetrica,


y p.s.d. y por lo tanto podemos emplear la descomposicion espectral de la
matriz:
S = C C 0
En donde C es una matriz ortogonal cuyas columnas son los vectores propios
normalizados de S y la matriz diagonal de valores propios.

Castillo, J.G. (ESPOL) ME-III 7 / 30


Matriz de Componentes Principales
Los ejes pueden rotarse a partir de una matriz A (p x p) ortogonal, y
obtener los Componentes Principales. (Puede demostrar que este
producto no altera la distancia al origen).
Para obtener A, primero se obtiene la matriz C combinando los
vectores propios normalizados que se obtienen de S:

a10

0
a2
A = C0 =
..

.
ap0 (pxp)
h i
a10 = a11 a12 . . . a1p
ai es el i-esimo vector propio normalizado de S correspondiente a su
i-esimo valor propio.

Castillo, J.G. (ESPOL) ME-III 8 / 30


Matriz de Componentes Principales

zi (variable transformada) es cada uno de los componentes principales dado


por:
zi = ai0 X
Donde i=1,2,3,...,p

De esa forma, la Matriz de Componentes Principales de orden (p k),


es igual a:
Z = AX
en donde k es la dimension de componentes principales seleccionada.

Note que la Matriz de Varianza de los Componentes Principales es:

Sz = Var (Z ) = Var (AX ) = AVar (X )A0 = ASA0

Castillo, J.G. (ESPOL) ME-III 9 / 30


Asimismo, note que partiendo de la descomposicion espectral de S,
podemos obtener sirectamente su diagonalizacion a partir de la matriz
ortogonal:

S = A0 A
= ASA0 = Sz

En donde:
2

sz1 0 ... 0
0 s 2
z2 . . . 0


Sz = ..
.. ..
. . .


0 0 ... 2
szp
Por lo tanto, los elementos de la diagonal de ASA son los valores
propios de S: 1 , 2 , ..., p y representan las varianzas (muestrales) de
los componentes principales zi = ai0 X

szi2 = i

Castillo, J.G. (ESPOL) ME-III 10 / 30


Proporcion de la varianza explicada por cada componente

z1 se ordena la mayor varianza (muestral), mientras que zp tiene la


varianza (muestral) mas pequena.

Si algunos de los valores propios son muy pequenos, se los puede


ignorar. Debido a que los valores propios son las varianzas de los CP,
podemos referirnos a la proporcion de la varianza explicada por los
primeros k componentes como:
1 + 2 + ... + k
Proporcion de la varianza =
1 + 2 + ... + p
1 + 2 + ... + k
=
tr (S)
p
X p
X
tr (S) = Sjj = i
j=1 i=1

Castillo, J.G. (ESPOL) ME-III 11 / 30


Proporcion de la varianza explicada por cada componente
Note dos elementos relevantes:
I Los eigen vectores son ortogonales entre si: ai0 aj = 0
I Las covarianzas de los componentes principales son cero:
szi zj = ai0 Saj = 0 i 6= j

Cuando las variables estan altamente correlacionadas, pocos componentes


pueden explicar la variabilidad fundamental de los datos.

Por otro lado, cuando las correlaciones son pequenas, se necesita casi el
mismo numero de componentes que de variables para capturar la
variabilidad (k p). En estos casos, no tiene sentido aplicar esta tecnica.

Para la construccion de ndices, se puede estimar la importancia relativa


de cada CP (ponderadores o porcentaje de la varianza) mediante la
proporcion de cada eigen valor respecto de la varianza total:
i
i = Pp
j=1 j

Castillo, J.G. (ESPOL) ME-III 12 / 30


Ejemplo 12.2.1 (Rencher)

Tenemos que :
" #
185, 7
X=
151.1
" #
95, 29 52, 87
S=
52, 87 54, 36

1 = 131, 52
2 = 18, 14
a10 = (a11 , a12 ) = (0.825, 0.565)
a20 = (a21 , a22 ) = (0.565, 0.825)

Castillo, J.G. (ESPOL) ME-III 13 / 30


Ejemplo 12.2.1 (Rencher)

Figure: Transformacion a componentes principales ejemplo 12.2.1

Castillo, J.G. (ESPOL) ME-III 14 / 30


Ejemplo 12.2.1 (Rencher)

Para calcular el eje mayor del elipsoide, se toma la lnea que pasa por
x 0 = (185.7, 151.1) con la direccion determinada por el vector propio
a10 = (0.825, 0.565). La pendiente es a12 /a11 = 0.565/0.825.

La ecuacion del eje mayor del elipsoide (z1 ), tambien se puede


obtener igualando z2 a cero:

z2 = 0 = a21 (x1 x1 ) + a22 (x2 x2 )


= 0.565(x1 185.7) + 0.825(x2 151.1)

La longitud de losejes mayores


y menores del elipsoide son
proporcionales a 1 = 11.5 y 2 = 4.3 respectivamente.

Castillo, J.G. (ESPOL) ME-III 15 / 30


Enfoque Algebraico

Se busca la combinacion lineal con maxima varianza. Es decir, se


busca el maximo.
Recuerde que la varianza de z = a0 X es sz = a0 Sa. Para encontrar el
maximo, el vector a debe ser normalizado (de lo contrario no hay
unico maximo) y por lo tanto, el maximo se encuentra en base a la
siguiente expresion:
a0 Sa
= 0
aa
Esto se obtiene con el mayor valor propio de la ecuacion caracterstica:

(S I)a = 0

El vector propio a1 correspondiente al valor propio mas grande 1 , es


el vector de coeficientes de z1 = a10 x , que corresponde al componente
principal de maxima varianza.

Castillo, J.G. (ESPOL) ME-III 16 / 30


Ejemplo 12.2.2
Tenemos los datos de las medidas de las cabezas de dos equipos de
jugadores de futbol, que son homogeneos. Segun los datos que se
encuentran en la tabla 8.3 (Rencher), se tiene la matriz de covarianzas:

0, 37 0, 602 0, 149 0, 044 0, 107 0, 209
0, 602 2, 629 0, 801 0, 666 0, 103 0, 377

0, 149 0, 801 0, 458 0, 011 0, 013 0, 12
S=

0, 044 0, 666 0, 011 1, 474 0, 252 0, 054


0, 107 0, 103 0, 013 0, 252 0, 488 0, 036
0, 209 0, 377 0, 12 0, 054 0, 036 0, 324

La varianza total esta dada por:


6
X 6
X
sjj = i = 5, 743
j=1 j=1

Castillo, J.G. (ESPOL) ME-III 17 / 30


Se calculan los valores propios y se obtiene lo siguiente:

Table: Eigen Valores


Valores propios Proporcion de la varianza Proporcion Acumulada
3,327 0,581 0,58
1,356 0,237 0,817
0,476 0,083 0,901
0,325 0,057 0,957
0,157 0,027 0,985
0,088 0,015 1.00

Se puede notar que los dos primeros valores propios suman el 81.6% del
total de la varianza.

Castillo, J.G. (ESPOL) ME-III 18 / 30


Resolviendo con un poco de algebra lineal, se obtienen los vectores propios
en funcion de las 6 variables de estudio:

Table: Vectores Propios


a1 a2
WDIM 0,207 -0,142
CIRCUM 0,873 -0,219
FBEYE 0,261 -0,231
EYEHD 0,326 0,891
EARHD 0,066 0,222
JAW 0,128 -0,187

Por lo tanto, los dos primeros componentes principales son:

z1 = a10 y = 0.207y1 + 0.873y2 + 0.261y3 + 0.326y4 + 0.066y5 + 0.128y6

z2 = a20 y = 0.142y1 0.219y2 0.231y3 + 0.891y4 + 0.222y5 0.187y6

Castillo, J.G. (ESPOL) ME-III 19 / 30


Componentes principales utilizando la matriz de
correlaciones

Se aplica el mismo procedimiento que con la matriz de varianzas y


covarianzas.

En algunos casos, los componentes principales son mas interpretables


si se extraen de la matriz de correlacion R.
Es preferible utilizar R cuando:
1 Las varianzas difieren notablemente entre variables. Si las
variabilidades de las X son muy distintas, las variables con mayor
varianza influiran mas en la determinacion del primer componente, si se
utilizara S en lugar de R.
2 Las variables presentan escalas de medidas muy distintas. Cambios en
la escala de medida de las variables no afectan la matriz de correlacion
R, por ende, los componentes principales que se obtienen de R son
invariantes en escala.

Castillo, J.G. (ESPOL) ME-III 20 / 30


Componentes principales utilizando la matriz de
correlaciones

EJEMPLO
Suponga la siguiente matriz S, de dos dimensiones, donde una de las
varianzas es substancialmente mas grande que la otra:
" #
1 4
S=
4 25

Sjk
Se calcula la matriz de correlacion por medio de rjk = y se obtiene:
Sj Sk
" #
1 0.8
R=
0.8 1

Castillo, J.G. (ESPOL) ME-III 21 / 30


Componentes principales utilizando la matriz de
correlaciones
A traves de la expresion |S I| = 0, se obtienen los valores y vectores
propios correspondientes, de la matriz de varianzas y covarianzas:

1 = 25.65 a10 = (0.160, 0.987)

2 = 0.35 a20 = (0.987, 0.160)

En este caso, z1 = 0.160x1 + 0.987x2 es el primer componente


principal. Se observa que la variable que tiene mas peso es x2 , debido
a la gran varianza que tiene esta variable en S.
Se concluira que z1 explica el 98.65% del total de variabilidad.
1 25.65
= = 0.9865
1 + 2 26

Castillo, J.G. (ESPOL) ME-III 22 / 30


Componentes principales utilizando la matriz de
correlaciones
Ahora se utiliza la matriz de correlacion (R) para obtener los valores y
vectores propios (|S I| = 0):
1 = 1.8 a10 = (0.707, 0.707)
2 = 0.2 a20 = (0.707, 0.707)

1 El primer componente principal es:


x1 x 1 x2 x 2
z1 = 0.707 + 0.707
1 5
2 El segundo componente principal es:
x1 x 1 x2 x 2
z2 = 0.707 0.707
1 5
xi x i
en donde: estandariza la variable i.
si
Castillo, J.G. (ESPOL) ME-III 23 / 30
Componentes principales utilizando la matriz de
correlaciones
z1 responde a una gran proporcion de la varianza total porque las variables
se encuentran fuertemente correlacionadas (r=0.8)

1 1.8
= = 0.9
1 + 2 2
Los pesos de las variables estandarizadas son los mismos en z1 , debido a la
igualdad en los elementos de la diagonal de R.
Algunas conclusiones sobre la seleccion de R o S para el analisis:
Los coeficientes de los CP son distintos si se emplea R que si se emplea S
(por lo tanto el porcentaje de su varianza tambien)

Los CP a partir de R son invariables en escala, esto porque la matriz original


de R es tambien invariable en escala.

En general, empleamos R preferiblemente si las varianzas tienen dispersiones


muy grandes.
Castillo, J.G. (ESPOL) ME-III 24 / 30
Interpretacion de los componentes

Se basa en la identificacion de las variables que se encuentran


fuertemente correlacionadas con cada componente. Es decir, se
analiza la magnitud de los coeficientes que conforman a cada
componente.

Se puede observar en el Ejemplo 12.2.2., que z1 depende


positivamente de las 6 variables, por lo tanto se define al primer
componente como medida de tamano, dado que es un promedio
ponderado de las variables.

Por otro lado, z2 contiene coeficientes negativos en su mayora, pero


depende positivamente de EYEHD y EARHD y negativamente de los
demas. A este componente lo denominados de forma.

Castillo, J.G. (ESPOL) ME-III 25 / 30


Cuantos componentes retener?

Retener los componentes suficientes para alcanzar un 80% del


total de variabilidad.
El porcentaje que se elija dependera del criterio del estadstico. No
obstante, si se elige un porcentaje muy alto, se incluiran componentes
muy especficos y no se reducira el problema de dimensionalidad.

Retener los componentes cuyos valores propios son mayores que


el promedio de valores propios. (Para una matriz de correlacion
este promedio es 1)
Este metodo es el mas utilizado en algunos paquetes de software.
Trata de retener los componentes que cuentan con mayor varianza
que el promedio de la varianza de todas las variables.

Castillo, J.G. (ESPOL) ME-III 26 / 30


Usar un scree graph, o grafico de valores propios versus
numero de factores, para observar el quiebre natural entre los
valores propios de mayor valor y los de menor valor.

Figure: Scree Plot valores propios Ejemplo 12.2.2

Castillo, J.G. (ESPOL) ME-III 27 / 30


Test de significancia de los componentes mas grandes, es decir, los
componentes que corresponden a los valores propios mas grandes.
Se emplea un metodo de ratio de verosimilitud (LR) probando la hipotesis
de que los CP son pequenos e iguales:

H0k : pk+1 = pk+2 = ... = p

en donde 1 , 2, ..., p; son los valores propios de S.


Se calcula el promedio de los valores propios estima el estadstico u que se
distribuye 2 :
p
X i
=
k
i=pk+1

  p
2p + 11 X
u = n k ln lni 2 (, v )
6
i=pk+1

Se rechaza H0 si u 2,v ,en donde v = 21 (k 1)(k + 2).


Si la H0 es verdadera, los ultimos valores propios k tenderan a seguir un
patron reflejado por la lnea recta con escaza pendiente en el grafico scree.

Castillo, J.G. (ESPOL) ME-III 28 / 30


Cuantas variables retener?

Para empezar, note que en cada componente seleccionado participan aun


todas las variables (p) originales. Si el problema es dimensionalidad,
necesitamos obtenes k << p variables.

Note que, a diferencia de lo que veremos en el analisis de regresion, no


tenemos variable dependiente, por lo tanto necesitamos analizar la
variabilidad interna de todas las variables.

Algunas alternativas (Jolliffe 1972,1973 y Rencher 2002) para desechar


variables:
1 Una vez identificados los CP, asociar a cada uno una variable, la de

maxima coeficiente, si no ha sido antes preseleccionada.


2 Proceder de manera iterativa: i) calcular CP, y selecionar la variable de

mayor coeficiente en el mayor CP; ii) reestimar los CP, excluyendo la


variable preseleccionada; iii) repetir el proceso.

No hay alternativa definitiva y podemos aplicar este procedimiento a R o S.

Castillo, J.G. (ESPOL) ME-III 29 / 30


Referencias bibliograficas

Rencher, A. Methods of Multivariate Analysis, Wiley-Interscience; 2nd


Edition, 2002.

Castillo, J.G. (ESPOL) ME-III 30 / 30

You might also like