234 Componentes Principales Diapositivas

Metodos Estadsticos III
Jose Gabriel Castillo
ESPOL, Guayaquil
Castillo, J.G. (ESPOL) ME-III 1 / 30

Analisis por Componentes Principales

Es un analisis que se concentra en una sola muestra, de multiples

componentes (p) interdependientes y sin agrupacion.
El principal objetivo es reducir la dimension del conjunto de datos con

variables interrelacionadas y que retiene la mayor parte de la variacion
relevante del fenomeno.
Transforma la informacion a una base de datos con Componentes

Principales (CP) ortogonales (independientes) entre s.
El primer componente principal es el que retiene la mayor parte de la

variacion presente en las variables de estudio.

Para que se utiliza?

En el campo de la biometra facial (reconocimiento facial) y
compresion de imagenes.
Encontrar patrones en datos de grandes dimensiones.
Construccion de indicadores, ej. SELBEN (BDH); para jerarquizacion

o seleccion de beneficiarios.
En el Analisis de Regresion para reducir la dimension del problema:
I Si el numero de variables independientes es relativamente grande al
numero de observaciones.
I Si las variables independientes estan altamente correlacionadas
(multicolinealidad)

Procedimiento general
Encontrar una funcion de x, z1 = a10 X que tenga la maxima varianza.
Luego encontrar otra funcion lineal de x, z2 = a20 X , no correlacionada

con la anterior (ortogonal a z1 ), con la varianza maxima en la nueva
direccion.
As sucesivamente.
Se espera que la mayor parte de la variacion de x sea capturada por m

componentes principales, en donde m << p

Enfoque Geometrico
NOTACION

x1i
x2i
Xi = . , es un vector de p variables aletorias. En donde i = 1, ..., n y

..
xpi
j = 1, ..., p.
A partir del vector de medias [ = (Xj )] trasladamos el origen hacia X , es

decir centramos los vectores en la media: (Xij Xj ), i j. En adelante,
por facilidad de notacion, supondremos en que cada esta centrado.
Obtenemos , la matriz de varianzas y covarianzas de la matriz de

informacion X . En la practica se reemplaza por S, la matriz de varianzas y
covarianzas muestral (estimador insesgado), cuando es desconocida.

Enfoque Geometrico utilizando matriz de varianzas y
covarianzas muestrales
Recordemos que S se escribe como:

s11 s12 ... s1p
s21 s22 ... s2p
S= .

.. .. ..
.. . . .
sp1 sp2 ... spp
en donde, las varianzas se encuentran sobre la diagonal y las covarianzas

fuera de ella.
De acuerdo a las propiedades estudiadas, la matriz S es cuadrada, simetrica,

y p.s.d. y por lo tanto podemos emplear la descomposicion espectral de la
matriz:
S = C C 0
En donde C es una matriz ortogonal cuyas columnas son los vectores propios
normalizados de S y la matriz diagonal de valores propios.

Matriz de Componentes Principales
Los ejes pueden rotarse a partir de una matriz A (p x p) ortogonal, y
obtener los Componentes Principales. (Puede demostrar que este
producto no altera la distancia al origen).
Para obtener A, primero se obtiene la matriz C combinando los
vectores propios normalizados que se obtienen de S:
a10

0
a2
A = C0 =
..

.
ap0 (pxp)
h i
a10 = a11 a12 . . . a1p
ai es el i-esimo vector propio normalizado de S correspondiente a su
i-esimo valor propio.

Matriz de Componentes Principales
zi (variable transformada) es cada uno de los componentes principales dado

por:
zi = ai0 X
Donde i=1,2,3,...,p
De esa forma, la Matriz de Componentes Principales de orden (p k),

es igual a:
Z = AX
en donde k es la dimension de componentes principales seleccionada.
Note que la Matriz de Varianza de los Componentes Principales es:
Sz = Var (Z ) = Var (AX ) = AVar (X )A0 = ASA0

Asimismo, note que partiendo de la descomposicion espectral de S,
podemos obtener sirectamente su diagonalizacion a partir de la matriz
ortogonal:
S = A0 A
= ASA0 = Sz
En donde:
2

sz1 0 ... 0
0 s 2
z2 . . . 0

Sz = ..
.. ..
. . .

0 0 ... 2
szp
Por lo tanto, los elementos de la diagonal de ASA son los valores
propios de S: 1 , 2 , ..., p y representan las varianzas (muestrales) de
los componentes principales zi = ai0 X
szi2 = i

Proporcion de la varianza explicada por cada componente
z1 se ordena la mayor varianza (muestral), mientras que zp tiene la

varianza (muestral) mas pequena.
Si algunos de los valores propios son muy pequenos, se los puede

ignorar. Debido a que los valores propios son las varianzas de los CP,
podemos referirnos a la proporcion de la varianza explicada por los
primeros k componentes como:
1 + 2 + ... + k
Proporcion de la varianza =
1 + 2 + ... + p
1 + 2 + ... + k
=
tr (S)
p
X p
X
tr (S) = Sjj = i
j=1 i=1

Proporcion de la varianza explicada por cada componente
Note dos elementos relevantes:
I Los eigen vectores son ortogonales entre si: ai0 aj = 0
I Las covarianzas de los componentes principales son cero:
szi zj = ai0 Saj = 0 i 6= j
Cuando las variables estan altamente correlacionadas, pocos componentes

pueden explicar la variabilidad fundamental de los datos.
Por otro lado, cuando las correlaciones son pequenas, se necesita casi el
mismo numero de componentes que de variables para capturar la
variabilidad (k p). En estos casos, no tiene sentido aplicar esta tecnica.
Para la construccion de ndices, se puede estimar la importancia relativa

de cada CP (ponderadores o porcentaje de la varianza) mediante la
proporcion de cada eigen valor respecto de la varianza total:
i
i = Pp
j=1 j

Ejemplo 12.2.1 (Rencher)
Tenemos que :
" #
185, 7
X=
151.1
" #
95, 29 52, 87
S=
52, 87 54, 36
1 = 131, 52
2 = 18, 14
a10 = (a11 , a12 ) = (0.825, 0.565)
a20 = (a21 , a22 ) = (0.565, 0.825)

Figure: Transformacion a componentes principales ejemplo 12.2.1

Para calcular el eje mayor del elipsoide, se toma la lnea que pasa por
x 0 = (185.7, 151.1) con la direccion determinada por el vector propio
a10 = (0.825, 0.565). La pendiente es a12 /a11 = 0.565/0.825.
La ecuacion del eje mayor del elipsoide (z1 ), tambien se puede

obtener igualando z2 a cero:
z2 = 0 = a21 (x1 x1 ) + a22 (x2 x2 )

= 0.565(x1 185.7) + 0.825(x2 151.1)
La longitud de losejes mayores

y menores del elipsoide son
proporcionales a 1 = 11.5 y 2 = 4.3 respectivamente.

Enfoque Algebraico
Se busca la combinacion lineal con maxima varianza. Es decir, se

busca el maximo.
Recuerde que la varianza de z = a0 X es sz = a0 Sa. Para encontrar el
maximo, el vector a debe ser normalizado (de lo contrario no hay
unico maximo) y por lo tanto, el maximo se encuentra en base a la
siguiente expresion:
a0 Sa
= 0
aa
Esto se obtiene con el mayor valor propio de la ecuacion caracterstica:
(S I)a = 0
El vector propio a1 correspondiente al valor propio mas grande 1 , es

el vector de coeficientes de z1 = a10 x , que corresponde al componente
principal de maxima varianza.

Ejemplo 12.2.2
Tenemos los datos de las medidas de las cabezas de dos equipos de
jugadores de futbol, que son homogeneos. Segun los datos que se
encuentran en la tabla 8.3 (Rencher), se tiene la matriz de covarianzas:

0, 37 0, 602 0, 149 0, 044 0, 107 0, 209
0, 602 2, 629 0, 801 0, 666 0, 103 0, 377

0, 149 0, 801 0, 458 0, 011 0, 013 0, 12
S=

0, 044 0, 666 0, 011 1, 474 0, 252 0, 054

0, 107 0, 103 0, 013 0, 252 0, 488 0, 036
0, 209 0, 377 0, 12 0, 054 0, 036 0, 324
La varianza total esta dada por:

6
X 6
X
sjj = i = 5, 743
j=1 j=1

Se calculan los valores propios y se obtiene lo siguiente:
Table: Eigen Valores

Valores propios Proporcion de la varianza Proporcion Acumulada
3,327 0,581 0,58
1,356 0,237 0,817
0,476 0,083 0,901
0,325 0,057 0,957
0,157 0,027 0,985
0,088 0,015 1.00
Se puede notar que los dos primeros valores propios suman el 81.6% del
total de la varianza.

Resolviendo con un poco de algebra lineal, se obtienen los vectores propios
en funcion de las 6 variables de estudio:
Table: Vectores Propios

a1 a2
WDIM 0,207 -0,142
CIRCUM 0,873 -0,219
FBEYE 0,261 -0,231
EYEHD 0,326 0,891
EARHD 0,066 0,222
JAW 0,128 -0,187
Por lo tanto, los dos primeros componentes principales son:
z1 = a10 y = 0.207y1 + 0.873y2 + 0.261y3 + 0.326y4 + 0.066y5 + 0.128y6
z2 = a20 y = 0.142y1 0.219y2 0.231y3 + 0.891y4 + 0.222y5 0.187y6

Componentes principales utilizando la matriz de
correlaciones
Se aplica el mismo procedimiento que con la matriz de varianzas y

covarianzas.
En algunos casos, los componentes principales son mas interpretables

si se extraen de la matriz de correlacion R.
Es preferible utilizar R cuando:
1 Las varianzas difieren notablemente entre variables. Si las
variabilidades de las X son muy distintas, las variables con mayor
varianza influiran mas en la determinacion del primer componente, si se
utilizara S en lugar de R.
2 Las variables presentan escalas de medidas muy distintas. Cambios en
la escala de medida de las variables no afectan la matriz de correlacion
R, por ende, los componentes principales que se obtienen de R son
invariantes en escala.

correlaciones
EJEMPLO
Suponga la siguiente matriz S, de dos dimensiones, donde una de las
varianzas es substancialmente mas grande que la otra:
" #
1 4
S=
4 25
Sjk
Se calcula la matriz de correlacion por medio de rjk = y se obtiene:
Sj Sk
" #
1 0.8
R=
0.8 1

correlaciones
A traves de la expresion |S I| = 0, se obtienen los valores y vectores
propios correspondientes, de la matriz de varianzas y covarianzas:
1 = 25.65 a10 = (0.160, 0.987)
2 = 0.35 a20 = (0.987, 0.160)
En este caso, z1 = 0.160x1 + 0.987x2 es el primer componente

principal. Se observa que la variable que tiene mas peso es x2 , debido
a la gran varianza que tiene esta variable en S.
Se concluira que z1 explica el 98.65% del total de variabilidad.
1 25.65
= = 0.9865
1 + 2 26

correlaciones
Ahora se utiliza la matriz de correlacion (R) para obtener los valores y
vectores propios (|S I| = 0):
1 = 1.8 a10 = (0.707, 0.707)
2 = 0.2 a20 = (0.707, 0.707)
1 El primer componente principal es:

x1 x 1 x2 x 2
z1 = 0.707 + 0.707
1 5
2 El segundo componente principal es:
x1 x 1 x2 x 2
z2 = 0.707 0.707
1 5
xi x i
en donde: estandariza la variable i.
si
correlaciones
z1 responde a una gran proporcion de la varianza total porque las variables
se encuentran fuertemente correlacionadas (r=0.8)
1 1.8
= = 0.9
1 + 2 2
Los pesos de las variables estandarizadas son los mismos en z1 , debido a la
igualdad en los elementos de la diagonal de R.
Algunas conclusiones sobre la seleccion de R o S para el analisis:
Los coeficientes de los CP son distintos si se emplea R que si se emplea S
(por lo tanto el porcentaje de su varianza tambien)
Los CP a partir de R son invariables en escala, esto porque la matriz original

de R es tambien invariable en escala.
En general, empleamos R preferiblemente si las varianzas tienen dispersiones

muy grandes.
Interpretacion de los componentes
Se basa en la identificacion de las variables que se encuentran

fuertemente correlacionadas con cada componente. Es decir, se
analiza la magnitud de los coeficientes que conforman a cada
componente.
Se puede observar en el Ejemplo 12.2.2., que z1 depende

positivamente de las 6 variables, por lo tanto se define al primer
componente como medida de tamano, dado que es un promedio
ponderado de las variables.
Por otro lado, z2 contiene coeficientes negativos en su mayora, pero

depende positivamente de EYEHD y EARHD y negativamente de los
demas. A este componente lo denominados de forma.

Cuantos componentes retener?
Retener los componentes suficientes para alcanzar un 80% del

total de variabilidad.
El porcentaje que se elija dependera del criterio del estadstico. No
obstante, si se elige un porcentaje muy alto, se incluiran componentes
muy especficos y no se reducira el problema de dimensionalidad.
Retener los componentes cuyos valores propios son mayores que

el promedio de valores propios. (Para una matriz de correlacion
este promedio es 1)
Este metodo es el mas utilizado en algunos paquetes de software.
Trata de retener los componentes que cuentan con mayor varianza
que el promedio de la varianza de todas las variables.

Usar un scree graph, o grafico de valores propios versus
numero de factores, para observar el quiebre natural entre los
valores propios de mayor valor y los de menor valor.
Figure: Scree Plot valores propios Ejemplo 12.2.2

Test de significancia de los componentes mas grandes, es decir, los
componentes que corresponden a los valores propios mas grandes.
Se emplea un metodo de ratio de verosimilitud (LR) probando la hipotesis
de que los CP son pequenos e iguales:
H0k : pk+1 = pk+2 = ... = p
en donde 1 , 2, ..., p; son los valores propios de S.

Se calcula el promedio de los valores propios estima el estadstico u que se
distribuye 2 :
p
X i
=
k
i=pk+1

p
2p + 11 X
u = n k ln lni 2 (, v )
6
i=pk+1
Se rechaza H0 si u 2,v ,en donde v = 21 (k 1)(k + 2).

Si la H0 es verdadera, los ultimos valores propios k tenderan a seguir un
patron reflejado por la lnea recta con escaza pendiente en el grafico scree.

Cuantas variables retener?
Para empezar, note que en cada componente seleccionado participan aun

todas las variables (p) originales. Si el problema es dimensionalidad,
necesitamos obtenes k << p variables.
Note que, a diferencia de lo que veremos en el analisis de regresion, no

tenemos variable dependiente, por lo tanto necesitamos analizar la
variabilidad interna de todas las variables.
Algunas alternativas (Jolliffe 1972,1973 y Rencher 2002) para desechar

variables:
1 Una vez identificados los CP, asociar a cada uno una variable, la de
maxima coeficiente, si no ha sido antes preseleccionada.

2 Proceder de manera iterativa: i) calcular CP, y selecionar la variable de
mayor coeficiente en el mayor CP; ii) reestimar los CP, excluyendo la

variable preseleccionada; iii) repetir el proceso.
No hay alternativa definitiva y podemos aplicar este procedimiento a R o S.

Referencias bibliograficas
Rencher, A. Methods of Multivariate Analysis, Wiley-Interscience; 2nd

Edition, 2002.

234 Componentes Principales Diapositivas

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

234 Componentes Principales Diapositivas

Uploaded by

Copyright:

Available Formats

Metodos Estadsticos III

Jose Gabriel Castillo

Castillo, J.G. (ESPOL) ME-III 1 / 30

Castillo, J.G. (ESPOL) ME-III 2 / 30

Es un analisis que se concentra en una sola muestra, de multiples

El principal objetivo es reducir la dimension del conjunto de datos con

Transforma la informacion a una base de datos con Componentes

El primer componente principal es el que retiene la mayor parte de la

Castillo, J.G. (ESPOL) ME-III 3 / 30

Para que se utiliza?

Encontrar patrones en datos de grandes dimensiones.

Construccion de indicadores, ej. SELBEN (BDH); para jerarquizacion

Castillo, J.G. (ESPOL) ME-III 4 / 30

Encontrar una funcion de x, z1 = a10 X que tenga la maxima varianza.

Luego encontrar otra funcion lineal de x, z2 = a20 X , no correlacionada

Se espera que la mayor parte de la variacion de x sea capturada por m

Castillo, J.G. (ESPOL) ME-III 5 / 30

A partir del vector de medias [ = (Xj )] trasladamos el origen hacia X , es

Obtenemos , la matriz de varianzas y covarianzas de la matriz de

Castillo, J.G. (ESPOL) ME-III 6 / 30

en donde, las varianzas se encuentran sobre la diagonal y las covarianzas

De acuerdo a las propiedades estudiadas, la matriz S es cuadrada, simetrica,

Castillo, J.G. (ESPOL) ME-III 7 / 30

Castillo, J.G. (ESPOL) ME-III 8 / 30

zi (variable transformada) es cada uno de los componentes principales dado

De esa forma, la Matriz de Componentes Principales de orden (p k),

Note que la Matriz de Varianza de los Componentes Principales es:

Sz = Var (Z ) = Var (AX ) = AVar (X )A0 = ASA0

Castillo, J.G. (ESPOL) ME-III 9 / 30

Castillo, J.G. (ESPOL) ME-III 10 / 30

z1 se ordena la mayor varianza (muestral), mientras que zp tiene la

Si algunos de los valores propios son muy pequenos, se los puede

Castillo, J.G. (ESPOL) ME-III 11 / 30

Cuando las variables estan altamente correlacionadas, pocos componentes

Para la construccion de ndices, se puede estimar la importancia relativa

Castillo, J.G. (ESPOL) ME-III 12 / 30

Castillo, J.G. (ESPOL) ME-III 13 / 30

Figure: Transformacion a componentes principales ejemplo 12.2.1

Castillo, J.G. (ESPOL) ME-III 14 / 30

La ecuacion del eje mayor del elipsoide (z1 ), tambien se puede

z2 = 0 = a21 (x1 x1 ) + a22 (x2 x2 )

La longitud de losejes mayores

Castillo, J.G. (ESPOL) ME-III 15 / 30

Se busca la combinacion lineal con maxima varianza. Es decir, se

El vector propio a1 correspondiente al valor propio mas grande 1 , es

Castillo, J.G. (ESPOL) ME-III 16 / 30

La varianza total esta dada por:

Castillo, J.G. (ESPOL) ME-III 17 / 30

Table: Eigen Valores

Castillo, J.G. (ESPOL) ME-III 18 / 30

Table: Vectores Propios

Por lo tanto, los dos primeros componentes principales son:

z1 = a10 y = 0.207y1 + 0.873y2 + 0.261y3 + 0.326y4 + 0.066y5 + 0.128y6

z2 = a20 y = 0.142y1 0.219y2 0.231y3 + 0.891y4 + 0.222y5 0.187y6

Castillo, J.G. (ESPOL) ME-III 19 / 30

Se aplica el mismo procedimiento que con la matriz de varianzas y

En algunos casos, los componentes principales son mas interpretables

Castillo, J.G. (ESPOL) ME-III 20 / 30

Castillo, J.G. (ESPOL) ME-III 21 / 30

1 = 25.65 a10 = (0.160, 0.987)

2 = 0.35 a20 = (0.987, 0.160)

En este caso, z1 = 0.160x1 + 0.987x2 es el primer componente

Castillo, J.G. (ESPOL) ME-III 22 / 30