You are on page 1of 51

Jos Luis Vicente Villardn

Dpto. Estadstica
1
ANLISIS DE COMPONENTES
PRINCIPALES (ACP)
X
1
=Presin arterial media (mmHg)
X
2
=Edad (aos)
X
3
=Peso (kg.)
X
4
=Superficie corporal (m
2
)
X
5
=Duracin de la hipertensin (aos)
X
6
=Pulso (pulsaciones/minuto)
X
7
=Medida del estress (0-100)
9
Ejemplo inicial: Riesgo
Coronario
n=20 pacientes
p=7 variables


X
1
X
2
X
3
X
4
X
5
X
6
X
7

1 105 47 85,4 1,75 5,1 63 33
2 115 49 94,2 2,10 3,8 70 14
3 116 49 95,3 1,98 8,2 72 10
4 117 50 94,7 2,01 5,8 73 99
5 112 51 89,4 1,89 7,0 72 95
6 121 48 99,5 2,25 9,3 71 10
7 121 49 99,8 2,25 2,5 69 42
8 110 47 90,9 1,90 6,2 66 8
9 110 49 89,2 1,83 7,1 69 62
10 114 48 92,7 2,07 5,6 64 35
11 114 47 94,4 2,07 5,3 74 90
12 115 49 94,1 1,98 5,6 71 21
13 114 50 91,6 2,05 10,2 68 47
14 106 45 87,1 1,92 5,6 67 80
15 125 52 101,3 2,19 10,0 76 98
16 114 46 94,5 1,98 7,4 69 95
17 106 46 87,0 1,87 3,6 62 18
18 113 46 94,5 1,90 4,3 70 12
19 110 48 90,5 1,88 9,0 71 99
20 122 56 95,7 2,09 7,0 75 99

Ser posible describir el conjunto de datos utilizando un nmero
menor de dimensiones, aprovechando las interrelaciones entre las variables?
ACP
Es posible definir un ndice general, combinando todas las variables,
que cuantifique la situacin de riesgo?
AF
Ejemplo inicial: 2 variables

X
1
X
2

1 105 47
2 115 49
3 116 49
4 117 50
5 112 51
6 121 48
7 121 49
8 110 47
9 110 49
10 114 48
11 114 47
12 115 49
13 114 50
14 106 45
15 125 52
16 114 46
17 106 46
18 113 46
19 110 48
20 122 56

100
105
110
115
120
125
130
p
r
e
s
i
o
n
1
2
3
4
5
6 7
8 9
10 11
12
13
14
15
16
17
18
19
20
42,5 45 47,5 50 52,5 55 57,5
edad
edad
presion
Variable
48,6
114
Mean
2,500526
5,428967
Std Dev
0,659093
Correlation
0,0016
Signif. Prob
20
Number
Correlation
Los individuos 6 y 7 son similares
ya que tienen prcticamente los
mismos valores de edad y presin
(Distancia se interpreta en trminos
de similitud)
Paises
PAISE S AGR MIN MAN ENE R CON SER FIN SSP T C
BLGICA 3.3 0.9 27. 6 0.9 8.2 19. 1 6.2 26. 6 7.2
DINAMARCA 9.2 0.1 21. 8 0.6 8.3 14. 6 6.5 32. 2 7.1
FRANCIA 10. 8 0.8 27. 5 0.9 8.9 16. 8 6.0 22. 6 5.7
RFA 6.7 1.3 35. 8 0.9 7.3 14. 4 5.0 22. 3 6.1
IRLANDA 23. 2 1.0 20. 7 1.3 7.5 16. 8 2.8 20. 8 6.1
ITALI A 15. 9 0.6 27. 6 0.5 10. 0 18. 1 1.6 20. 1 5.7
LUXEMBURG O 7.7 3.1 30. 8 0.8 9.2 18. 5 4.6 19. 2 6.2
HOLANDA 6.3 0.1 22. 5 1.0 9.9 18. 0 6.8 28. 5 6.8
U.K . 2.7 1.4 30. 2 1.4 6.9 16. 9 5.7 28. 3 6.4
AUSTRIA 12. 7 1.1 30. 2 1.4 9.0 16. 8 4.9 16. 8 7.0
FINLANDIA 13. 0 0.4 25. 9 1.3 7.4 14. 7 5.5 24. 3 7.6
GRECI A 41. 4 0.6 17. 6 0.6 8.1 11. 5 2.4 11. 0 6.7
NORUEGA 9.0 0.5 22. 4 0.8 8.6 16. 9 4.7 27. 6 9.4
PORTUGA L 27. 8 0.3 24. 5 0.6 8.4 13. 3 2.7 16. 7 5.7
ESPA A 22. 9 0.8 28. 5 0.7 11. 5 9.7 8.5 11. 8 5.5
SUECI A 6.1 0.4 25. 9 0.8 7.2 14. 4 6.0 32. 4 6.8
SUIZA 7.7 0.2 37. 8 0.8 9.5 17. 5 5.3 15. 4 5.7
TURQUA 66. 8 0.7 7.9 0.1 2.8 5.2 1.1 11. 9 3.2
BULGARI A 23. 6 1.9 32. 3 0.6 7.9 8.0 0.7 18. 2 6.7
CHECOSLOVAQUI A 16. 5 2.9 35. 5 1.2 8.7 9.2 0.9 17. 9 7.0
RDA 4.2 2.9 41. 2 1.3 7.6 11. 2 1.2 22. 1 8.4
HUNGRA 21. 7 3.1 29. 6 1.9 8.2 9.4 0.9 17. 2 8.0
POLONIA 31. 1 2.5 25. 7 0.9 8.4 7.5 0.9 16. 1 6.9
RUMANIA 34. 7 2.1 30. 1 0.6 8.7 5.9 1.3 11. 7 5.0
URS S 23. 7 1.4 25. 8 0.6 9.2 6.1 0.5 23. 6 9.3
YUGOSLAVI A 48. 7 1.5 16. 8 1.1 4.9 6.4 11. 3 5.3 4.0

Paises (2)
BEL
DIN
FRA
RFA
IRL
ITA
LUX
HOL
UK
AUS
FIN
GRE
NOR
POR
ESP
SUE
SUI
TUR
BUL
CHE RDA
HUN
POL
RUM
URS
YUG
Ejemplo inicial: 3 variables
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x
y
z
Ejemplo inicial: 3 variables
Para ver esta pelcula, debe
disponer de QuickTime y de
un descompresor Grficos.
Ejemplo inicial: 3 variables
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Prin Comp 1
Las dos primeras componentes absorben el 99% de la
informacin (variabilidad, inercia) de los datos.
Ejemplo inicial: ACP Completo
-3
-2
-1
0
1
2
3
P
r
i
n

C
o
m
p

2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-4 -3 -2 -1 0 1 2 3 4 5
Prin Comp 1
,965 -,230
,723 ,304
,884 -,403
,804 -,473
,434 ,525
,844 ,284
,355 ,764
Factor 1 Factor 2
presion
edad
peso
supcorp
Durac.
pul so
stress
Unrotated Factors

Las dos primeras componentes absorben el 76,84% de la
informacin (variabilidad, inercia) de los datos.
Paises 3
-4 - 3 -2 - 1 0 1
- 2
- 1
0
1
2
B EL
D I N
F R A
R F A
I R L
I T A
L U X
H O L
U K
A U S
F I N
G R E
N O R
P OR
E S P
S U E
S U I
T U R
B U L
C H E
R D A
H U N
P O L
R UM
UR S
Y UG


COMPONENT LOADINGS
1 2
AGRIC -0.978 0.078
MINERIA -0.002 0.902
MANUF 0.649 0.518
ENERG 0.478 0.381
CONSTR 0.607 0.075
SERVICIO 0.708 -0.511
FINANZAS 0.139 -0.662
SERVSOC 0.723 -0.323
TRANSP 0.685 0.296

VARIANCE EXPLAINED BY COMPONENTS
1 2
3.487 2.130

PERCENT OF TOTAL VARIANCE EXPLAINED
1 2
38.746 23.669

Antecedentes
Hotelling, H. (1933) Analysis of a complex of statistical variables into
principal components. Journal of Educational Psychology, 24:417-
441,498-520.

Hotelling, H. (1936). Simplified calculation of principal components.
Psychometrika, 1: 27-35

La aproximacin de Hotelling obtiene sucesivamente combinaciones
lineales de variables con varianza mxima.
Pearson, K. (1901). On lines and planes of closets fit to systems of points
in the space. Philosophical Magazine, 2: 559-572.

Pearson trata de encontrar una matriz de menor dimensin que la original,
que mejor resuma la informacin de los datos originales,
en el sentido de los mnimos cuadrados.
8
Datos
Disponemos de una matriz X
nxp
que contiene las medidas de p
variables cuantitativas tomadas sobre n individuos. Para
simplificar el resto de la exposicin supondremos, sin prdida de
generalidad, que las columnas de X tienen media cero, es decir
que se le ha restado la media de cada columna de forma que el
origen se sita en el centro de gravedad de la nube de puntos.
Todas las variables tienen el mismo papel, es decir, el conjunto
no se divide en variables dependientes e independientes.
X = (x
ij
) =
x
11
K x
1 j
K x
1p
M O M O M
x
i1
K x
ij
K x
ip
M O M O M
x
n1
K x
nj
K x
np
|
\

|
.
|
|
|
|
|
|
- Las nuevas variables (componentes principales) son incorreladas, y
se obtienen en orden decreciente de importancia.
7
- El Anlisis de Componentes Principales es una tcnica de reduccin
de la dimensin que describe la informacin de un conjunto de
variables observadas mediante un conjunto de variables ms pequeo
(las componentes principales).
- Esperamos que slo unas pocas recojan la mayor parte
de la informacin de los datos.
Definicin
- La transformacin es, en realidad, una rotacin ortogonal en el espacio
p-dimensional.
- El espacio generado por las primeras q componentes es un
subespacio vectorial del espacio p-dimensional original.
- El ACP puede entenderse, entonces, como la bsqueda del subespacio de
mejor ajuste a los datos.
10


Mtodos de obtencin
1.- Buscando aquella combinacin lineal de las variables que
maximiza la variabilidad. (Hottelling).

2.- Buscando el subespacio de mejor ajuste por el mtodo de
los mnimos cuadrados. (Minimizando la suma de cuadrados
de las distancias de cada punto al subespacio). (Pearson).

3.- Minimizando la discrepancia entre las distancias eucldeas
entre los puntos calculadas en el espacio original y en el
subespacio de baja dimensin. (Coordenadas principales,
Gower).

4.- Regresiones alternadas (Mtodos Biplot).
ACP Bidimensional (Fig)
X
1
X
2
( x
i1
, x
i2
)
X
1
X
2
CP
1
CP
2
( x
i1
, x
i2
)
Direccin de
mxima
variabilidad
Direccin, perpendicular
a la primera, que recoge
el resto de la
variabilidad
Rotacin a las componentes
X
1
X
2
CP
1
CP
2
CP
1
CP
2
Y
1
Y
2
( y
i1
, y
i2
)
y
i1
= x
i1
v
11
+ x
i 2
v
21
y
i 2
= x
i1
v
12
+ x
i 2
v
22
11
X
1
X
2
Y
1
Y
2
X
1
X
2
Y
1
Y
2
v
1
=
v
11
v
21
|
\

|
.
|
v
2
=
v
12
v
22
|
\

|
.
|
Y
j
= v
1j
X
1
+ v
2 j
X
2
+K + v
pj
X
p
y
i1
= x
i1
v
11
+ x
i 2
v
21
y
i 2
= x
i1
v
12
+ x
i 2
v
22
y
ij
= x
i1
v
1j
+ x
i 2
v
2 j
+K + x
ip
v
pj
y
1 j
M
y
nj
|
\

|
.
|
|
|
=
x
11
L x
1p
M O M
x
n1
K x
np
|
\

|
.
|
|
|
v
1 j
M
v
pj
|
\

|
.
|
|
|
y
j
= Xv
j
En general
La coordenada del individuo i en la
componente j es
Para todos los individuos
En notacin matricial
Mxima Varianza (1)
y
11
L y
1p
M O M
y
n1
K y
np
|
\

|
.
|
|
|
=
x
11
L x
1p
M O M
x
n1
K x
np
|
\

|
.
|
|
|
v
11
L v
1p
M O M
v
p1
K v
pp
|
\

|
.
|
|
|
y
j
= Xv
j
Donde Y contiene las puntuaciones de cada individuo sobre
cada componente, y V contiene los coeficientes (pesos) de las
combinaciones lineales en columnas.
Y= XV
Para todo el conjunto de datos
En notacin matricial
Mxima Varianza (2)
Buscamos una primera componente principal Y
1
que tenga varianza
mxima. Como las variables originales tienen media 0, tambin Y
1
tendr
media nula. La varianza de Y
1
se calcula como
Podemos maximizar la varianza sin lmite, aumentando el mdulo del
vector v
1
. Es decir, en las ecuaciones de las componentes existe un factor
de escala arbitraria (existen infinitas soluciones en las mismas
direcciones del espacio). Conviene que los vectores directores tengan
mdulo 1. Para que la maximizacin de la varianza de Y
1
tenga solucin
debemos imponer una restriccin:
12
Var(Y
1
) =
1
n
' y
1
y
1
=
1
n
' v
1
' X Xv
1
= ' v
1
Sv
1
' v
1
v
1
=1 ' VV= I
Es decir, tomamos un vector unitario en la direccin de la primera
componente principal.
Mxima Varianza (3)
L(v
1
) = ' v
1
Sv
1
Se trata de buscar el mximo de
Sujeto a la restriccin
' v
1
v
1
=1
Introduciendo el multiplicador de Lagrange l, se trata de buscar el
mximo de
L(v
1
) = ' v
1
Sv
1
( ' v
1
v
1
1)
L(v
1
)
cv
1
= 2Sv
1
2v
1
= 0
Derivando e igualando a cero
Se tiene
Sv
1
= v
1
Mxima Varianza (4)
Sv
1
= v
1
Esto quiere decir que v
1
debe ser un vector propio de la matriz de
covarianzas S con valor propio asociado .
Esto quiere decir que v
1
debe ser un vector propio de la matriz de
covarianzas S con valor propio asociado .
pero S tiene p valores propios
1
,
p
que supondremos
distintos y ordenados en orden decreciente
1

p
0.

Teniendo en cuenta que
debe ser
1
el valor propio ms grande y v
1
el vector propio
asociado, por lo que el primer valor propio se puede interpretar como la
varianza muestral de la primera componente principal.
Var(Xv
1
) = ' v
1
Sv
1
= ' v
1
v
1
=
Mxima Varianza (5)
La segunda componente principal Y
2
=Xv
2
, se obtiene de forma similar,
pero aadiendo la restriccin adicional de que Y
1
e Y
2
sean incorreladas,
como habamos establecido en la definicin de las componentes:
15
cov(Y
1
,Y
2
) =
1
n
' y
2
y
1
=
1
n
' v
2
' X Xv
1
= ' v
2
Sv
1
= ' v
2

1
v
1
= 0
' v
2
v
1
= 0
L(v
2
) = ' v
2
Sv
2
( ' v
2
v
2
1) o ' v
2
v
1
Utilizando multiplicadores para ambas restricciones, se trata de buscar
el mximo de
L(v
2
)
cv
2
= 2Sv
2
2v
2
ov
1
= 0
Derivando e igualando a cero
premultiplicando por v
1
,
Mxima Varianza (6)
2 ' v
1
Sv
2
2 ' v
1
v
2
o ' v
1
v
1
= 0
2 ' v
1
Sv
2
o = 0
como ,
entonces o = 0 en el punto estacionario, de forma que ,
' v
1
Sv
2
= 0
Sv
2
= v
2
con lo que es el segundo valor propio
2
y v
2
es el segundo
vector propio.
Siguiendo con el mismo argumento, podemos obtener las
sucesivas componentes principales a partir de los
correspondientes valores y vectores propios.
Mxima Varianza (7)
Seleccionando q componentes, las puntuaciones de los
individuos en las componentes estn dadas por
17
S = ' V AV
A = diag(
1
,K ,
p
)
' V V = I

En definitiva, las componentes principales se obtienen de la


descomposicin en valores propios (autovalores) y vectores propios
(autovectores) de la matriz de covarianzas
Y
q
= XV
q
donde V
q
est formada por las q primeras columnas de V,
y suponiendo X centrada.
Mxima Varianza (8)
Diferencia con regresin
100
105
110
115
120
125
130
p
r
e
s
i
o
n
1
2
3
4
5
6 7
8 9
10 11
12
13
14
15
16
17
18
19
20
42,5 45 47,5 50 52,5 55 57,5
edad
Recta de regresin Componentes principales
BONDAD DEL AJUSTE
(q COMPONENTES)
PROP. DE VARIANZA ABSORBIDA
POR CADA COMPONENTE
18
Bondad del ajuste
Var(Y
j
)
j =1
p

=
j
= traza(A)
j =1
p

traza(A) = traza( ' V SV) = traza(S ' V V) =


traza(S) = Var(X
j
)
j =1
p

i
i=1
p

j
j =1
q

i
i=1
p

Escalas de medida


Si las escalas de medida de las variables son muy diferentes,
la variabilidad estara dominada por las variables con
magnitudes mayores de forma que las primeras componentes
pueden mostrar simplemente las diferencias en la escala. En
este caso conviene tomar la matriz X estandarizada por
columnas y centrando y dividiendo por la desviacin tpica. En
este caso las componentes estaran colocadas sobre la matriz
de correlaciones.

Interpretacin de resultados

Diagramas de dispersin que representan los valores de los
individuos en las primeras componentes principales.

Interpretacin de distancias en trminos de similitud.

Bsqueda de clusters (grupos) y patrones.

Interpretacin de las componentes utilizando las correlaciones
con las variables originales. Las posiciones de los individuos se
interpretan despus en relacin a la interpretacin dada a las
componentes.

Correlaciones con las
componentes
A los vectores escalados de la forma:



se les denomina factores de carga (C)

Cuando las componentes principales se calculan usando la matriz
de correlaciones, la matriz C contiene las correlaciones entre las
variables originales y las componentes.
A las correlaciones al cuadrado se las denomina contribuciones relativas
del factor al elemento y miden la proporcin de la variabilidad de las
variables explicadas por cada componente.

v
j
*
=
j
1/2
v
j
C= VA
1/2
Seleccin de componentes
-Prueba de Anderson: Si los datos son normales, es posible realizar
un test para contrastar si las ltimas (p-q) races son iguales a cero.





sigue una ji-cuadrado con (1/2) (p-q) (p-q+1) - 1 grados de libertad.

-Scree Plot: Grfico de los valores propios. Se seleccionan ejes hasta
que se vea un decrecimiento brusco en la magnitud de los valores
propios.

-Seleccionar las componentes necesarias para explicar un
determinado porcentaje de la varianza.

-Nmero elegido a priori por el usuario
_
2
= (n 1) ln(
i
)
I =q+1
p

+ (n 1)( p q)ln
i
I =q+1
p

p q
|
\

|
.
|
Scree Plot
v
.

p
r
o
p
i
o
0
1
2
3
4
1 2 3 4 5 6 7 8 9

20
n=20 pacientes
p=7 variables
X
1
=Presin arterial media (mmHg)
X
2
=Edad (aos)
X
3
=Peso (kg.)
X
4
=Superficie corporal (m
2
)
X
5
=Duracin de la hipertensin (aos)
X
6
=Pulso (pulsaciones/minuto)
X
7
=Medida del estress (0-100)
Ejemplo (1)
Y
1
=0,48.PRESIN + 0,36.EDAD + + 0,17.STRESS
X
i
Y
1
Y
2
Y
3
Y
4
Y
5
Y
6
Y
7

PRESION 0,48814 -0,18969 -0,00547 -0,06758 0,04693 -0,37659 -0,75969
EDAD 0,36568 0,25049 -0,15331 -0,82970 0,17236 0,02013 0,24800
PESO 0,44713 -0,33244 0,03614 0,22336 -0,15349 -0,51151 0,59427
SUPERFICIE 0,40671 -0,38985 0,00711 0,19929 0,50399 0,62021 0,06458
DURACION 0,21965 0,43261 0,86381 0,09397 0,09557 0,00801 0,02047
PULSO 0,42683 0,23457 -0,16222 0,13200 -0,73112 0,42646 -0,05144
STRESS 0,17952 0,62976 -0,45015 0,43723 0,38322 -0,17186 0,03132

21
Ejemplo (2)
24
-3
-2
-1
0
1
2
3
P
r
i
n

C
o
m
p

2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-4 -3 -2 -1 0 1 2 3 4 5
Prin Comp 1
,965 -,230
,723 ,304
,884 -,403
,804 -,473
,434 ,525
,844 ,284
,355 ,764
Factor 1 Factor 2
presion
edad
peso
supcorp
Durac.
pul so
stress
Unrotated Factors

Ejemplo (3)
Reconstruccin de los datos
X~

X
q
= Y
q
' V
q
= XV
q
' V
q
Los datos originales pueden reconstruirse de forma aproximada a partir
de la informacin en dimensin reducida (q) mediante
Obsrvese que
V
q
' V
q
Es la matriz de proyeccin en el subespacio de dimensin q con las
coordenadas de los puntos en el sistema de referencia del espacio
completo en dimensin p.
La bondad del ajuste es la suma de cuadrados explicada por esta
aproximacin.
24
Ejemplo Imgenes (1)
103 104 106 106 123 120 114 111 127 134 125 132 125 123 139 137 147 154 160
98 103 113 116 114 114 111 109 118 123 127 129 129 129 132 142 149 154 160
103 101 106 108 108 113 123 120 116 116 118 123 134 137 134 144 144 147 152
116 114 113 114 111 116 132 129 125 120 123 129 129 129 139 139 142 142 147
104 108 111 113 113 114 120 120 120 120 125 127 125 127 139 142 149 152 149
108 109 111 108 104 111 118 116 123 127 132 134 137 137 137 149 142 144 157
106 108 109 108 103 109 120 120 129 134 134 134 142 142 144 147 144 152 157
101 103 100 103 106 109 123 125 129 134 134 134 142 142 144 139 157 160 157
100 100 100 104 109 113 123 125 127 129 137 139 142 144 142 142 157 160 154
97 100 106 109 114 116 125 129 132 129 134 137 142 142 147 149 147 147 160
97 100 109 111 116 118 127 132 137 134 127 129 137 142 142 152 139 144 160
101 104 109 113 114 118 114 116 127 129 129 132 142 154 152 166 178 182 182
103 108 109 109 118 120 120 123 137 134 147 147 166 178 160 152 154 163 188
103 106 109 111 118 125 129 132 149 144 152 149 142 142 132 123 108 111 116
108 113 123 129 139 147 142 139 125 113 101 97 83 82 83 83 87 87 88
113 116 123 127 132 134 125 114 97 89 83 82 75 77 79 89 104 104 100
116 127 132 125 103 97 83 78 77 79 88 94 103 101 100 92 94 104 87
118 125 118 108 88 84 77 78 83 85 85 89 84 87 82 69 67 69 63
108 97 84 84 87 87 82 75 63 60 65 56 43 44 41 37 28 27 31
83 79 77 74 69 67 54 49 38 35 25 27 30 29 28 27 27 27 21
78 77 74 67 59 54 44 38 24 21 28 32 38 36 36 36 31 28 21
Datos: Imgenes de una cara (300x250 pixels)
codificados en una escala de grises de 0 a 256.
24
Ejemplo Imgenes (2)
Ejemplo Imgenes (3)
Compresin
Tamao original:
300*250 = 75000
10 componentes: 300*10+250*10=5500
Factor de compresin :13.64
Calidad muy baja
15 componentes: 300*15+250*15 = 8250
Factor de compresin : 9
Calidad Baja
25 componentes: 300*25+250*25 = 14050
Factor de compresin : 5.34
Calidad media
25 componentes: 300*40+250*40 = 22000
Factor de compresin : 3.41
Calidad alta
4
(ACP)
ANALISIS FACTORIAL COMPONENTES PRINCIPALES
Explica correlaciones Explica Variabilidad
Trata de explicar las variables observadas en
funcin de unos cuantos factores hipotticos
Proyecta las observaciones en un espacio de
dimensin reducida con prdida de
informacin mnima
Los factores son incorrelados solo dentro del
espacio de los factores comunes
Las componentes principales son
incorreladas incondicionalmente.
Hay varios procedimientos de estimacin.
Hay varias soluciones.
Un nico procedimiento de estimacin.
La solucin es nica.
Aadir un nuevo factor puede cambiar los
anteriores
Aadir una nueva componente principal no
cambia a las anteriores.
Algunas soluciones son invariantes con
respecto a los cambios de escala
La solucin cambia con los cambios de
escala
En algunos modelos es difcil estimar las
comunalidades
No hay que estimar comunalidades
En algunos modelos complejos los clculos
son problemticos
Los clculos son bastante simples.
ACP versus AF
p
d
2
=p
2
+e
2

d
e Y
1

Nos interesa minimizar la suma de cuadrados de las distancias a Y
1
,
lo que equivale a maximizar la suma de cuadrados de las proyecciones.
La suma de cuadrados de las proyecciones representa la varianza de Y
1
Y
2

25
Subespacio de mejor ajuste (1)
X
1

X
2

d
v
1

e Y
1

v
2

Y
2

Y=XV
Var(Y) = YY = (XV)XV
26
Subespacio de mejor ajuste (2)
X
1

X
2

d
v
1

e Y
1

v
2

Y
2

Buscamos v que haga mxima la cantidad (Xv)Xv=vXXv,
con la restriccin vv=1.
El subespacio resultante se designar como v
1

27
Subespacio de mejor ajuste (3)
X
1

X
2

d
v
1

e Y
1

v
2

Y
2

28
Sea un multiplicador de Lagrange.
Derivamos vXXv-(vv-1) con respecto a las
componentes de v:
2XXv-2v=0
XXv=v
Subespacio de mejor ajuste (4)
X
1

X
2

d
v
1

e Y
1

v
2

Y
2

Entonces, v
1
es un vector propio de la matriz XX, de valor propio

Puede verse que los sucesivos v
2
, , v
q
son vectores propios de XX
asociados a valores propios
2
, ,
q
, de valor cada vez menor.

29
Subespacio de mejor ajuste (5)
X
1

X
2

d
v
1

e Y
1

v
2

Y
2

Como XX coincide, salvo un factor de escala, con la matriz de
varianzas-covarianzas entre las variables, podemos decir que los
nuevos ejes vienen dados por la descomposicin espectral
S=VDV
y se corresponden con las primeras columnas de la matriz de vectores
propios V.
30
Subespacio de mejor ajuste (6)
Como antes, las coordenadas de los individuos en el espacio generado
por las q primeras componentes principales, es decir,
las proyecciones de los puntos en elespacio original
sobre el subespacio de las componentes principales, son
Y=XV
q

X
1

X
2

d
v
1

e Y
1

v
2

Y
2

31
Subespacio de mejor ajuste (7)

(O,o
ij
) ( R
q
, d
ij
)
32
Mtodos de representacin de
datos

Y
nxq

X
nxp

d
ij
= ( y
ik
y
jk
)
2
k=1
p

i
j

X =
x
11
... x
1j
... x
1p
... ... ...
x
i1
... x
ij
... x
ip
... ... ...
x
n1
... x
nj
... x
np
|
.
|
|
|
|
|
|
|
\







A
nxn

S
nxn

B
nxn

A =
0 ... o
1i
... o
1n
... ... ...
o
i1
... 0 ... o
in
... ... ...
o
n1
... o
ni
... 0
|
.
|
|
|
|
|
|
|
\







S =
s
11
... s
1i
... s
1n
... ... ...
s
i1
... s
ii
... s
in
... ... ...
s
n1
... s
ni
... s
nn
|
.
|
|
|
|
|
|
|
\







B =
b
11
... b
1i
... b
1n
... ... ...
b
i1
... b
ii
... b
in
... ... ...
b
n1
... b
ni
... b
nn
|
.
|
|
|
|
|
|
|
\







X
nxp

A
nxn
S
nxn

B
nxn

o
ij
=1 s
ij

X' X

XX'

B=
1
2
HA
2
H'

d(i , j ) = x
ik
x
jk
r
k=1
p

|
\


|
.
|
|
1 r
Coef. de
similaridad
33
Relaciones entre los tipos de
datos

B
nxn

B= ND

N'

Proyecciones F = ND

1 2
Torgerson, W. S. (1958) Theory and Methods of Scaling, New York; Wiley.

Gower J.C., (1966). "Some distance properties of latent root and vector methods used in multivariate analysis,"
Biometrika, 53, 325-338.

A
nxn
35
Coordenadas Principales
COORDENADAS PRINCIPALES
MTODOS DE MULTIDIMENSIONAL SCALING
(MDS)
36

You might also like