You are on page 1of 55

RegresinLinealMltiple

SantiagodelaFuenteFernndez

RegresinLinealMltiple

SantiagodelaFuenteFernndez

RegresinLinealMltiple

REGRESINLINEALMLTIPLE
Lastcnicasderegresinlinealmltiplepartende(k+1)variablescuantitativas,siendoYlavariable
derespuestay ( X1 , X2 , LL , Xk ) lasvariablesexplicativas.
Setratadeextenderalas'k'variableslastcnicasdelaregresinlinealsimple.Enestalnea,la
variableYsepuedeexpresarmedianteunafuncinlinealdelasvariables ( X1 , X2 , LL , Xk )
Y = 0 + 1 X1 + 2 X2 + L + k Xk

Paraello,dispondremosdeunamodelodeprobabilidad(laNormal).Elestadsticofijalosvaloresde
lasvariablesregresoras X ki yobtiene'alazar'loscorrespondientesvalores Yi

Modelo: Y = 0 + 1 X1 + 2 X2 + L + k Xk + U
Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Yi N(0 + 1 X1 + 2 X2 + L + k Xk , 2 ) independie ntes , (i = 1, 2, L ,n)
ui N(0, 2 ) independientes, (i = 1,2, L ,n)
u1
Y1 1X11 LXk 1 0



u2
Y2 1X12 LXk 2 1

Enformamatricial: M = MMLM M + M



M
M MMLM M



un
yn 1X1n LXk n k
Y = X + U siendoX='matrizdeldiseo'.

Lashiptesiscomunesentrelasregresioneslinealymltipleson:
a) Normalidad: ui N(0, 2 )
b) Linealidad: E (u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d) Independencia: u i sonindependientes (i = 1, 2, L ,n)

Requisitosadicionalesdelaregresinmltiple:

a) n>k+1.Elmodelodependede(k+2)parmetros.Paraquelaregresintengasignificado
debehaberunnmerosuficientededatos.
b) NingunadelasvariablesexplicativasXescombinacinlinealdelasotras(Colinealidad).Si
algunadelas Xi escombinacinlinealexactadealgunadelasotras Xi ,elmodelopuede
simplificarseconmenosvariablesexplicativas.Tambinhayqueconsiderarsialgunadelas
Xi estfuertementecorrelacionadaconotras.

SantiagodelaFuenteFernndez1

RegresinLinealMltiple

ESTIMACINDELOSPARMETROS

Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Enformamatricial: Y = X + U siendoX='matrizdeldiseo'.

Datos

X1

X2

XK
Lanubedepuntosestenun
espaciodedimensin(k+1).

Y1

X 11

X 21

X k1

Y2

X 12

X 22

X k2

Yn

X 1n

X 2n

X kn

n X2 n X X
i1 i2
i1
i=1
i=n1
n
Xi2Xi1 X2i2
donde, X' X = i=1
i=1
M
M
n
n
Xik Xi1 Xik Xi2
i=1
i=1

Esdifcildevisualizarparak>2
= [X' X ] 1 X' Y
dondeX'eslamatriztranspuesta
deldiseo

n
n X Y
... Xi1Xik
i1 i
i=1
i=n1

... Xi2Xik , X' Y = Xi2Yi


i=1

i=1
M
M
...
n
n

... X2ik
Xik Yi
i=1

i=1

Cadaunodeloscoeficientes i representaelefectodelavariableindependientesobrelavariable
explicada.Esdecir,elvalorestimado indicalavariacinqueexperimentalavariable
i

dependientecuandolavariableindependiente X i varaenunaunidadytodaslasdems
permanecenconstantes.
Cuandoelmodelotienetrminoindependiente,lasmatricesanterioressesimplificanconlas
siguientesexpresiones:
n

n
X i2
X' X =
i=1
M
n
Xik
i=1

nY
i
i=1
i=1
ni=1

n
n
2
Xi2 ... Xi2Xik , X' Y = Xi2Yi
i=1

i=1
i=1
M
M
M
...
n
n
n

Xik Xi2 ... X2ik


Xik Yi
i=1
i=1

i=1

Xi2 ... Xik


n

= SR2 =
u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i

n
1
u2i
n k 1 i=1

SantiagodelaFuenteFernndez2

RegresinLinealMltiple

Enunprincipio,paraestimarlavarianzadelerroraleatorioU,parecerazonableutilizarlavarianzade
loserroresdeprediccin,tambindenominadosresiduosdelmodelo.
1 n
2 = u2i .Sinembargo,esteestimadoressesgado E ( 2 ) 2 ,
Esdecir,parecerazonableutilizar
n i =1
n
1
portanto,seutilizacomoestimador SR2 =
u2i .
n k 1 i=1
DEMOSTRACIN( Y = X + U = [X' X ] 1 X' Y )
= Y Y = Y X
Y = X + U .Elcorrespondientemodeloajustadoser Y = X ,conlocual, U

DenominandoSalasumadeloscuadradosdelosresiduos:

' U
= [ u1 , u2 , LL , un ]
S = U

][

u1
u
n
2 = u ( U' matriztranspuestade U )
M i=1 i

un

'
S = Y X Y X = Y' Y ' X' Y Y' X + ' X' X B = Y' Y ' X' Y ' X' Y + ' X' X B = Y' Y 2 ' X' Y + ' X' X B
14444244443
un escalar es igual a su transpuesto

' X' Y=X' Y

ParaminimizarSseaplicaelcriteriomnimocuadrtico,derivandorespectode :
S
= 2 X' Y + 2 X' X B = 0 X' X B = X' Y a

[X' X]1 (X' X ) B = [X' X]1 X' Y

a B = [X' X ]1 X' Y

DISTRIBUCINDE
a) Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la
matriztranspuestadeldiseo).
b) ElvectordeobservacionesYsedistribuyesegnunanormalmultivariantedemedia X yde
matrizdevarianzasycovarianzas 2 I ,esdecir, Y N( X , 2 I) .
c) escombinacinlinealdelascomponentesdelvectorY,porloquesedistribuyesegnuna
variablealeatorianormal,dondesumediaymatrizdevarianzasycovarianzasser:

E ( ) = E [X' X ] 1 X' Y = [X' X ] 1 X'E (Y) = [X' X ] 1 X' X = esunestimadorinsesgadode

Var ( ) = Var [X' X ] 1 X' Y = [X' X ] 1 X' [Var (Y)] X [X' X ] 1 = [X' X ] 1 X' 2 X [X' X ] 1 = 2 [X' X ] 1

dedonde, N , 2 [X' X ] 1

SantiagodelaFuenteFernndez3

RegresinLinealMltiple

Conelajustedemnimoscuadrados: u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i

i N , 2 q i +1, i +1 ,donde q i +1, i +1 sonloselementosdeladiagonalprincipal [X' X ] 1 .


Anlogamente,lacovarianzaentre i y j ser 2 q i +1 , i +1

Laestimacindelavarianzaresidual 2 sehacemediante S2R =

[ ]

n
1
u2i ,pudindose
n k 1 i=1

comprobarqueelestimadoresinsesgado: E S2R = 2

Deformaqueestimaremoslavarianzade i N , 2 q i +1, i +1 mediante S 2R q i +1, i +1 .


Sedemuestraque

Seobtiene

(n k 1) S2R

n2k1

i i
N(0,1) .
q i +1, i +1

ComolavariabletStudentconkgradosdelibertadsedefine: tk =

resultaque, t =

i i
q i +1 , i +1
1
(n k 1) SR2

(n k 1)

N(0,1)
1 2
k
k

i i
tnk1
SR q i +1, i +1

d) CONTRASTEDEHIPTESIS[tStudent]

Nosplanteamossilavariable X i influyesobrelavariablederespuestaY.Enotraspalabras,siel
valordelparmetroenlapoblacinesceroono.
Paraello,seestablecelahiptesisnula H0 : i = 0 frentealahiptesisalternativa H1: i 0 .
i
i i
Elestadsticoobservado t =
,bajolahiptesisnularesulta, t =
SR q i +1, i +1
SR q i +1, i +1
estadstico
experimental

647
4 48
4 estadstico
terico
6
474
8
i
t
.Encasocontrario,serechaza.
Seaceptalahiptesisnula H0 cuando
; (nk 1)
SR q i +1, i +1
2
Si n > 30 ,seaceptalahiptesisnula H0 cuando t 2 .Encasocontrario,seaceptalahiptesis
alternativa H1 ,concluyendoquelavariable Xi isimainfluyeenlarespuesta.

SantiagodelaFuenteFernndez4

RegresinLinealMltiple

CLCULODELCOEFICIENTEDECORRELACINPARCIAL

Enunmodeloderegresinlinealmltiple, Y = 0 + 1 X1 + 2 X2 + L + k Xk ,sepuedecalcular
fcilmenteelcoeficientedecorrelacinparcialentrelavariablederespuestaYyunavariable
regresoraX,controladoporelrestodevariablesregresoras.Paraelloseutilizaelcontraste
individualdelatrespectoalavariableX,yquesedefinecomo:
ti =

SR

i
i = 1, 2,...,k ,
q i +1, i +1

Obtenindoselasiguienterelacin: R2Y iC =

t2i
t2i + n (k + 1)

donde C = {1, 2, ... , i 1, i + 1, ... ,k } conjuntodendicesdetodaslasvariablesregresorasexceptoel


ndiceisimo.

e) INTERVALOSDECONFIANZADELOSPARMETROS
i

Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la


matriztranspuestadeldiseo).
n

Porotraparte, i N , 2 q i +1, i +1 ,dondelavarianzaresidual 2 seestimapor SR2 =


donde q i +1, i +1 sonloselementosdeladiagonalprincipal [X' X ] 1 .

IC1 (i ) = i t / 2 , (nk 1) SR

q i +1 , i +1

(yi yi ) 2
i=1

n k 1

CONTRASTEDEHIPTESISINTERVALOSDECONFIANZA

Hiptesisnula H0 : i = 0 X i noinfluyeenY
Hiptesisalternativa H1: i 0 X i influyeenY
Seaceptalahiptesisnula H0 , X i noinfluyeenY,conunniveldeconfianza (1 ) cuandoel
ceroseencuentraenelintervalodeconfianza.
Encasocontrario,cuandoelceronocaeenelintervalodeconfianza,seaceptalahiptesis
alternativa H1 ,yenconsecuencia, X i influyeenY.
EstecontrasteesequivalentealcontrastedelatStudentparacada i

SantiagodelaFuenteFernndez5

RegresinLinealMltiple

f) INTERVALODECONFIANZAPARALAVARIANZADELOSRESIDUOS

(n k 1) S2 (n k 1) S2 SCR
SCR
R
R
IC = 2
; 2
; 2
= 2

1 , (nk1)
1 , (nk1)
2
2

2 , (nk1)
2 , (nk1)

DESCOMPOSICINDELAVARIABILIDAD
=0
6447
448
n
SCT = ( Yi Y ) 2 = ( Yi Y i) + ( Yi Y ) = ( Yi Y i) 2 + ( Yi Y ) 2 + 2 ( Yi Yi ).( Yi Y )
n

i=1

i=1

( Yi Y ) 2

i=1
1
4243
SCT

suma cuadrados total


(n1) grados libertad

i=1

i=1

( Yi Y i) 2

i=1

( Yi Y ) 2

i=1
1
4243
SCE

i=1
1
4243
SCR

suma cuadrados exp licada suma cuadrados residual


k grados libertad
(nk1) grados libertad

i=1

i=1

i=1

( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2 1 =

( Yi Y i) 2
i=1
n

( Yi Y )

i=1
1
4243
SCR / SCT

( Yi Y ) 2
i=1
n

( Yi Y ) 2

i=1
1
4243
2
R =SCE / SCT

Unavezestimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajuste
realizado.UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quese
n

define: R2 =

( Yi Y i) 2
SCE
i =1
SCT

( Yi Y ) 2
i =1

ElCoeficientedeDeterminacinpermite,adems,seleccionarentremodelosclsicosquetenganel
mismonmeroderegresores,yaquelacapacidadexplicativadeunmodeloesmayorcuantoms
elevadoseaelvalorquetomeestecoeficiente.
Porotraparte,elvalorcoeficientededeterminacincrececonelnmeroderegresoresdelmodelo.
Porello,silosmodelosquesecomparantienendistintonmeroderegresores,nopuede
establecersecomparacinentresus R2 .
Enestecasodebeemplearseelcoeficientededeterminacincorregido R 2 ,quedepurael
incrementoqueexperimentaelcoeficientededeterminacincuandoelnmeroderegresoreses
mayor.
R 2 = 1

SCR n k 1
n1
2
=1
1R
SCT n 1
n k 1

SantiagodelaFuenteFernndez6

RegresinLinealMltiple

ANLISISDELAVARIANZA:TABLAANOVA

Variacin

Sumacuadrados

Gradoslibertad

Mediacuadrtica
SCE
k
SCR
n k 1

Explicada

SCE = ( Yi Y i) 2

i=1
n

Residual

SCR = ( Yi Y ) 2

Total

SCT = ( Yi Y ) 2

nk 1

i=1
n

FSnedecor
F=

SCE / k
SCR / (n k 1)

n1

i=1

CONTRASTEDEHIPTESIS:

Hiptesisnula H0 : 1 = 2 = LL = k = 0 elmodelonoesexplicativo
Hiptesisalternativa H1: al menos un i 0 elmodeloesexplicativo
Aunniveldeconfianza (1 ) serechaza H0 si F F ; k , (nk1)

FSnedecorCOEFICIENTEDEDETERMINACIN
n

Elcoeficientededeterminacinsedefine: R2 =

( Yi Y i) 2
SCE
i=1
SCT

( Yi Y ) 2
i=1

Deotraparte,ladistribucinFSnedecor:
F=

nk 1
1 nk 1
SCE / k
SCE SCT n k 1
1 n k 1
1
=
= R2
=
= R2
= R2
SCR
SCT SCE
SCR / (n k 1)
SCT SCR
k
k
k
1 R2
k
SCT
SCT
R2 n k 1
1 R2
k

F =

R2 n k 1
1 R2
k

RESUMENDECONTRASTES

ContrasteConjunto
FSnedecor
Modeloexplicativo
Modeloexplicativo
Modeloexplicativo
Modelonoexplicativo
Modelonoexplicativo
Modelonoexplicativo

ContrastesIndividuales
tStudent
Todaslas Xi sonexplicativas
Algunas Xi sonexplicativas
Ninguna Xi esexplicativa
Todaslas Xi sonexplicativas
Algunas Xi sonexplicativas
Ninguna Xi esexplicativa

Conclusin
Tomamostodaslas Xi
Nosquedamosconlas Xi explicativas
PosibleMulticolinealidad(revisarelModelo)
PosibleMulticolinealidad(revisarelModelo)
PosibleMulticolinealidad(revisarelModelo)
ElModelonoexplicaY

SantiagodelaFuenteFernndez7

RegresinLinealMltiple

PREDICCINENELMODELODEREGRESIN

UnavezestimadoyvalidadoelModelo,unadesusaplicacionesmsimportantesconsisteenpoder
realizarprediccionesacercadelvalorquetomaralavariabledependienteenelfuturooparauna
unidadextramuestral.
Estaprediccinsepuederealizartantoparaunvalorindividualcomoparaunvalormedio,o
esperado,delavariabledependiente,siendoposibleefectuarunaprediccinpuntualopor
intervalos.Suclculoserealizamediantelassiguientesexpresiones:

IntervalodeconfianzaparaunvalormediodeYparalosvalores ( X10 , X20 , LL , Xk 0 ) delas


variablesexplicativas.

Y0 = 0 + 1 X10 + 2 X20 + L + K XK 0

IC E(Y0 )

= Y 0 t / 2 , (nk 1) S R

(1 X 10 X 20

X 10
L X k 0 ) (X' X) 1 X 20

XK0

IntervalodeconfianzaparaunvalorindividualdeYparalosvalores ( X 10 , X 20 , L L , X k 0 ) delas
variablesexplicativas.

IC Y0

= Y0 t / 2 , (nk 1) SR

1 + (1 X 10 X 20

X 10
L X k 0 ) (X' X) 1 X 20

XK0

MATRIZDECOVARIANZAS

2y

Lamatrizdevarianzascovarianzassedefine: VC = Sx 1 y
Sx y
2

S yx 1

2x1
Sx 2 x 1

S yx 2 S yx 1 = Sx 1 y

Sx 1 x 2 S yx 2 = Sx 2 y
2x2 Sx 1 x 2 = Sx 2 x 1

Loscoeficientes ( 1 , 2 ) vienendados,respectivamente,consignonegativo () ,porelcocientede


losadjuntos (S yx 1 , S yx 2 ) entreeladjuntode 2y :
1 =
2x1
donde, VC y =
Sx 2 x 1

VC yx 1
VC y

2 =

VC yx 2
VC y

Sx 1 y
Sx 1 x 2

VC
=

y
x
1
Sx 2 y
2x2

0 = Y 1 X1 2 X2
Sx 1 x 2
2x2

VC y x 2

Sx y
= 1
Sx 2 y

2x1
S2x 2 x 1

SantiagodelaFuenteFernndez8

RegresinLinealMltiple
2
2
Coeficientededeterminacinmltiple: R = ryx 1x 2 = 1

Coeficientesdecorrelacinparcial:
x1

= VCx 1x 1 VC

VC2 = VC yy VC

x2

ryx 1 .x 2 =

= VCx 2 x 2

CV
2y C yy

VC yx 1
VC yy VCx 1x 1

ryx 2 .x 1 =

VC yx 2
VC yy VCx 2 x 2

MATRIZDECORRELACIONES

Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
S yx 1

ryx 1 =

ryx 1 ryx 2
ryx 1 = rx 1 y
y x 1

r = r

Rx = rx 1 y 1
rx 1x 2 donde yx 2 x 2 y
rx x = rx x

S yx 2
rx y rx x
1
2 1
1 2
2 1
2
ryx 2 =
y x 2

ryx 1 ryx 2 rx 1 x 2

ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )

Coeficientesdecorrelacinparcial:

ryx 2 ryx 1 rx 2 x 1
ryx 2 .x 1 =
(1 ryx2 1 )(1 rx22 x 1 )

Coeficientededeterminacinmltiple: R = r
2

2
yx 1 x 2

ryx2 1 + ryx2 2 2 ryx 1 ryx 2 rx 1x 2


1 rx21x 2

SantiagodelaFuenteFernndez9

RegresinLinealMltiple

Ejercicio1.Sepretendenestimarlosgastosenalimentacindeunafamiliaenbasealainformacin
queproporcionanlasvariablesregresoras'ingresosmensualesy'nmerodemiembrosdela
familia'.Paraelloserecogeunamuestraaleatoriasimplede15familias,cuyosresultadossefacilitan
enlatablaadjunta.(Elgastoeingresoseexpresanencienmileuros).
GastoAlimentacin
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38

Ingresos
2,10
1,10
0,90
1,60
6,20
2,30
1,80
1,00
8,90
2,40
1,20
4,70
3,50
2,90
1,40

Tamao
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4

Solucin:Enformamatricial: Y = X + U , = [X' X ] 1 X' Y ,dondeX'matriztranspuesta


0,43
12,13

0,31
11,14
0,32
10,95

0,46
11,64
1,25
16,24

0,44
12,33

0,52
11,86
Y = 0,29 = X + U = 115

1,29
18,93
0,35
12,42

0,35
11,24
0,78
14,73

0,43
13,52

0,47
12,93
0,38
11,44

0 u1

1 + u2
u
2 3

AplicandoelcriteriodelosmnimoscuadradosordinariosMCO,lafuncinquemejorseajustaalos
datoseslaqueminimizalavarianzadelerrorU,loqueconllevaaunsistemadeecuaciones
normales:

SantiagodelaFuenteFernndez

10

RegresinLinealMltiple

15 Y = N + 15 X + 15 X
i
0
1 1i
2 2i

i=1
i=1
i=1
15
15
15
15

ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i


i=1
i=1
i=1
i=1
15
15
15
15

2
X
Y
=

X
+

X
X
+

i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i


Conestosdatos,seobtiene:
Yi

X1i

X2i

0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38

2,1
1,1
0,9
1,6
6,2
2,3
1,8
1
8,9
2,4
1,2
4,7
3,5
2,9
1,4

3
4
5
4
4
3
6
5
3
2
4
3
2
3
4

X12i
4,41
1,21
0,81
2,56
38,44
5,29
3,24
1
79,21
5,76
1,44
22,09
12,25
8,41
1,96

X22i
9
16
25
16
16
9
36
25
9
4
16
9
4
9
16

X1i X2i

X1i Yi

X2i Yi

6,3
4,4
4,5
6,4
24,8
6,9
10,8
5
26,7
4,8
4,8
14,1
7
8,7
5,6

0,903
0,341
0,288
0,736
7,750
1,012
0,936
0,29
11,481
0,84
0,42
3,666
1,505
1,363
0,532

1,29
1,24
1,6
1,84
5
1,32
3,12
1,45
3,87
0,7
1,4
2,34
0,86
1,41
1,52

15

15

15

15

15

15

15

15

i =1

i=1

i=1

i=1

i =1

i =1

i =1

i =1

Yi = 8,07 X1i = 42 X2i = 55 X12i = 188,08 X22i = 219 X1i X2i = 140,8 X1i Yi = 32,063 X2i Yi = 28,96

i=1
i=1
i=1
150 + 42 1 + 552 = 8,07

15
15
15
15

2
conlocual, X1i Yi = 0 X1i + 1 X1i + 2 X1i X2i 42 0 + 188,08 1 + 140,08 2 = 32,063
i=1
i=1
i=1
i=1

550 + 140,08 1 + 219 2 = 28,96


15
15
15
15
2
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i
i=1
i=1
i=1
i=1

15

15

15

Yi = N0 + 1 X1i + 2 X2i

enformamatricial,
X 'X
6444
47
4444
8
154255

42188,08140,8
55140,8219

[X 'X ]
644444
7444448
0

1,36

0,092
0,282

1 = 0,0920,0160,013

0,2820,0130,067
2

0
8,07

1 = 32,063

28,96
2

X 'Y
647
4
8
8,07

32,063
28,96

0
0,16

1 = 0,149 Y = 0,16 + 0,149 X1 + 0,077 X2 + Re siduo (Modeloregresinlineal)



0,077
2

SantiagodelaFuenteFernndez

11

RegresinLinealMltiple

Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados


ui = Yi Yi alasobservacionesmuestrales.Deestemodo,paralaprimeraobservacin

( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ),setiene:

Y = 0,16 + 0,149 (2,1) + 0,077 (3) = 0,3839

u1 = Y1 Y1 = 0,43 0,3839 = 0,0461


Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:
Predicciones: Yi
0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566

Residuos: ui = Yi Yi
0,046
0,002
0,039
0,074
0,178
0,026
0,050
0,084
0,107
0,002
0,023
0,009
0,086
0,033
0,023

u2i = (Yi Yi ) 2
0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005

dedonde,lasumade
cuadradosRESIDUAL,es
decir,lavariabilidaddeY
respectoalarectaajustada
ser:
15

SCR = (Y1 Y1 ) 2 = 0,0721


i=1

SR2 =

SCR
0,0721
=
= 0,006
15 2 1
12

SR =

0,006 = 0,0775

15

(Y1 Y1 ) 2 = 0,0721
i=1

INTERVALOSDECONFIANZAPARAMTROSDELMODELO (1 ) = 0,90

Intervalodeconfianzaparalavarianza

n k 1 = 15 2 1 = 12 SR2 = 0,006 SR2 = 0,0721 20,05, 12 = 21,026 20 ,95, 12 = 5,226

(n k 1) SR2 (n k 1) SR2 SCR


0,0721 0,0721
SCR
IC = 2
; 2
; 2
;
= 2

=
= [0,0034 ; 0,0138 ]


2
21,026 5,226
, (nk1)
1 , (nk1) , (nk1)
1 , (nk1)
2
2
2
2

0,0034 2 0,0138

) Lavarianzadelosestimadoresdelmodelo N , 2 [X' X ] 1 :
q i +1, i +1 elemento de [X'X ] 1

Var ( i ) = 2 [X' X ]1 SR2 [X' X ]1 = (0,006)

SantiagodelaFuenteFernndez

644474448
1,36

0,016

0,067

SR2 q i +1, i +1

644444744444
8
0,00816

0,000096
=

0,0004

12

RegresinLinealMltiple

Var(0 ) = 0,00816 = 0,00816 = 0,0903


0

dedondesededuce, Var(1 ) = 0,000096 1 = 0,000096 = 0,0098


Var( ) = 0,0004 = 0,0004 = 0,02
2

Intervalodeconfianzaparalosparmetros: IC1 (i ) = i t / 2 , (nk1) SR

0 = 0,160

2 = 0,077

1 = 0,149

q i +1, i +1

t0 ,05 , 12 = 1,782

0,00816 = [ 0,321 ; 0,001 ]

IC1 ( 0 ) = 0,160 (1,782)

IC1 (1 ) = 0,149 (1,782) 0,000096 = [ 0,1315 ; 0,1665 ] (Ingreso)

IC1 ( 2 ) = 0,077 (1,782)

0,0004 = [ 0,0414 ; 0,1126 ] (Tamao)

ContrastedeHiptesisindividualpara X 2 (tamaofamiliar)

Nosplanteamossilavariable X 2 (tamao)influyesobrelavariablederespuestaY(gastos).En
otraspalabras,sielvalordelparmetroenlapoblacinesceroono.
Paraello,seestablecelahiptesisnula H0 : 2 = 0 frentealahiptesisalternativa H1: 2 0 .

2
Elestadsticoobservado t = 2 2 ,bajolahiptesisnularesulta: t =
SR q33
SR q33
Portanto,
2 = 0,077

SR q33 = (0,0775) 0,0004 = 0,00155

Elestadsticoexperimental t =

t0 ,05 , 12 = 1,782

2
0,077
=
= 49,67
SR q33 0,00155

Siendo t > t 0 ,05 , 12 serechazalahiptesisnula,afirmando,conun90%defiabilidad,queel


nmerodemiembrosdelafamiliainfluyeenlosgastosdealimentacin.
*ObsrvesequeenelIntervalodeConfianzapara 2 : IC1 (2 ) = [ 0,0414 ; 0,1126 ] elcerono
seencuentraenelintervalo,conloqueserechazalahiptesisnula H0 : 2 = 0 ,concluyendoque
elnmerodemiembrosdelafamilia(tamao)siinfluyeenlosgastosdealimentacin(Y).

SantiagodelaFuenteFernndez

13

RegresinLinealMltiple

MODELOLINEALDEREGRESINMLTIPLE:HERRAMIENTASDESOFTWARE

EXCELYLAREGRESINMLTIPLE

Sepuedeutilizarelanlisisdelaregresinlinealmltipleparaestimarelgastodefamiliasen
alimentacin(Y)basndoseenlasvariablesX1='Ingresosmensuales'yX2='nmerodemiembrosde
lafamilia'.
ExceldisponedeanlisisdeRegresinpara
ajustarelmodeloderegresinmltiple,
simultneamenteproporcionalas
estimacionesdelosparmetros,la
contrastacinindividual,yelanlisisdelos
residuos.
EnelmenHerramientas,tenemosel
dilogoAnlisisdedatos,dondeelegimos
Regresin,obtenindoseuncuadrode
dilogoquepermiterealizarunajustepara
laregresinmltiple.

LosCamposdeEntradatienenlasfuncionalidades:
RangoYdeentrada:Introducirlareferencia
correspondientealrangodedatosdependientes.Elrango
debeestarformadoporunanicacolumna.
RangoXdeentrada:Introducirlareferencia
correspondientealrangodedatosindependientes.Excel
ordenarlasvariablesindependientesdeesterangoen
ordenascendentedeizquierdaaderecha.Elnmero
mximodevariablesindependienteses16.

SantiagodelaFuenteFernndez

14

RegresinLinealMltiple

Rtulos:Activarestacasillacuandolaprimerafilaolaprimeracolumnadelrango(orangos)deentrada
tienenrtulos.Noactivarenelcasodequeelrangodeentradacarezcadertulos.Excelgeneralos
rtulosdedatoscorrespondientesparalatabladeresultados.
Niveldeconfianza:Activarestaparaincluirmsnivelesdeconfianzaenlatabladeresmenesde
resultados.Introducirelniveldeconfianzaaaplicarademsdelnivelpredeterminadodel95%.
Constanteigualacero:Activarestacasillaparaquelalneaderegresinpaseporelorigen.
Rangodesalida:Introducirlareferenciacorrespondientealaceldasuperiorizquierdadelatablade
resultados.Dejarporlomenossietecolumnasdisponiblesparalatabladeresultadossumarios,donde
aparecen:tabladeanlisis,nmeroobservaciones,coeficientes,errortpicodelpronsticoY,valoresde
R2yerrortpicodecoeficientes.
Enunahojanueva:Hacerclicenestaopcinparainsertarunahojanuevaenellibroactualypegarlos
resultados,comenzandoporlaceldaA1delanuevahojadeclculo.Paradarunnombrealanuevahoja
declculo,anotarloenelcuadro.
Enunlibronuevo:Hacerclicparacrearunnuevolibroypegarlosresultadosenunahojanuevadellibro
creado.Sideseaincorporarlaopcingrficatienequeteclearestaopcin.
Residuos:Activarestacasillaparaincluirlosresiduosenlatabladeresultados.
Residuosestndares:Activarestacasillaparaincluirresiduosestndaresenlatabladeresultadosde
residuos.
Grficosderesiduos:Siactivaestacasillasegeneraungrficoporcadavariableindependientefrenteal
residuo.
Curvaderegresinajustada:Siactivaestacasillasegeneraungrficoconlosvalorespronosticados
frentealosvaloresobservados.
Trazadodeprobabilidadnormal:Activandoestacasillasegeneraungrficoconprobabilidadnormal.

Finalmente,conlasopcionesactivadasenlafiguraanterior,enlatabladeresultadosaparecenlos
estadsticosderegresin,cuadrodeanlisisdelavarianzadelmodelo,estimadores,contrastesde
significacindeFSnedecorydetStudentconsuspvaloresasociados,intervalosdeconfianzapara
losparmetrosyparalasprediccionesal90%y95%,yresiduos.

SantiagodelaFuenteFernndez

15

RegresinLinealMltiple

Lasiguientefigurapresentaelgrficodecadavariableindependiente(X1,X2)contralosresiduos,lo
queseutilizaparadetectarelproblemadenolinealidad,heteroscedasticidad,yautocorrelacinen
elmodelodelajuste.
Lomejoresquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.

Lafiguraadjuntapresentaelgrficopara
detectarlahiptesisdenormalidadenel
modelo.
Lagrficaidealesladiagonaldelprimer
cuadrante.

SantiagodelaFuenteFernndez

16

RegresinLinealMltiple

Lassiguientesgrficasvisualizancadavariableindependientecontralosvalorespredichos,loque
sirveparadetectarproblemasdeheteroscedasticidad.
Loidealesquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.

SPSSYLAREGRESINMLTIPLE_______________________________________________________

CondatosintroducidosenSPSS,intentamosajustarunmodelomedianteMnimosCuadrados
Ordinarios(MCO).
Paraello,seeligeenelMenAnalizar/Regresin/Lineal,comoseindicaenlafiguraadjunta.

EnelcuadrodelaRegresinlinealseintroducelavariabledependiente(Y)ylasvariables
independientesingresos(X1)ytamaofamiliar(X2).Enelbotn[Opciones]:

SantiagodelaFuenteFernndez

17

RegresinLinealMltiple

Enlasopciones[EstadsticosyGrficos],seprocedecomoapareceenlasseleccionesadjuntas.
Enelbotn[Grficos]seseleccionaresiduoscontravalorespredichos.AlpulsarAceptarseobtiene
elajustedelmodelo.

EnelVisordeSPPS,elajustedelModelo:

Respectoalaautocorrelacin,elestadsticodeDurbinWatsonde1,177nodejaclarolapresenciao
n

nodeautocorrelacin: DW =

(ui u i1 ) 2

i =2

u2i

i =1

DW 2 si = 0

2(1 ) DW 0 si = 1
DW 4 si = 1

Elanlisisdelavarianzaindicaqueelmodeloderegresinessignificativo(pvaloraproximadamente
cero,F2,12=113,141,pvalor<0,001).Portanto,serechazalahiptesisnuladequelavariabilidad
observadaenlavariablerespuestaseaexplicadaporelazar,admitiendoquehayalgntipode
asociacinentrelavariabledependienteylasindependientes.

SantiagodelaFuenteFernndez

18

RegresinLinealMltiple

ElModeloestimadosera: Y = 0,16 + 0,149 X 1 + 0,077 X 2

Enlafiguradelhistogramadelos
residuosseobservaqueseajustabien
aunadistribucinnormal.

Enlafigurasepresentaelgrficodenormalidadque
seajustamuybienaladiagonaldelprimercuadrante.

Enelgrficoderesiduostipificadoscontra
valorespredichosexistendudassobrela
aleatoriedadporquelospuntosse
concentransiguiendorectasparalelas,lo
quepermitevislumbrarproblemasde
heteroscedasticidad.

SantiagodelaFuenteFernndez

19

RegresinLinealMltiple

ANLISISDELAVARIANZA:TABLAANOVA
n

( Yi Y ) 2
Descomposicindelavariabilidad:

i=1
1
4243
SCT

suma cuadrados total


(n1) grados libertad

Variacin

SumadeCuadrados
SCE = ( Yi Y ) 2 = 1,3595

Residual

SCR = ( Yi Y i) 2 = 0,0721

Total

SCT = ( Yi Y ) 2 = 1,4316

suma cuadrados explicada


k grados libertad

SCE
= 0,6797
2

1521

SCR
= 0,006
15 2 1

151

SCT
= 0,1023
15 1

15

15

i=1

i=1
1
4243
SCE

i=1

i=1

( Yi Y ) 2

i=1
1
4243
SCR

suma cuadrados residual


(nk1) grados libertad

Gr.libertad Mediacuadrtica

15

Explicada

( Yi Y i) 2

FSnedecor
F=

SCE / 2
= 113,28
SCR /(15 2 1)

Clculos
Yi

(Yi Y) 2

Yi

u2i = (Yi Yi ) 2

(Yi Y) 2

0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38

0,011664
0,051984
0,047524
0,006084
0,506944
0,009604
0,000324
0,061504
0,565504
0,035344
0,035344
0,058564
0,011664
0,004624
0,024964

0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566

0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005

0,0237
0,0511
0,0320
0,0230
0,2849
0,0155
0,0010
0,0269
0,7381
0,0347
0,0446
0,0544
0,0005
0,0012
0,0329

Yi = 8,07

SCT = (Yi Y) 2 = 1,4316

SCR = (Yi Yi ) 2 = 0,0721

SCE = (Yi Y) 2 = 1,3646

15

i =1

15

i=1

15

i=1

15

i =1

Aunniveldeconfianza (1 ) serechazalahiptesisnula, H0 : 1 = 2 = 0 (elmodelonoes


explicativo),cuando Fk , (nk1) F ; k , (nk1)
F2 , 12 =

SCE / 2
= 113,28 > 3,8853 = F0 ,05; 2 , 12
SCR /(15 2 1)

As,pues,serechazalahiptesisnula,elcontrasteconjuntodelaFSnedecorindicaclaramentela
influenciadelmodeloenlavariablerespuesta.

SantiagodelaFuenteFernndez

20

RegresinLinealMltiple

Clculodeloscoeficientesdecorrelacin(mltipleysimple)

Estimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajusterealizado.
UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quesedefine:
n

R2 =

( Yi Y i) 2
SCE
1,3595
i=1
SCT

( Yi Y )

1,4316

= 0,9496

i=1

CoeficientedeCorrelacinmltiple: R = 0,9496 = 0,9745

CoeficientedeDeterminacincorregido
porelnmerodegradosdelibertad

R2 = 1

SCR n k 1
0,006
=1
= 0,9413
SCT n 1
0,1023

CoeficientedeCorrelacinmltiplecorregido: R = 0,9413 = 0,9702

Coeficientedecorrelacinsimpleentrelas
variables(Gasto,Ingreso):

(Gasto, Ingreso) =

Cov(Gasto, Ingreso)
= 0,9424
Gasto Ingreso

Tambinsepuedecalcularelcoeficientededeterminacindelaregresin(Gasto,Ingreso).Latabla
ANOVAdelmodeloser:

SCE 1,272
=
= 0,8882
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 = 0,9424

R2 =

Anlogamente, (Gasto, Tamao) =

Cov(Gasto, Tamao)
= 0,126
Gasto Tamao

CoeficientesdeCorrelacinparcial:

Coeficientedecorrelacinsimpleentre(Gasto,Ingreso): (Gasto, Ingreso) = 0,942


SantiagodelaFuenteFernndez

21

RegresinLinealMltiple

Coeficientecorrelacinparcialentrevariables(Gasto,Ingreso): (Gasto, Ingreso; Tamao) = 0,974


mediantelaexpresin: tingreso =

1
2
R

S . q i +1, 1 +1

0,149
= 15,05
0,000096
t2ingreso

15,052
Elcoeficientededeterminacin, R (Gasto,Ingreso; Tamao) = 2
=
= 0,9496
tingreso + n (k + 1) 15,052 + 12
2

Coeficientedecorrelacin.EstecoeficientemidelarelacinentrelasvariablesGastoeIngresolibres
delainfluenciadelavariableTamao.
Anlogamente,elCoeficientecorrelacinparcialentelasvariables(Gasto,Tamao):
(Gasto, Tamao; Ingreso) = 0,741

Estimacindelamediacondicionada

Supongamosquesetratadeestimarelgastomediodeunafamiliaconunosingresosdetreintamil
euros (X1 = 3) concuatromiembrosfamiliares (X2 = 4)
Aplicandoelmodeloderegresin: Y0 = 0,160 + 0,149 (3) + 0,077(4) = 0,595

IC E(Y0 ) = Y0 t / 2 , (nk1) SR

(1 X 1

IC E(Y0 ) = (0,595) (1,782) (0,075)

SR =

1

X2 ) (X' X) 1 X1
X
2

1,36 0,092 0,282

(1 3 4) 0,0920,0160,013
0,2820,0130,067

1

3
4

= [0,557 ; 0,633]

0,006 = 0,0775 t0 ,05; 12 = 1,782 1 = 0,90

154255

X' X = 42188,08140,8
55140,8219

[X' X]

1,36 0,092 0,282

= 0,0920,0160,013
0,2820,0130,067

1,36 0,092 0,282 1


1



(1 3 4) 0,0920,0160,013 3 = ( 0,044 0,008 0,025) 3 = 0,08
0,2820,0130,067 4
4

SantiagodelaFuenteFernndez

22

RegresinLinealMltiple

Ejercicio2.Partiendodelainformacin:

(a)
(b)
(c)
(d)

yj

x1 j

x2 j

1
3
4
6
7
10
15
16
18
20

2
1
3
4
5
8
7
9
11
12

17
15
13
10
9
8
6
5
3
4

Estimarelmodeloderegresin
Obtenerunamedidadefiabilidaddelajustelineal
QupartedelavariabilidaddeYquedaexplicadaatravsdelplanoderegresin?
Calcularloscoeficientesdecorrelacinlinealsimple

(a) Enformamatricial: Y = X + U , = [X' X ] 1 X' Y ,dondeXmatriztranspuesta


1
1217

3
1115
4
1313

6
1410
7
159

= X + U =
Y=
10
188

15
176
16
195

18
1113
20
1124

0 u1

1 + u2
u
2 3

[ ] 1 X' Y

Loscoeficientes estimadosbajolacondicinmnimocuadrtica,vienendadospor: = X' X

1 1 1 1 1 1 1 1 1 1
[X' X] = 2 1 3 4 5 8 7 9 11 12
17 15 13 10 9 8 6 5 3 4

SantiagodelaFuenteFernndez

1 2
1 1

1 3

1 4
1 5

1 8
1 7

1 9
1 11

1 12

17
15

13

10
90
10 62
9

= 62 514 405 X' X = 30294 0


8
90 405 1014
6

5
3

23

RegresinLinealMltiple

Advirtasequecuandolamatrizessingular,esdecir,cuando X' X = 0 ,noexistematrizinversay,


Enconsecuencia,lasestimacionesdeloscoeficientes quedanindeterminadas.
Estoocurreporqueexistemulticolinealidadentre X1 y X2 ,estoes,queexisteunarelacinlineal
entreestasvariables.Paraellosecalculalaregresinde X1 sobre X2 ysucorrespondiente
coeficientedecorrelacinlinealser1.
90
90 357171 26418 21150
10 62
10 62

[X' X] = 62 514 405 Adj [X' X] = Adj 62 514 405 = 26418 2040
1530
90 405 1014
90 405 1014 21150
1530
1296

[X' X]

90
10 62
1

= 62 514 405 =
30294
90 405 1014

357171 26418 21150 11,7902


26418
2040
1530 = 0,8721

21150
1530
1296 0,6982

1 1 1 1 1 1 1 1 1 1
Deotraparte, [X' Y ] = 2 1 3 4 5 8 7 9 11 12

17 15 13 10 9 8 6 5 3 4

0
1
= 1 = [X' X ] 1 X' Y =
30294
2

0,8721
0,0673
0,0505

0,6982
0,0505
0,0428

1
3

4

6 100
7
= 843
10 621
15

16
18

20

357171 26418 21150 100 10,32


26418
2040
1530 843 = 0,93

21150
1530
1296 621 0,67

Elmodeloderegresinser: y = 10,32 + 0,93 x1 0,67 x 2

Tambinsepodahaberrealizadoteniendoencuentalasecuacionesnormalesmnimo
cuadrticas:
10 Y = N + 10 X + 10 X
i
0
1 1i
2 2i

i=1
i=1
i=1
10
10
10
10

ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i


i=1
i=1
i=1
i=1
10
10
10
10

2
X
Y
X
X
X
=

i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i


Conestosdatos,seobtiene:

SantiagodelaFuenteFernndez

24

RegresinLinealMltiple
TablaI
Yi

X1i

X2i

Yi2

X12i

1
3
4
6
7
10
15
16
18
20

2
1
3
4
5
8
7
9
11
12

17
15
13
10
9
8
6
5
3
4

1
9
16
36
49
100
225
256
324
400

100

62

90

1416

X1i X2i

X1i Yi

X2i Yi

4
1
9
16
25
64
49
81
121
144

X22i
289
225
169
100
81
64
36
25
9
16

34
15
39
40
45
64
42
45
33
48

2
3
12
24
35
80
105
144
198
240

17
45
52
60
63
80
90
80
54
80

514

1014

405

843

621

10 0 + 62 1 + 90 2 = 100

10
10
10
10

conlocual, X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i 62 0 + 514 1 + 405 2 = 843


i=1
i=1
i=1
i=1

90 0 + 405 1 + 1014 2 = 621


10
10
10
10
2
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i
i=1
i=1
i=1
i=1

10

10

10

i=1

i=1

i=1

Yi = N0 + 1 X1i + 2 X2i

enformamatricial,
X 'X
64447
444
8
106290

62514405
904051014

[X 'X ]
6444444
4
74444444
8

0
357171 26418 21150

1

1 =
26418
2040
1530


30294
1530
1296
2
21150

1

0
100

1 = 843

621
2

X 'Y
67
8
100

843
621

0
10,32

= 0,93 Y = 10,32 + 0,93 X 0,67 X + Re siduo (Modeloregresinlineal)
1
2

2
0,67

(b) Lafiabilidaddelajustesereflejamediante R2 coeficientededeterminacinlineal:
Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados
ui = Yi Yi alasobservacionesmuestrales.
Deestemodo,paralaprimeraobservacin( Y1 = 1 ; X11 = 2 ; X21 = 17 ),setiene:

Y1 = 10,32 + 0,93 (2) 0,67 (17) = 0,79

u1 = Y1 Y1 = 1 0,79 = 0,21
Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:

SantiagodelaFuenteFernndez

25

RegresinLinealMltiple
Yi

Yi

ui = Yi Yi

(Yi Y) 2

u2i = (Yi Yi ) 2

(Yi Y) 2

1
3
4
6
7
10
15
16
18
20
100

0,79
1,2
4,4
7,34
8,94
12,4
12,81
15,34
18,54
18,8

0,21
1,8
0,4
1,34
1,94
2,4
2,19
0,66
0,54
1,2

81
49
36
16
9
0
25
36
64
100
416

0,0441
3,24
0,16
1,7956
3,7636
5,76
4,7961
0,4356
0,2916
1,44
21,7266

84,8241
77,44
31,36
7,0756
1,1236
5,76
7,8961
28,5156
72,9316
77,44
394,3666

10

SCT = (Yi Y) 2 = 416


i=1

10

SCR = (Y1 Y1 ) 2 = 21,7266


i=1

10

SCE = (Yi Y) 2 = 394,3666


i=1

10

R2 =

( Yi Y i) 2
SCE
394,3666
i=1
SCT

10

( Yi Y ) 2

416

= 0,948 coeficientededeterminacinlineal

i=1

Coeficientededeterminacinlinealcorregidopor
elnmerodegradosdelibertad

R2 = 1

SCR n k 1
21,7266 / 7
=1
= 0,933
SCT n 1
416 / 9

(c) LapartedevariabilidadcontenidaenYquequedaexplicadaporelmtodoesprecisamente
R2 = 0,948 = 94 ,8% ,queessuficientementealta.
(d) Paracalcularloscoeficientesdecorrelacinlinealsimple,serecurrealatablaI,paracalcular
medias,varianzasycovarianzas
10

y=

yi 100
i=1
N

10

10

= 10

2y =

y2i
i=1

10

x1 =

x1i 62
i=1
N

10

x2 =

10

1416
102 = 41,6
10

10

= 6,2

2x1 =

10

x2i 90
i=1

y2 =

x12i
i=1

x12 =

514
6,22 = 12,96
10

x22 =

1014 2
9 = 20,4
10

10

=9

2x2 =

x22i
i=1

10

m1y =

x 1i y i
i=1

x1 y =

843
(6,2).10 = 22,3
10

x2 y =

621
9 .10 = 27,9
10

10

m2 y =

x 2i y i
i=1

N
10

m12 =

x 1i x 2 i
i=1

x1 x2 =

405
(6,2). 9 = 15,3
10

SantiagodelaFuenteFernndez

26

RegresinLinealMltiple

Loscoeficientesdecorrelacinlinealsimplesern:
r1y =
r2 y =
r12 =

m1y
x 1 y
m2 y
x 2 y

22,3
= 0,96
12,96 41,6

27,9
= 0,96
20,4 41,6

15,3
m12
=
= 0,94
x 1 x 2
12,96 20,4

PrcticaenSPSS____________________________________________________________________

EnelVisordeSPSS,sereflejanlosresultados:

SantiagodelaFuenteFernndez

27

RegresinLinealMltiple

Ejercicio3.Elgerentedeunaempresaestudialasposiblesrelacionesentrebeneficiosanuales,
gastosenpublicidadanualesyhorasextraordinariasanualesdelosempleados.Paraelloutiliza
datos,deestastresvariables,proporcionadasporalgunasempresasdelsector.Sedeseasaber:

Beneficios
(millones)
1,3
3,5
2,8
3
3,3
4
3,7

GastosPublicidad
(millones)
0,3
1,5
0,7
1,1
1,2
2
2

Horasextras
(100horas)
4
9
6
7,5
8
7
8

a) Matrizdevarianzascovarianzas.
b) Matrizdecorrelacin.
c) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelosgastosen
publicidad?
d) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelashoras
extraordinariasanualesdelosempleados?
e) Establecerunarelacinlinealqueexpliqueanualmentelosbeneficiosmediantelosgastosen
publicidadyhorasextras.
f) Hallarelcoeficientedecorrelacinmltiple.Quporcentajedelavarianzadebeneficiosqueda
explicadoporelmodelolinealobtenidoenelapartadoanterior?
g) Siunaempresadestina900.000eurosapublicidadysusempleadosrealizan500horas
extraordinariasalao,culseralaestimacindelosbeneficiosdedichaempresa?
h) Coeficientesdecorrelacinparcialdebeneficioscongastosenpublicidadydebeneficioscon
horasextrasdelosempleados.
g)Coeficientedecorrelacinmltiple.
SantiagodelaFuenteFernndez

28

RegresinLinealMltiple

a) Lamatrizdevarianzascovarianzasvienedefinida: VC = Sx 1 y
Sx y
2
2
y

Yi

X1i

X2i

Yi2

X12i

1,3
3,5
2,8
3
3,3
4
3,7
21,6

0,3
1,5
0,7
1,1
1,2
2
2
8,8

4
9
6
7,5
8
7
8
49,5

1,69
12,25
7,84
9
10,89
16
13,69
71,36

0,09
2,25
0,49
1,21
1,44
4
4
13,48

y=

= 3,0857 2y =

y2i

x1 =

x1i 8,8
i=1
=

= 1,2571 2x1 =

x2i 49,5
i=1
=

Yi X1i

Yi X2i

X1i X2i

0,39
5,25
1,96
3,3
3,96
8
7,4
30,26

5,2
31,5
16,8
22,5
26,4
28
29,6
160

1,2
13,5
4,2
8,25
9,6
14
16
66,75

S yx 2

Sx 1 x 2
2x2

S yx 1 = Sx 1 y
S = S
x2y
yx 2
Sx x = Sx x
2 1
1 2

Tablaoperaciones

i=1

y2 =

71,36
3,08572 = 0,6727
7

x2 =

Sx 2 x 1
2
x1

yi 21,6
i=1
=

X22i
16
81
36
56,25
64
49
64
366,25

S yx 1

x12i
i=1

x12 =

13,48
1,25712 = 0,3454
7

x22 =

366,25
7,07142 = 2,3167
7

= 7,0714 2x2 =

x22i
i=1

S yx 1 =

yi x1i
i=1

y x1 =

30,26
(3,0867).(1,2571) = 0,4438
7

y x2 =

160
(3,0867).(7,0714) = 1,0369
7

S yx 2 =

y i x 2i
i=1

N
7

Sx 1 x 2 =

x1i x2i
i=1

x1 x2 =

66,75
(1,2571). (7,0714) = 0,6462
7

0,6727 0,4438 1,0369


Enconsecuencia,lamatrizdevarianzascovarianzas: VC = 0,4438 0,3454 0,6462
1,0369 0,6462 2,3167

b)Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
1
ryx 1 ryx 2
ryx 1 = rx 1 y

Rx = rx 1 y 1
rx 1x 2 donde ryx 2 = rx 2 y
rx x = rx x
rx y rx x
1
2 1
1 2
2 1
2
ryx 1 =

S yx 1
y x 1

S yx 2
0,4438
1,0369
= 0,9207 ryx 2 =
=
= 0,8306
y x 2
0,6727 0,3454
0,6727 2,3167

SantiagodelaFuenteFernndez

29

RegresinLinealMltiple

rx 1 x 2 =

Sx 1 x 2
x 1 x 2

0,6462
= 0,7224
0,3454 2,3167

0,9207 0,8306
1
Portanto,lamatrizdelascorrelacionesser: Rx = 0,9207
1
0,7224
0,8306 0,7224
1

NOTA.Enlaregresinlinealmltiplesurgeelproblemadequeexistaunacorrelacinlinealsimple
perfectaentredos(omsvariables)explicativas,yaqueestoimplicaqueuna(oms)columna(s)de
lamatrizXdeobservacionessoncombinacinlinealdeotra(s),conloqueelrangodeestamatrizX
sereduce.

Enunprincipioelrangode [X' X ]esp(nmerodevariablesexplicativas),perosiexistealguna


combinacinlinealentrelascolumnasdeX,entonceselrangoesmenorquep,conloqueel
determinantede X' X = 0 ,loqueimpidecalcularlamatrizinversa [X' X ] 1 ,yenconsecuenciael
vectordecoeficientes = [X' X ] 1 X' Y quedaindeterminado.

Analizandolamatrizdelascorrelaciones Rx sedecidesiexisteonomulticolinealidad:

S Rx = 0 a Existemulticolinealidad
S Rx 0 a Existecuasimulticolinealidadomulticolinealidadimperfecta

Encasodemulticolinealidadserequieremodificarelmodeloorealizaralgntipodetransformacin
quelaelimine.
c) Serequierehallarelcoeficientededeterminacinentre (Y , X1 ) : R2yx 1 = ryx2 1 = 0,92072 = 0,8477
Esdecir,el84,77%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdel
gastoenpublicidad (X1 )
d) Serequierehallarelcoeficientededeterminacinentre (Y , X2 ) : R2yx 2 = ryx2 2 = 0,83062 = 0,6899
Esdecir,el68,99%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdelas
horasextrasdelosempleados (X2 )
e) Hayquedeterminarelplanoderegresindelosbeneficios(Y)sobreelgastoenpublicidad (X1 ) y
lashorasextrasdelosempleados (X2 )
Yi = 0 + 1 X1i + 2 X2i
Setienecomoreferencialamatrizdelasvarianzascovarianzas:
2y

VC = Sx 1 y
Sx y
2

S yx 1

2x1
Sx 2 x 1

SantiagodelaFuenteFernndez

S yx 2 0,6727 0,4438 1,0369

Sx 1x 2 = 0,4438 0,3454 0,6462


2x2 1,0369 0,6462 2,3167

30

RegresinLinealMltiple

Loscoeficientes ( 1 , 2 ) ,respectivamente,consignonegativo () ,vienendadosporelcocientede


losadjuntos (S yx 1 , S yx 2 ) entreeladjuntode 2y :
1 =
0,4438
1,0369
1 = ()
0,3454
0,6462

VC yx 1
VC y

2 =

VC yx 2
VC y

0 = Y 1 X1 2 X2

0,6462
2,3167 0,3581
=
= 0,9360 2 = ()
0,6462 0,3826
2,3167

0,4438
1,0369
0,3454
0,6462

0,3454
0,6462
0,0714
=
= 0,1866
0,6462
0,3826
2,3167

0 = Y 1 X1 2 X2 = 3,0857 (0,9360)(1,2571) (0,1866)(7,0714) = 0,5895

Laecuacindelplanoderegresines: Y = 0,5895 + 0,936 X1 + 0,1866 X2

Otraformadeenfocarlasituacin,desdelaTabladeoperaciones,mediantelasecuacionesMCO:

7
7
7
N0 + 1 X1i + 2 X2i = Yi
i=1
i=1
i=1
7 0 + 8,8 1 + 49,5 2 = 21,6

7
7
7
7

2
conlocual, 0 X1i + 1 X1i + 2 X1i X2i = X1i Yi 8,8 0 + 13,48 1 + 66,75 2 = 30,26
i=1
i=1
i=1
i=1

49,5 0 + 66,75 1 + 366,25 2 = 160


7
7
7
7

2
0 X2i + 1 X1i X2i + 2 X2i = X2i Yi
i=1
i=1
i=1
i=1

enformamatricial,
X 'X
644447
44448
7 8,8 49,5

8,8 13,48 66,75


49,566,75 366,25

[X 'X ]
6444444
7444444
8

0,6181 0,6085
0 21,6
0 3,6687

0,8648 0,2412
1 = 30,26 1 = 0,6181

160
0,1289
2 0,6085 0,2412

2

1

X 'Y
6
47
4
8
21,6

30,26
160

0
0,5895

= 0,9360 Y = 0,5895 + 0,936 X + 0,1866 X (Modeloregresinlineal)
1
2

1
0,1866
2

Conelmodeloderegresin,apartirdelaecuacin, Y = 0,5895 + 0,936 X1 + 0,1866 X2 ,seobtienen
lasprediccionesyresiduosasociados ui = Yi Yi alasobservacionesmuestrales.
Deestemodo,paralaprimeraobservacin( Y1 = 1,3 ; X11 = 0,3 ; X21 = 4 ),setiene:

Y1 = 0,5895 + 0,936 (0,3) + 0,1866 (4) = 1,6167

u1 = Y1 Y1 = 1,3 1,6167 = 0,3167

SantiagodelaFuenteFernndez

31

RegresinLinealMltiple

Considerandotodoslospuntosmuestrales,seobtiene:
Yi

X1i

X2i

Yi

ui = Yi Yi

1,3
3,5
2,8
3
3,3
4
3,7
21,6

0,3
1,5
0,7
1,1
1,2
2
2
8,8

4
9
6
7,5
8
7
8
49,5

1,6167
3,6729
2,3643
3,0186
3,2055
3,7677
3,9543

0,3167
0,1729
0,4357
0,0186
0,0945
0,2323
0,2543

(Yi Y) 2 u2i = (Yi Yi ) 2 (Yi Y) 2


3,1887
0,1003
2,1580
0,1716
0,0299
0,3448
0,0816
0,1898
0,5204
0,0073
0,0003
0,0045
0,0459
0,0089
0,0144
0,8359
0,0540
0,4651
0,3774
0,0647
0,7545
4,7086
0,4479
4,2616

SCT = (Yi Y) 2 = 4 ,7086


i=1
7

SCR = (Y1 Y1 ) 2 = 0 ,4479


i=1

SCE = (Yi Y) 2 = 4 ,2616


i=1

( Yi Y i) 2
SCE
4 ,2616
i=1
R =
= 7
=
= 0,9051 coeficientededeterminacinlineal
SCT
( Y Y ) 2 4 ,7086
2

i=1

SR2 =

SCR
0,4479
=
= 0,112 varianzaresidual
n k 1
4

Coeficientededeterminacinlinealcorregido
porelnmerodegradosdelibertad

R2 = 1

SCR n k 1
0,4479 / 4
=1
= 0,8573
SCT n 1
4 ,7086 / 6

h) ElcoeficientedecorrelacinparcialentrelosBeneficios(Y)yelGastoenPublicidad (X1 ) sepuede


obtenermediantelaexpresin:
ryx 1 .x 2 =

VC yx 1
VC yy VCx 1x 1

VCij sonlosadjuntosdelamatrizdelasvarianzascovarianzas:
2y

VC = Sx 1 y
Sx y
2
VC yx 1 =

VC yy =

S yx 1

Sx 2 x 1
2
x1

S yx 2 0,6727 0,4438 1,0369

Sx 1x 2 = 0,4438 0,3454 0,6462


2x2 1,0369 0,6462 2,3167

0,4438 0,6462
= 0,3581
1,0369 2,3167

0,3454 0,6462
0,6727 1,0369
= 0,3826 VCx 1x 1 =
= 0,4833
0,6462 2,3167
1,0369 2,3167

ElcoeficientedecorrelacinparcialentreYe X1: ryx 1 .x 2 =

SantiagodelaFuenteFernndez

VC yx 1
VC yy VCx 1x 1

0,3581
= 0,833
(0,3826)(0,4833)

32

RegresinLinealMltiple

# ElcoeficientedecorrelacinparcialentrelosBeneficios(Y)yelGastoenPublicidad (X1 ) sepuede


obtenertambinmediantelaexpresin:
ryx 1 ryx 2 rx 1 x 2

ryx 1 .x 2 =

(1 ryx2 2 )(1 rx21x 2 )

1
ryx 1

Rx = rx 1 y 1
correlacionessimples Rx delavariableexplicativa
rx y rx x
2 1
2

Dondelos rij sonloselementosdelamatrizde

conlocual, ryx 1 .x 2 =

ryx 1 ryx 2 rx 1 x 2
(1 r )(1 r
2
yx 2

Anlogamente, ryx 2 .x 1 =

2
x1x 2

0,9207 (0,8306)(0,7224)
(1 0,83062 )(1 0,72242 )

ryx 2 ryx 1 rx 2 x 1
(1 r )(1 r
2
yx 1

2
x 2x1

0,9207 0,8306
ryx 2 1

1
0,7224
rx 1x 2 = 0,9207
1
1 0,8306 0,7224

= 0,833

0,8306 (0,9207)(0,7224)
(1 0,92072 )(1 0,72242 )

= 0,613

# Tambin,losCoeficientesdecorrelacinparcialsecalculanmediantelaexpresin:

ti =

R2 (Y , X1 ; X2 ) =

SR2 . q i +1 , 1 +1

t2i
coeficientededeterminacinparcial
t2i + n (k + 1)

setena:

tgastos _ publi =

1
2
R

S . q i +1, 1 +1

0,936
= 3,0075
(0,112) (0,8648)

Elcoeficientededeterminacinparcial:
ryx2 1 .x 2 = R2 (Beneficios , Gastos _ Publi;Horas extras) =

t2gasto _ publi
t2gasto _ publi + n (k + 1)

3,00752
= 0,6933
3,00752 + 4

Elcoeficientedecorrelacinparcial:

ryx 1 .x 2 = R(Beneficios , Gastos _ Publi;Horas extras) = 0,6933 = 0,833

Anlogamente, thoras _ extras =

SantiagodelaFuenteFernndez

2
2
R

S . q i +1, 1 +1

0,1866
= 1,5530
(0,112) (0,1289)

33

RegresinLinealMltiple

Elcoeficientededeterminacinparcial:
= R (Beneficios ,Horas extras; Gastos _ Publi) =

2
yx 2 . x 1

2
thoras
_ extras

1,5532
= 0,37615
2
thoras
1,5532 + 4
_ extras + n (k + 1)
=

Elcoeficientedecorrelacinparcial:

ryx 2 .x 1 = R(Beneficios ,Horas extras; Gastos _ Publi) = 0,37615 = 0,6133


f) ElCoeficientedecorrelacinmltiplevienedefinidopor:
ryx2 1 x 2 = 1

CV

R2 = ryx2 1x 2 =

2y C yy

2y

matrizdevarianzascovarianzas: VC = Sx 1 y
Sx y
2

S yx 1

Sx 2 x 1
2
x1

ryx2 1 + ryx2 2 2ryx 1 ryx 2 rx 1x 2


1 rx21x 2

S yx 2 0,6727 0,4438 1,0369

Sx 1x 2 = 0,4438 0,3454 0,6462


2x2 1,0369 0,6462 2,3167

0,6727 0,4438 1,0369

0,3454 0,6462
= 0,3826
CV = 0,4438 0,3454 0,6462 = 0,0245 VC yy =
0,6462 2,3167
1,0369 0,6462 2,3167
ryx2 1x 2 = R2 = 1

R =r
2

2
yx 1 x 2

CV
C yy
2
y

=1

0,0245
= 0,905 ,obien,
(0,6727)(0,3826)

ryx2 1 + ryx2 2 2ryx 1 ryx 2 rx 1x 2


1 rx21x 2

SantiagodelaFuenteFernndez

0,92072 + 0,83062 2. 0,9207. 0,8306. 0,7224


= 0,905
1 0,72242

34

RegresinLinealMltiple

GuaPrcticaenSPSS________________________________________________________________

Estimaciones

Ofrecelasestimacionesdeloscoeficientesderegresinparcialnoestandarizados(B)y
estandarizados(Beta),juntoconlaspruebasdesignificacinindividualesparacontrastarlas
hiptesisdequeelvalorpoblacionaldeesoscoeficientesescero.

Enlacolumnaencabezadapor[Coeficientesnoestandarizados]seencuentranloscoeficientes i
queformanpartedelaecuacinenpuntuacionesdirectas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)
Estoscoeficientesnoestandarizadosseinterpretanenlostrminosyaconocidos.Sealarqueestos
coeficientesnosonindependientesentres.Dehecho,recibenelnombredecoeficientesen
regresinparcialporqueelvalorconcretoestimadoparacoeficienteseajustateniendoencuentala
presenciadelrestodevariablesindependientes.Conviene,portanto,interpretarlosconcautela.
Elsignodelcoeficientederegresinparcialdeunavariablepuedenoserelmismoqueeldel
coeficientedecorrelacinsimpleentreesavariableyladependiente.Estoseproducealosajustes
quesellevanacaboparaobtenerlamejorecuacinposible.Aunqueexistendiferentes
explicacionesparajustificarelcambiodesignodeuncoeficientederegresin,unadelasquedeben
SantiagodelaFuenteFernndez

35

RegresinLinealMltiple

desermsseriamenteconsideradaseslaqueserefierealapresenciadeunaltogradodeasociacin
entrealgunadelasvariablesindependientes(Colinealidad).
# LosCoeficientesBetaestnbasadosenlaspuntuacionestpicasy,portanto,sondirectamente
comparablesentres.Indicanlacantidaddecambio,enpuntuacionestpicas,queseproducirenla
variabledependienteporcadacambiodeunaunidadenlacorrespondientevariableindependiente
(manteniendoconstanteselrestodevariablesindependientes).

Estoscoeficientesproporcionanunapistamuytilsobrelaimportanciarelativadecadavariable
independienteenlaecuacinderegresin.Engeneral,unavariabletienetantomspeso
(importancia)enlaecuacinderegresincuantomayor(envalorabsoluto)essucoeficientede
regresinestandarizado.
ObservandoloscoeficientesBetadelejercicio,lavariableGastos_Publicidadeslamsimportante.
# Pruebasdesignificacin

Laspruebastysusnivelescrticos(ltimasdoscolumnasdelatabla)sirvenparacontrastarla
hiptesisnuladequeuncoeficientederegresinvale0enlapoblacin.Nivelescrticos(Sig)muy
pequeos(generalmentemenoresque0,05)indicanquedebemosrechazarlahiptesisnula.
Uncoeficientedeceroindicaausenciaderelacinlineal,demodoqueloscoeficientes
significativamentedistintosdeceroinformansobrequvariablessonrelevantesenlaecuacinde
regresin.

Observandoelnivelcrticoasociadoacadapruebat,lasdosvariablesutilizadas
(Gastos_Publicidad,Horas_extras)tienencoeficientessignificativamentedistintosdecero(en
todas,Sig<0,05).Portanto,lasdosvariablesindependientescontribuyensignificativamentea
explicarloqueocurreconlavariabledependiente(Beneficios).

Ajustedelmodelo

Muestraelcoeficientedecorrelacinmltiple,sucuadradocorregidoynocorregido,yelerrortpico
delosresiduos.TambinincluyelatablaresumendeANOVA,quecontienealestadsticoFdeFisher
Snedecorparacontrastarlahiptesisnuladequeelcoeficientedecorrelacinmltiple Ryx 1x 2 = 0
R2 = 0,905 coeficientedeterminacinmltiple
R 2 = 0,905 coeficientedeterminacinmltiple
corregido

ElestadsticoFcontrastalahiptesisnuladeque
elvalorpoblacionalde Ryx 1x 2 escero.

Enconsecuencia,permitedecidirsiexisterelacinlinealsignificativaentrelavariabledependientey
elconjuntodevariablesindependientestomadasjuntas.
Elvalordeunnivelcrtico(Sig<0,05)indicaqueexisterelacinlinealsignificativa,pudiendoafirmar
queelhiperplanodefinidoporlaecuacinderegresinofreceunbuenajustealanubedepuntos.
SantiagodelaFuenteFernndez

36

RegresinLinealMltiple

SCE = 7 (Y Y) 2 = 4 ,261 gl = k = 2
i

i=1
7

Enestecaso, SCR = (Y1 Y1 ) 2 = 0,448 gl = n k 1 = 7 2 1 = 4


i=1

7
SCT = (Yi Y) 2 = 4 ,709 gl = n 1 = 7 1 = 6

i=1
7

R2 =

( Yi Y i) 2
SCE
i=1
SCT

( Yi Y ) 2

4 ,261
= 0,905 coeficientededeterminacinmltiple
4 ,709

i=1

SR2 =

SCR
0,448
=
= 0,112 varianzaresidual
nk 1
4

R2 = 1

F=

0,448 / 4
SCR n k 1
=1
= 0,857 coeficientededeterminacinmltiplecorregido
SCT n 1
4 ,709 / 6

SCE k
4 ,261 / 2
=
= 19,023 estadsticoobservadoFdeFisherSnedecor
SCR n k 1 0,448 / 4

AdvirtaselarelacinentreelcoeficientededeterminacinmltipleyelestadsticoF:
2
0,905
n k 1 R
F =
=2
= 19,023

(1 0,905)
k 1 R

H0 : 1 = 2 = 0

ContrastedelaHiptesisnula
19,023 > 6,9443 = F0 ,05; 2 ,4
Se
rechaza
H
si
F
F

;
k
,
(
n

1
)

Intervalosdeconfianza

Situadosenlatabla[Coeficientesderegresin],permitiendoqueademsdeobtenerunaestimacin
puntualdeloscoeficientesderegresinparcial,sepuedaobtenerelintervalodeconfianzapara
estoscoeficientes.
Estosintervalosinformansobreloslmitesenqueseencuentraelvalorpoblacionaldecada
coeficiente.Loslmitesseobtienensumandoyrestando1,96(SPSStrabajapordefectoconunnivel
designificacin0,95)errorestpicosalvalordelcorrespondientecoeficientederegresin.
Unaamplitudgrandeenlosintervalosdeconfianzaindicaquelasestimacionesobtenidassonpoco
precisasy,probablemente,inestables(coasquepuedeocurrir,porejemplo,cuandoexisten
problemasdecolinealidad).

SantiagodelaFuenteFernndez

37

RegresinLinealMltiple

Matrizdecovarianzas

Muestraunamatrizconlascovarianzasycorrelacionesexistentesentreloscoeficientesderegresin
parcial.

Descriptivos

Ofrecelamediayladesviacintpicadecadavariableyelnmerodecasosutilizadosenelanlisis.
Adems,ofrecelamatrizdecorrelacionesentreelconjuntodevariablesutilizadasenelanlisis,
Enlamatrizdecorrelaciones,cadacoeficientedecorrelacinapareceacompaadodesu
correspondientenivelcrtico(quepermitedecidirsobrelahiptesisdequeelcoeficientede
correlacinvale0enlapoblacin)ydelnmerodecasossobreelquesehacalculadocada
coeficiente.
Lgicamente,enladiagonaldelamatrizdecorrelacionesaparecenunos,pueslarelacinentre
unavariableyellamismaesperfecta.

SantiagodelaFuenteFernndez

38

RegresinLinealMltiple

Correlacionesparcialysemiparcial

Estaopcinpermiteobtenerloscoeficientesdecorrelacinparcialysemiparcialentrelavariable
dependienteycadavariableindependiente
Uncoeficientedecorrelacinparcialexpresaelgradoderelacinexistenteentredosvariablestras
eliminardeambaselefectodebidoatercerasvariables.Esdecir,loscoeficientesdecorrelacin
parcialexpresanelgradoderelacinexistenteentrecadavariableindependienteylavariable
dependientetraseliminardeambaselefectodebidoalrestodevariablesindependientesincluidas
enlaecuacin.
Uncoeficientedecorrelacinsemiparcialexpresaelgradoderelacinexistenteentredosvariables
traseliminardeunadeellaselefectodebidoatercerasvariables.Esdecir,estoscoeficientes
expresanelgradoderelacinexistenteentrelavariabledependienteylapartedecadavariable
independientequenoestexplicadaporelrestodevariablesindependientes.

Conloscoeficientesdecorrelacinparcialysemiparcial,aparecenlascorrelacionesdeordencero,es
decir,loscoeficientesdecorrelacincalculadossintenerencuentalapresenciadetercerasvariables
(setratadelosmismoscoeficientesqueaparecenenlatablaanteriordecorrelaciones).
Comparandoentresestoscoeficientes(deordencero,parcialysemiparcial),pueden
encontrarsepautasderelacininteresantes:Enlosdatosdelatablaseobserva,porejemplo:

LarelacinentrelavariabledependienteBeneficiosylavariableindependiente
Gastos_Publicitariosvale0,921.

Aleliminardelasvariables(Beneficios,Gastos_Publicitarios)elefectoatribuiblealas
Horas_extras,larelacinbajaa0,833(parcial).

CuandoelefectoatribuibleaHoras_extrasseeliminaslodelavariableBeneficios,larelacin
bajaa0,464(semiparcial).

Anlisisqueindicaquelarelacinentrelasvariables(Beneficios,Horas_extras)tienemuchomenor
pesoenlarelacin.

Colinealidad

Existeunacolinealidadperfectacuandounadelasvariablesindependientesserelacionadeforma
perfectamentelinealconunaomsdelrestodelasvariablesindependientesdelaecuacin.
Sedicequeexisteunacolinealidadparcial,osimplemente,colinealidad,cuandoentrelasvariables
independientesdeunaecuacinexistencorrelacionesaltas.
SantiagodelaFuenteFernndez

39

RegresinLinealMltiple

Lacolinealidadesunproblema,porqueenelcasodecolinealidadperfecta,noesposibleestimarlos
coeficientesdelaecuacinderegresin;yenelcasodecolinealidadparcial,aumentaeltamaode
losresiduostipificadosyestoproducecoeficientesderegresinmuyinestables(pequeoscambios
enlosdatos,comoquitaroaadiruncaso,producecambiosmuygrandesenloscoeficientesde
regresin).Estaesunadelasrazonesdeencontrarseconcoeficientesconsignocambiado:
<correlacionespositivaspuedentransformarseencoeficientesderegresinnegativos(incluso
significativamentenegativos)>.Curiosamente,lamedidadeajuste R2 nosealteraporlapresencia
decolinealidad,perolosefectosatribuidosalasvariablesindependientespuedenserengaosos.
Alevaluarlaexistenciaonodecolinealidad,ladificultadestribaendeterminarculeselgrado
mximoderelacinpermisibleentrelasvariablesindependientes.Sobreestacuestinnoexisteun
consensogeneralizado,aunquepuedeservirdegualapresenciadeindiciosquesepueden
encontrarenlosresultadosdeunanlisisderegresin(aunqueestosindiciospuedentenersu
origenenotrascausas):

ElestadsticoFqueevalaelajustegeneraldelaecuacinderegresinessignificativo,perono
loesningunodeloscoeficientesderegresinparcial.

Loscoeficientesderegresinparcialestandarizados(coeficientesBeta)estninfladostantoen
positivocomoennegativo(almismotiempo,adoptanvaloresmayoresque1ymenoresque1)

Existenvaloresdetoleranciapequeos(prximosa0,01).Latoleranciadeunavariable
independienteeslaproporcindevarianzadeesavariablequenoestasociada(queno
depende)delrestodevariablesindependientesincluidasenlaecuacin.Porejemplo,una
variableconunatoleranciade0,01esunavariablequecomparteel99%desuvarianzaconel
restodevariablesindependientes,loquesignificaquesetratadeunavariableredundantecasi
porcompleto.

Loscoeficientesdecorrelacinestimadossonmuygrandes(porencimade0,90envalor
absoluto).

SPSSofrecelaposibilidaddeobteneralgunosestadsticosquepuedenayudaradiagnosticarla
presenciadecolinealidad.Setratadeestadsticosorientativosque,aunquepuedenservirdeayuda
paradeterminarsiexistemayoromenorgradodecolinealidad,nopermitentomarunadecisin
clarasobrelapresenciaonodecolinealidad.
Losestadsticosdecolinealidadserecogenenlatabladecoeficientesderegresinparcialya
analizadaanteriormente,peroahoracontieneninformacinadicionalsobrelosnivelesdetolerancia
ysusinversos(FIV).

Elniveldetoleranciadeunavariableseobtienerestandoa1elcoeficientededeterminacin
mltiple (1 R2 ) queresultaalregresaresavariablesobreelrestodevariablesindependientes.
Valoresdetoleranciamuypequeosindicanqueesavariablepuedeserexplicadaporuna
combinacinlinealdelrestodevariables,loquesignificaqueexistecolinealidad.
SantiagodelaFuenteFernndez

40

RegresinLinealMltiple

Losfactoresdeinflacindelavarianza(FIV)sonlosinversosdelosnivelesdetolerancia.Reciben
estenombreporquesonutilizadosenelclculodelasvarianzasdeloscoeficientesderegresin.
CuantomayoreselFIVdeunavariable,mayoreslavarianzadelcorrespondientecoeficientede
regresin.Deah,queunodelosproblemasdelapresenciadecolinealidad(toleranciaspequeas,
FIVsgrandes)sealainestabilidaddelasestimacionesdeloscoeficientesderegresin.
LasiguientetabladelVisordeSPSSmuestralasolucinresultantedeaplicarunanlisisde
componentesprincipalesalamatrizestandarizadanocentradadeproductoscruzadosdelas
variablesindependientes:

LosAutovaloresinformansobrecuntasdimensionesofactoresdiferentessubyacenenelconjunto
devariablesindependientesutilizadas.
Lapresenciadevariosautovaloresprximosaceroindicaquelasvariablesindependientesestn
muyrelacionadasentres(colinealidad).Enestecaso,noexisteelproblema.
Losndicesdecondicinsonlarazcuadradadelcocienteentreelautovalormsgrande(2,889)y
cadaunodelrestodelosautovalores(porejemplo, 2,889 0,097 = 5,453 ).
Encondicionesdenocolinealidad,estosndicesnodebensuperarelvalorde15.ndicesmayores
que15indicanunposibleproblema,ndicesmayoresque30informandeunserioproblemade
colinealidad.
LasProporcionesdelavarianzarecogenlaproporcindevarianzadecadacoeficientederegresin
parcialqueestexplicadaporcadadimensinofactor.Encondicionesdenocolinealidad,cada
dimensin(factor)sueleexplicargranpartedelavarianzadeunsolocoeficiente(exceptoenloque
serefierealcoeficiente 0 oconstante,quesiempreapareceasociadoaunodelosotros
coeficientes.Enelejercicio,eltrminoconstanteapareceasociadoalasHoras_extras.
LaColinealidadesunproblemacuandounadimensinofactorconunndicedecondicinalto,
contribuyeaexplicargranpartedelavarianzadeloscoeficientesdedosomsvariables.
Cuandoenunconjuntodedatossedetectalapresenciadecolinealidad,hayqueaplicaralgn
tipodeactuacin:

(a) Aumentareltamaodelamuestra(estilcuandoexistenpocoscasosenrelacinconel
nmerodevariables).
(b) Crearindicadoresmltiplescombinandovariables(promediandovariables,efectuandoun
anlisisdecomponentesprincipalesparareducirlasvariablesaunconjuntodecomponentes
independientesyaplicardespuselanlisisderegresinsobreesoscomponentes.
(c) Excluirvariablesredundantes(variablesquecorrelacionanmuyaltoconotras),quedandocon
lasqueseconsideranmsimportantes.
(d) Utilizarunatcnicadeestimacinsesgada,comolaregresinridge.
SantiagodelaFuenteFernndez

41

RegresinLinealMltiple

Residuos:DurbinWatson

Elanlisisdelosresiduosproporcionainformacincrucialsobreelcumplimientodevariossupuestos
delmodeloderegresinlineal:independencia,homocedasticidad,normalidadylinealidad.
ElestadsticodeDurbinWatson(1951)proporcionainformacinsobreelgradodeindependencia
existenteentreellos:
n

DW =

(ui u i1 ) 2
i=2

u2i
i=1

DW 0 si = 1

2(1 ) DW 2 si = 0
DW 4 si = 1

ElestadsticodeDurbinWatsonoscilaentre0y4,tomaelvalor2cuandolosresiduosson
independientes.Losvaloresmenoresque2indicanautocorrelacinpositivaylosmayoresque2
autocorrelacinnegativa.Sepuedeasumirindependenciaentrelosresiduoscuando 1,5 DW 2,5

DW=1,933,valorqueseencuentraentre1,5y2,5,sepuedeasumirquelosresiduosson
independientes.

Diagnsticosporcaso

Valoresatpicosamsde...Conestaopcin,SPSSindicalosvaloresqueproducenunerrorgrande,
concretamenteamsdenvecesladesviacintpicadelavariableresiduos.Enestecaso,si
introducimos2o3desviacionestpicasnoseobtieneningnvaloratpico(pudieraocurrirqueal
poner1,5desviacionestpicas,sexistiera).

Laformadeprocederesseleccionar[CambioenR2]y[Valoresatpicosamsde...],elModelo
indicaelnmerodepasosdadosparaconstruirelmodeloderegresin(pasosquesean).Tambin
indicasienalgunodelospasossehaeliminadoalgunavariablepreviamenteseleccionada;enel
ejemploquenosocupanoseeliminaningunavariable.

LatablarecogeelvalordeR2encadapaso,elcambioexperimentadoporR2encadapaso,yel
estadsticoFysusignificacin.ElestadsticoFpermitecontrastarlahiptesisdequeelcambioenR2
valeceroenlapoblacin.
Alseleccionarlaprimeravariable(Modelo1),elvalordeR2es0,905.Lgicamente,enelprimer
paso, R2cambio = R2 .Alcontrastarlahiptesisdequeelvalorpoblacionalde R2cambio esceroseobtiene
SantiagodelaFuenteFernndez

42

RegresinLinealMltiple

unestadsticoFde19,023que,con2y4gradosdelibertad,tieneunaprobabilidadasociadade
0,009(comoestevaloresmenorque0,05),pudiendoafirmarquelaproporcindevarianza
explicadaporlavariableGastos_Publicidad(variableseleccionadaenelprimerpaso)es
significativamentedistintadecero.

Lasvariablesqueaparecenpermitenobtenerdistintosgrficosdedispersin.Lasvariables
precedidasporunasteriscosonvariablescreadasporSPSS.

Todaslasvariablespuedencrearseenlaopcin[Guardar]
marcandolasopcionespertinentesdelrecuadro

DEPENDNT:Variabledependientedelaecuacinderegresin.

ZPRED(pronsticostipificados):pronsticosdivididosporsudesviacintpica.Sonpronsticos
transformadosenpuntuacionesz(mediaceroydesviacintpica1)

ZRESID(residuostipificados):residuosdivididosporsudesviacintpica.Eltamaodecada
residuotipificadoindicaelnmerodedesviacionestpicasquesealejadesumedia,demodo
que,siestnnormalmentedistribuidos(cosaqueseasumeenelanlisisderegresin).El95%
deestosresiduosseencontrarenelrango[1,96,1,96],loquepermiteidentificarfcilmente
casosconresiduosgrandes.

SantiagodelaFuenteFernndez

43

RegresinLinealMltiple

DRESID(residuoseliminadosocorregidos):residuosobtenidosalefectuarlospronsticos
eliminandodelaecuacinderegresinelcasosobreelqueseefectaelpronstico.Elresiduo
correspondienteacadacasoseobtieneapartirdelpronsticoefectuadoconunaecuacinde
regresinenlaquenosehaincluidoesecaso.Sonmuytilesparadetectarpuntosdeinfluencia
(casoscongranpesoenlaecuacinderegresin).

ADJPRED(pronsticoscorregidos):pronsticosefectuadosconunaecuacinderegresinenla
quenoseincluyeelcasopronosticado(verresiduoseliminadosocorregidos).Diferencias
importantesentrePREDyADJPREDdelatanlapresenciadepuntosdeinfluencia(casoscongran
pesoenlaecuacinderegresin).

SRESID(residuosestudentizados):residuosdivididosporsudesviacintpica,basadastaen
cmodeprximoseencuentrauncasoasu(s)medias(s)enla(s)variable(s)independiente(s).
Aligualqueocurreenlosresiduosestandarizados(alosqueseparecenmucho),los
estudentizadosestnescaladosenunidadesdedesviacintpica.Sedistribuyensegnel
modelodeprobabilidadtStudentcon(np1)gradosdelibertad(pserefierealnmerode
variablesindependientes).Conmuestrasgrandes,aproximadamenteel95%deestosresiduos
deberaencontrarseenelrango[2,2].

SDRESID(residuoscorregidosestudentizados):residuoscorregidosdivididosporsudesviacin
tpica.tilestambinparadetectarpuntosdeinfluencia.

Algunasdeestasvariablespermitendetectarpuntosdeinfluencia,pero,entretodas,haydos
variables(ZPRED,ZRESID)cuyodiagramadedispersininformasobreelsupuestode
homocedasticidadoigualdaddevarianzas.
Elsupuestodeigualdaddevarianzasimplicaquelavariacindelosresiduosdebedeseruniforme
entodoelrangodevalorespronosticados.O,loqueeslomismo,queeltamaodelosresiduoses
independientedeltamaodelospronsticos,dedondesedesprendequeeldiagramadedispersin
nodebemostrarningunapautadeasociacinentrelosresiduosylospronsticos.
Paraobtenerundiagramadedispersinconlasvariables(ZPRED,ZRESID):

Eneldiagramadedispersinseobservaqueaunquelosresiduosylospronsticosparecenser
independientes(lanubedepuntosnosigueningunapautadeasociacinclara,nilinealnideningn
otrotipo),noestclaroquelasvarianzasseanhomogneas.Msbien,parecequeamedidaquevan
aumentandoelvalordelospronsticosvadisminuyendoladispersindelosresiduos.
SantiagodelaFuenteFernndez

44

RegresinLinealMltiple

Lospronsticosmenoresquelamedia(conpuntuacintpicapordebajodecero)estnms
concentradosquelospronsticosmayoresquelamedia(conpuntuacintpicamayorquecero).
Cuandoundiagramadedispersindelatalapresenciadevarianzasheterogneas,puedeutilizarse
unatransformacindelavariabledependientepararesolverelproblema(talcomouna
transformacinlogartmicaounatransformacinrazcuadrada).Noobstante,alutilizaruna
transformacindelavariabledependiente,debecuidarseelproblemadeinterpretacinqueaade
elcambiodeescala.
Eldiagramadedispersindelasvariables(ZPRED,ZRESID)poseelautilidadadicionaldepermitir
detectarrelacionesdetiponolinealentrelasvariables.Cuandolarelacinesnolineal,eldiagrama
puedecontenerindiciossobreotrotipodefuncindeajuste(losresiduosestandarizadospodranen
lugardeestarhomogneamentedispersosseguiruntrazadocurvilneo).

Normalidad

ElrecuadrodeGrficosdelosresiduostipificadoscontienedosopcionesqueinformansobreel
gradoenquelosresiduostipificadosseaproximanaunadistribucinnormal:HistogramayGrfico
deprobabilidadnormal.

HISTOGRAMA:Ofreceunhistogramadelosresiduostipificadosconunacurvanormal
superpuesta.Lacurvaseconstruyetomandounamediadeceroyunadesviacintpicadeuno.
Esdecir,lamismamediaylamismadesviacintpicaquelosresiduostpicostipificados.

Enelhistogramadelejercicioseobservaquelapartecentralacumulamscasosdelosque
existenenunacurvanormal.Ladistribucinesalgoasimtricaaladerecha.Ladistribucinde
losresiduosnopareceseguirelmodelodeprobabilidadnormal,demodoquelosresultadosdel
anlisisdebendeinterpretarseconcautela.

GRFICOSDELOSRESIDUOSTIPIFICADOS.Permiteobtenerundiagramadeprobabilidad
normal.Enelejedeabscisasestarepresentadalaprobabilidadacumuladaquecorresponde
acadaresiduotipificado.Eldeordenadasrepresentalaprobabilidadacumuladatericaque
correspondeacadadesviacintpicaenunacurvanormalN(0,1).

SantiagodelaFuenteFernndez

45

RegresinLinealMltiple

Lospuntosnoseencuentranalineadossobre
ladiagonaldelgrfico,indicandoelposible
incumplimientodelsupuestodenormalidad.

EnelGrficodevaloresobservadosfrentea
lospredichos(DEPENDNT,ZPRED),los
valoressedebenalinearenladiagonaldel
cuadrante,sihubieramuchadispersin,
implicaraquenoseverificanlashiptesisde
homocedasticidad.
Enestecasoexisteigualdaddevarianzas.

SeleccionandolaopcinGenerartodoslosgrficos
parciales,SPSSmuestralagrficadelavariable
dependientefrenteatodaslasvariablesindependientes,
comprobandosiexistelinealidadentrelasvariables.

Observandolosgrficos,sepodraimaginaruncomportamientolineal.
SantiagodelaFuenteFernndez

46

RegresinLinealMltiple

Pulsandoelbotn[Guardar]seabreunabanicode
opciones.
Todosloscasoscontribuyenalaobtencindelarecta
deregresin,peronotodoslohacenconlamisma
fuerza.Lospuntosdeinfluenciasoncasosque
afectandeformaimportantealvalordelaecuacin
deregresin.
Lapresenciadepuntosdeinfluencianotieneporqu
constituirunproblemaenregresin,dehecholo
normalesqueenunanlisisderegresinnotodos
loscasostenganlamismaimportancia(desdeel
puntodevistaestadstico).Noobstante,elanalista
debedeserconscientedetalespuntos,porque,
entreotrascosas,podratratarsedecasoscon
valoreserrneos.Siendoconscientesdesiexisteno
nopuntosdeinfluenciaesposiblecorregirelanlisis.
SemarcantodaslasopcionesdelosrecuadrosDistanciasyEstadsticosdeinfluencia(todasestas
opcionescreanvariablesnuevasenelarchivodedatos).

Distancias

Esterecuadrorecogetresmedidasqueexpresanelgradoenquecadacasosealejadelosdems.

Mahalanobis.Mideelgradodedistanciamientodecadacasorespectodelospromediosdel
conjuntodevariablesindependientes.Enregresinsimple,estadistanciaseobtieneelevandoal
cuadradolapuntuacintpicadecadacasoenlavariableindependiente.

Enregresinmltipleseobtienemultiplicandopor(n1)elvalordeinfluenciadecadacaso.

Cook.Mideelcambioqueseproduceenlasestimacionesdeloscoeficientesderegresinalir
eliminandocadacasodelaecuacinderegresin.UnadistanciadeCookgrandeindicaqueese
casotieneunpesoconsiderableenlaestimacindeloscoeficientesderegresin.

ParaevaluarestasdistanciaspuedeutilizarseladistribucinFcon(p+1)y(np1)gradosde
libertad,dondepeselnmerodevariablesindependientesyneltamaodelamuestra.
Engeneral,uncasoconunadistanciadeCooksuperiora1debedeserrevisado.

Valoresdeinfluencia.Representanunamedidadelainfluenciapotencialdecadacaso.
Respectoalasvariablesindependientes,unvalordeinfluenciaesunamedidanormalizadadel
gradodedistanciamientodeunpuntodelcentrodesudistribucin.Lospuntosmuyalejados
puedeninfluirdeformamuyimportanteenlaecuacinderegresin,peronotienenporqu
hacerlonecesariamente.

Conmsde6variablesyalmenos20casos,seconsideraqueunvalordeinfluenciadebedeser
revisadossiesmayorque(3p/n).Losvaloresdeinfluenciatienenunmximode(n1)/n.
Comoreglageneral,paraorientardecisiones,losvaloresmenoresque0,2seconsideranpoco
problemticos;losvalorescomprendidosentre0,2y0,5seconsideranarriesgados;ylosvalores
mayoresque0,5debieranevitarse.
SantiagodelaFuenteFernndez

47

RegresinLinealMltiple

Estadsticosdeinfluencia

Esterecuadrocontienevariosestadsticosquecontribuyenaprecisarlaposiblepresenciadepuntos
deinfluencia.

DfBetas(diferenciaenlasbetas).Mideelcambioqueseproduceenloscoeficientesde
regresinestandarizados(betas)comoconsecuenciadeireliminandocadacasodelaecuacin
deregresin.SPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesbeta
tienelaecuacinderegresin,esdecir,tantoscomovariablesindependientesmsuno(el
correspondientealaconstantedelaecuacin).

DfBetastipificadas.EselcocienteentreDfBetasysuerrortpico.
Generalmente,unvalormayorque 2 n delatalapresenciadeunposiblepuntodeinfluencia.
ElSPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesBetatienela
ecuacinderegresin.

DfAjuste(diferenciaenelajuste).Mideelcambioqueseproduceenelpronsticodeuncaso
cuandoesecasoeseliminadodelaecuacinderegresin.

DfAjustetipificado.EselcocienteentreDfAjusteysuerrortpico.
Generalmente,seconsideranpuntosdeinfluencialoscasosenlosqueDfAjustetipificadoes
mayorque 2 (p n) ,siendopelnmerodevariablesindependientesyneltamaodela

muestra.

Raznentrelascovarianzas(RV).Indicaenqumedidalamatrizdeproductoscruzados(base
delanlisisderegresin)cambiaconlaeliminacindecadacaso.
Seconsideraqueuncasoesunpuntodeinfluenciasi RV > 3 + p n
Crearcoeficientesdelosestadsticos.ElSPSSofreceunatablaresumenqueincluye,paratodos
losestadsticosdelrecuadroDistancias,elvalormnimo,elmximolamedia,ladesviacintpica
yelnmerodecasos.Latablatambinrecogeinformacinsobrelospronsticosylosresiduos.

Sealarquelospuntosdeinfluencianotienenporqutenerresiduosespecialmentegrandes,el
problemaquepresentannoesprecisamentelafaltadeajuste.Apesardeello,esconveniente

SantiagodelaFuenteFernndez

48

RegresinLinealMltiple

examinarlosporsudesproporcionadainfluenciasobrelaecuacinderegresin.Comostospuntos
sondistintosdelosdems,convieneprecisarenqusondistintos.
Unavezidentificadosyexaminados,sepuedeneliminardelanlisissimplementeporqueentorpecen
elajuste,oporquesupresenciaproducemedidasdeajusteinfladas.

Valorespronosticados

Elobjetivoprincipaldelanlisiseseldepoderefectuarpronsticosencasosnuevos.Sehan
utilizadoloscoeficientesderegresinparcial(B)paraconstruirlarectaderegresin:
Y = 0,5895 + 0,936 X1 + 0,1866 X2
Conocidoslospesosdelaecuacinderegresin,sepuedeutilizarlaopcindelmen
Transformar/Calcularvariableparaobtenerlospronsticosquelaecuacinasignaacadacaso.Pero
estonoesnecesarioporqueelsubcuadroGuardarnuevasvariablescontieneopcionesrelacionadas
conlospronsticos:
Lasopcionesdeesterecuadrogeneran,enelEditordedatos,cuatronuevasvariables,quereciben
automticamenteunnombreseguidodeunnmerodeserie(nombre_#).Porejemplo,laprimera
vezquesesolicitanduranteunasesinlospronsticostipificados,lanuevavariableconlos
pronsticostipificadosrecibeelnombredezpr_1.Sisevuelvenasolicitarpronsticostipificados
durantelamismasesin,lanuevavariablerecibeelnombredezpr_2,yassucesivamente.
Notipificados.Pronsticosquesederivandelaecuacinderegresinenpuntuacionesdirectas,
recibenelnombre:pre_#.
Tipificados.Pronsticosconvertidosenpuntuacionestpicas(restandoacadapronsticola
mediadelospronsticosydividiendoladiferenciaporladesviacintpicadelospronsticos),
recibenelnombre:zpr_#.
Corregidos.Pronsticoquecorrespondeacadacasocuandolaecuacinderegresinseobtiene
sinincluiresecaso,nombre:adj_#.
E.T.delpronsticopromedio.Errortpicodelospronsticoscorrespondientesaloscasosque
tienenelmismovalorenlasvariablesindependientes,nombre:sep_#.
# Alefectuarunpronsticohaydossituacionesdiferentes:
c Efectuarunpronsticoindividual Yi parauncasoconcreto Xi
d Pronosticarparacadacasolamediadelospronsticos Y0 correspondientesatodosloscasos
conelmismovalor X 0 enlas(s)variable(s)independiente(s).Aestamediasellamapronstico
promedio.

Alefectuarunpronsticoindividualparaundeterminadovalorde Xi ,elerrordeestimacino
variacinresidual (Y Yi ) puedecontenerdosfuentesdeerror:
1. Ladiferenciaentreelvalorobservadoenlavariabledependiente Yi ylamediapoblacional
correspondientea X 0 ( Y / X 0 ).
SantiagodelaFuenteFernndez

49

RegresinLinealMltiple

2. Ladiferenciaentreelpronsticoparaesecaso (Y o Y ) ylamediapoblacionalcorrespondientea
X 0 ( Y / X 0 ).
Enunpronsticoindividualentranenjuegolasdosfuentesdeerror,mientrasqueenunpronstico
promediosloentralasegundafuentedeerror.Enconsecuencia,paraunvalordadode X 0 ,elerror
tpicodelpronsticopromediosermenoroigualqueelerrortpicodelvalorindividual.
Portanto,alconstruirintervalosdeconfianzaparalospronsticos,laamplituddelintervalo
cambiardependiendodelerrortpicoquesetomecomoreferencia.
Intervalosdepronstico.Lasopcionesdelrecuadropermitenobtenerdostiposdeintervalos:
~Media:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticospromedio.
~Individuos:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticosindividuales.

LaopcinIntervalodeconfianzak%permiteestablecerelniveldeconfianzaconelquese
construyenlosintervalosdeconfianza.
Cadaunadelasopciones(mediaeindividuos)generaenelEditordedatosdosnuevasvariablescon
ellmiteinferiorysuperiordelintervalo.Estasnuevasvariablesrecibenlossiguientesnombres:
lmci_#:lmiteinferiorICpronsticomedio
lici_#:lmiteinferiorICpronsticoindividual

SantiagodelaFuenteFernndez

umci_#:lmitesuperiorICpronsticomedio
uici_#:lmitesuperiorICpronsticoindividual

50

RegresinLinealMltiple

CRITERIOSDESELECCINDEVARIABLES

LosmtodosporpasosqueincluyeelSPSSparalaseleccinde
variablessebasanendoscriteriosestadsticos:
1.
2.

Criteriodesignificacin(ProbabilidaddeF,valordeF)
Criteriodetolerancia

1. Criteriodesignificacin.Sloincorporaalmodeloderegresinaquellasvariablesque
contribuyendeformasignificativaalajustedelmodelo.
Lacontribucinindividualdeunavariablealajustedelmodeloseestablececontrastando,apartir
delcoeficientedecorrelacinparcial,lahiptesisdeindependenciaentreesavariableylavariable
dependiente.Paradecidirsisemantieneoserechazaesahiptesisdeindependencia,elSPSS
incluyedoscriteriosdeseleccin:

ProbabilidaddeF.Unavariablepasaaformarpartedelmodeloderegresinsielnivelcrtico
asociadoasucoeficientedecorrelacinparcialalcontrastarlahiptesisdeindependenciaes
menorque0,05(probabilidaddeentrada).Yquedafueradelmodeloderegresinlinealsiel
nivelcrticoesmayorque0,10(probabilidaddesalida).

ValordeF.Unavariablepasaaformarpartedelmodeloderegresinlinealsielvalordel
estadsticoFutilizadoparacontrastarlahiptesisdeindependenciaesmayorque3,84(valorde
entrada).YquedafueradelmodeloderegresinlinealsielvalordelestadsticoFesmenorque
2,71(valordesalida).

LasopcionesdelrecuadroCriteriosdelmtodoporpasospermiteseleccionarunodelosdos
criteriosdesignificacindisponibles,ascomomodificarlasprobabilidadesdeentradaysalida.
2. Criteriodetolerancia.Superadoelniveldesignificacin,unavariablesolopasaaformarparte
delmodelosisuniveldetoleranciaesmayorqueelnivelestablecidopordefecto(esteniveles
mayorque0,0001,peropuedecambiarsemediantesintaxis)y,siadems,ancorrespondindoleun
coeficientedecorrelacinparcialsignificativamentedistintodecero,suincorporacinalmodelo
hacequealgunadelasvariablespreviamenteseleccionadaspaseatenerunniveldetoleranciapor
debajodelestablecidopordefecto.
Unaformaintuitivadecomprenderyvalorarelefectoresultantedeaplicarestoscriteriosde
seleccinconsisteenobservarelcambioquesevaproduciendoenelcoeficientededeterminacin
R2 amedidaquesevanincorporando(oeliminando)variablesalmodelo.
Estecambiosepuededefinircomo R2cambio = R2 R2i ,donde R2i serefierealcoeficientede
determinacinobtenidocontodaslasvariablesindependientesexceptolaisima.
Uncambiograndeen R2 indicaqueesavariablecontribuyedeformaimportanteaexplicarloque
ocurreconlavariabledependiente.
Paraobtenerlosvaloresde R2cambio ysusignificacin(elgradoenqueelcambioobservadoen
R2 difieredecero)hayquemarcarlaopcinCambioenRcuadradodelbotn[Estadsticos].
SantiagodelaFuenteFernndez

51

RegresinLinealMltiple

MTODOSDESELECCINDEVARIABLES

Existendiferentesmtodosparaseleccionarlas
variablesindependientesquedebeincluirun
modeloderegresin,perolosquemayor
aceptacinsonlosmtodosdeseleccinpor
pasos(stepwise).Conestosmtodos,se
seleccionaenprimerlugarlamejorvariable(con
algncriterioestadstico);acontinuacin,la
mejordelasrestantes;yassucesivamentehasta
quenoquedenvariables.

TodaslasopcionesseencuentrandisponiblesenelmendelbotndespegableMtodo.
Dosdelosmtodospermitenincluiroexcluir,enunsolopaso,todaslasvariablesindependientes
seleccionadas:

Introducir:Construyelaecuacinderegresinutilizandotodaslasvariablesseleccionadasenla
listadeIndependientes.Eselmtodoutilizadopordefecto.

Eliminar:EliminaenunsolopasotodaslasvariablesdelalistadeIndependientesyofrecelos
coeficientesderegresinquecorresponderanacadavariableenelcasodequepasarana
formarpartedelaecuacinderegresin.

Elrestodeseleccindevariablessonmtodosporpasos,estoes,mtodosquevanincorporandoo
eliminandovariablespasoapasodependiendoquestascumplanonoloscriteriosdeseleccin:

Haciadelante:Lasvariablesseincorporanalmodeloderegresinunaauna.

Enelprimerpasoseseleccionalavariableindependiente,queademsdesuperarloscriterios
deentrada,msaltocorrelaciona(positivaonegativamente)conladependiente.
Enlossiguientespasosseutilizacomocriteriodeseleccinelcoeficientedecorrelacinparcial:
<<Vansiendoseleccionadasunaaunalasvariablesque,ademsdesuperarloscriteriosde
entrada,poseenelcoeficientedecorrelacinmsaltoenvalorabsoluto(larelacinseparcializa
controlandoelefectodelasvariablesindependientespreviamenteseleccionadas).
Laseleccindevariablessedetienecuandonoquedanvariablesquesuperenelcriteriode
entrada(utilizarcomocriteriodeentradaeltamao,envalorabsoluto,delcoeficientede
correlacinparcial,esequivalenteaseleccionarlavariableconmenorprobabilidaddeFomayor
valordeF)>>.

Haciaatrs:Comienzaincluyendoenelmodelotodaslasvariablesseleccionadasenlalista
Independientesyluegoprocedeaeliminarlasunaauna.

Laprimeravariableeliminadaesaquellaque,ademsdecumplirloscriteriosdesalida,poseel
coeficientederegresinmsbajoenvalorabsoluto.
Encadapasosucesivosevaneliminandolasvariablesconcoeficientesderegresinno
significativos,siempreenordeninversoaltamaodesunivelcrtico.
SantiagodelaFuenteFernndez

52

RegresinLinealMltiple

Laeliminacindevariablessedetienecuandonoquedanvariablesenelmodeloquecumplan
loscriteriosdesalida.

Pasossucesivos:EsunmtodomezcladelosmtodosHaciadelanteyHaciaatrs.

ComoelmtodoHaciadelante,enelprimerpasocomienzaseleccionandolavariable
independienteque,ademsdesuperarloscriteriosdeentrada,msaltocorrelaciona(envalor
absoluto)conlavariabledependiente.
Acontinuacin,seleccionalavariableindependienteque,ademsdesuperarloscriteriosde
entrada,poseeelcoeficientedecorrelacinparcialmsalto(envalorabsoluto).
Cadavezqueseincorporaunanuevavariablealmodelo,lasvariablespreviamente
seleccionadasson,aligualqueenelmtodoHaciaatrs,evaluadasnuevamentepara
determinarsisiguencumpliendoonoloscriteriosdesalida.Sialgunavariableseleccionada
cumpleloscriteriosdesalida,eseliminadadelmodelo.
Elprocesosedetienecuandonoquedenvariablesquesuperenelcriteriodeentradaylas
variablesseleccionadasnoverifiquenloscriteriosdesalida.

SantiagodelaFuenteFernndez

53

You might also like