Professional Documents
Culture Documents
SantiagodelaFuenteFernndez
RegresinLinealMltiple
SantiagodelaFuenteFernndez
RegresinLinealMltiple
REGRESINLINEALMLTIPLE
Lastcnicasderegresinlinealmltiplepartende(k+1)variablescuantitativas,siendoYlavariable
derespuestay ( X1 , X2 , LL , Xk ) lasvariablesexplicativas.
Setratadeextenderalas'k'variableslastcnicasdelaregresinlinealsimple.Enestalnea,la
variableYsepuedeexpresarmedianteunafuncinlinealdelasvariables ( X1 , X2 , LL , Xk )
Y = 0 + 1 X1 + 2 X2 + L + k Xk
Paraello,dispondremosdeunamodelodeprobabilidad(laNormal).Elestadsticofijalosvaloresde
lasvariablesregresoras X ki yobtiene'alazar'loscorrespondientesvalores Yi
Modelo: Y = 0 + 1 X1 + 2 X2 + L + k Xk + U
Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Yi N(0 + 1 X1 + 2 X2 + L + k Xk , 2 ) independie ntes , (i = 1, 2, L ,n)
ui N(0, 2 ) independientes, (i = 1,2, L ,n)
u1
Y1 1X11 LXk 1 0
u2
Y2 1X12 LXk 2 1
Enformamatricial: M = MMLM M + M
M
M MMLM M
un
yn 1X1n LXk n k
Y = X + U siendoX='matrizdeldiseo'.
Lashiptesiscomunesentrelasregresioneslinealymltipleson:
a) Normalidad: ui N(0, 2 )
b) Linealidad: E (u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d) Independencia: u i sonindependientes (i = 1, 2, L ,n)
Requisitosadicionalesdelaregresinmltiple:
a) n>k+1.Elmodelodependede(k+2)parmetros.Paraquelaregresintengasignificado
debehaberunnmerosuficientededatos.
b) NingunadelasvariablesexplicativasXescombinacinlinealdelasotras(Colinealidad).Si
algunadelas Xi escombinacinlinealexactadealgunadelasotras Xi ,elmodelopuede
simplificarseconmenosvariablesexplicativas.Tambinhayqueconsiderarsialgunadelas
Xi estfuertementecorrelacionadaconotras.
SantiagodelaFuenteFernndez1
RegresinLinealMltiple
ESTIMACINDELOSPARMETROS
Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Enformamatricial: Y = X + U siendoX='matrizdeldiseo'.
Datos
X1
X2
XK
Lanubedepuntosestenun
espaciodedimensin(k+1).
Y1
X 11
X 21
X k1
Y2
X 12
X 22
X k2
Yn
X 1n
X 2n
X kn
n X2 n X X
i1 i2
i1
i=1
i=n1
n
Xi2Xi1 X2i2
donde, X' X = i=1
i=1
M
M
n
n
Xik Xi1 Xik Xi2
i=1
i=1
Esdifcildevisualizarparak>2
= [X' X ] 1 X' Y
dondeX'eslamatriztranspuesta
deldiseo
n
n X Y
... Xi1Xik
i1 i
i=1
i=n1
i=1
M
M
...
n
n
... X2ik
Xik Yi
i=1
i=1
Cadaunodeloscoeficientes i representaelefectodelavariableindependientesobrelavariable
explicada.Esdecir,elvalorestimado indicalavariacinqueexperimentalavariable
i
dependientecuandolavariableindependiente X i varaenunaunidadytodaslasdems
permanecenconstantes.
Cuandoelmodelotienetrminoindependiente,lasmatricesanterioressesimplificanconlas
siguientesexpresiones:
n
n
X i2
X' X =
i=1
M
n
Xik
i=1
nY
i
i=1
i=1
ni=1
n
n
2
Xi2 ... Xi2Xik , X' Y = Xi2Yi
i=1
i=1
i=1
M
M
M
...
n
n
n
i=1
= SR2 =
u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i
n
1
u2i
n k 1 i=1
SantiagodelaFuenteFernndez2
RegresinLinealMltiple
Enunprincipio,paraestimarlavarianzadelerroraleatorioU,parecerazonableutilizarlavarianzade
loserroresdeprediccin,tambindenominadosresiduosdelmodelo.
1 n
2 = u2i .Sinembargo,esteestimadoressesgado E ( 2 ) 2 ,
Esdecir,parecerazonableutilizar
n i =1
n
1
portanto,seutilizacomoestimador SR2 =
u2i .
n k 1 i=1
DEMOSTRACIN( Y = X + U = [X' X ] 1 X' Y )
= Y Y = Y X
Y = X + U .Elcorrespondientemodeloajustadoser Y = X ,conlocual, U
DenominandoSalasumadeloscuadradosdelosresiduos:
' U
= [ u1 , u2 , LL , un ]
S = U
][
u1
u
n
2 = u ( U' matriztranspuestade U )
M i=1 i
un
'
S = Y X Y X = Y' Y ' X' Y Y' X + ' X' X B = Y' Y ' X' Y ' X' Y + ' X' X B = Y' Y 2 ' X' Y + ' X' X B
14444244443
un escalar es igual a su transpuesto
ParaminimizarSseaplicaelcriteriomnimocuadrtico,derivandorespectode :
S
= 2 X' Y + 2 X' X B = 0 X' X B = X' Y a
a B = [X' X ]1 X' Y
DISTRIBUCINDE
a) Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la
matriztranspuestadeldiseo).
b) ElvectordeobservacionesYsedistribuyesegnunanormalmultivariantedemedia X yde
matrizdevarianzasycovarianzas 2 I ,esdecir, Y N( X , 2 I) .
c) escombinacinlinealdelascomponentesdelvectorY,porloquesedistribuyesegnuna
variablealeatorianormal,dondesumediaymatrizdevarianzasycovarianzasser:
Var ( ) = Var [X' X ] 1 X' Y = [X' X ] 1 X' [Var (Y)] X [X' X ] 1 = [X' X ] 1 X' 2 X [X' X ] 1 = 2 [X' X ] 1
dedonde, N , 2 [X' X ] 1
SantiagodelaFuenteFernndez3
RegresinLinealMltiple
Conelajustedemnimoscuadrados: u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i
[ ]
n
1
u2i ,pudindose
n k 1 i=1
comprobarqueelestimadoresinsesgado: E S2R = 2
Seobtiene
(n k 1) S2R
n2k1
i i
N(0,1) .
q i +1, i +1
ComolavariabletStudentconkgradosdelibertadsedefine: tk =
resultaque, t =
i i
q i +1 , i +1
1
(n k 1) SR2
(n k 1)
N(0,1)
1 2
k
k
i i
tnk1
SR q i +1, i +1
d) CONTRASTEDEHIPTESIS[tStudent]
Nosplanteamossilavariable X i influyesobrelavariablederespuestaY.Enotraspalabras,siel
valordelparmetroenlapoblacinesceroono.
Paraello,seestablecelahiptesisnula H0 : i = 0 frentealahiptesisalternativa H1: i 0 .
i
i i
Elestadsticoobservado t =
,bajolahiptesisnularesulta, t =
SR q i +1, i +1
SR q i +1, i +1
estadstico
experimental
647
4 48
4 estadstico
terico
6
474
8
i
t
.Encasocontrario,serechaza.
Seaceptalahiptesisnula H0 cuando
; (nk 1)
SR q i +1, i +1
2
Si n > 30 ,seaceptalahiptesisnula H0 cuando t 2 .Encasocontrario,seaceptalahiptesis
alternativa H1 ,concluyendoquelavariable Xi isimainfluyeenlarespuesta.
SantiagodelaFuenteFernndez4
RegresinLinealMltiple
CLCULODELCOEFICIENTEDECORRELACINPARCIAL
Enunmodeloderegresinlinealmltiple, Y = 0 + 1 X1 + 2 X2 + L + k Xk ,sepuedecalcular
fcilmenteelcoeficientedecorrelacinparcialentrelavariablederespuestaYyunavariable
regresoraX,controladoporelrestodevariablesregresoras.Paraelloseutilizaelcontraste
individualdelatrespectoalavariableX,yquesedefinecomo:
ti =
SR
i
i = 1, 2,...,k ,
q i +1, i +1
Obtenindoselasiguienterelacin: R2Y iC =
t2i
t2i + n (k + 1)
e) INTERVALOSDECONFIANZADELOSPARMETROS
i
IC1 (i ) = i t / 2 , (nk 1) SR
q i +1 , i +1
(yi yi ) 2
i=1
n k 1
CONTRASTEDEHIPTESISINTERVALOSDECONFIANZA
Hiptesisnula H0 : i = 0 X i noinfluyeenY
Hiptesisalternativa H1: i 0 X i influyeenY
Seaceptalahiptesisnula H0 , X i noinfluyeenY,conunniveldeconfianza (1 ) cuandoel
ceroseencuentraenelintervalodeconfianza.
Encasocontrario,cuandoelceronocaeenelintervalodeconfianza,seaceptalahiptesis
alternativa H1 ,yenconsecuencia, X i influyeenY.
EstecontrasteesequivalentealcontrastedelatStudentparacada i
SantiagodelaFuenteFernndez5
RegresinLinealMltiple
f) INTERVALODECONFIANZAPARALAVARIANZADELOSRESIDUOS
(n k 1) S2 (n k 1) S2 SCR
SCR
R
R
IC = 2
; 2
; 2
= 2
1 , (nk1)
1 , (nk1)
2
2
2 , (nk1)
2 , (nk1)
DESCOMPOSICINDELAVARIABILIDAD
=0
6447
448
n
SCT = ( Yi Y ) 2 = ( Yi Y i) + ( Yi Y ) = ( Yi Y i) 2 + ( Yi Y ) 2 + 2 ( Yi Yi ).( Yi Y )
n
i=1
i=1
( Yi Y ) 2
i=1
1
4243
SCT
i=1
i=1
( Yi Y i) 2
i=1
( Yi Y ) 2
i=1
1
4243
SCE
i=1
1
4243
SCR
i=1
i=1
i=1
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2 1 =
( Yi Y i) 2
i=1
n
( Yi Y )
i=1
1
4243
SCR / SCT
( Yi Y ) 2
i=1
n
( Yi Y ) 2
i=1
1
4243
2
R =SCE / SCT
Unavezestimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajuste
realizado.UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quese
n
define: R2 =
( Yi Y i) 2
SCE
i =1
SCT
( Yi Y ) 2
i =1
ElCoeficientedeDeterminacinpermite,adems,seleccionarentremodelosclsicosquetenganel
mismonmeroderegresores,yaquelacapacidadexplicativadeunmodeloesmayorcuantoms
elevadoseaelvalorquetomeestecoeficiente.
Porotraparte,elvalorcoeficientededeterminacincrececonelnmeroderegresoresdelmodelo.
Porello,silosmodelosquesecomparantienendistintonmeroderegresores,nopuede
establecersecomparacinentresus R2 .
Enestecasodebeemplearseelcoeficientededeterminacincorregido R 2 ,quedepurael
incrementoqueexperimentaelcoeficientededeterminacincuandoelnmeroderegresoreses
mayor.
R 2 = 1
SCR n k 1
n1
2
=1
1R
SCT n 1
n k 1
SantiagodelaFuenteFernndez6
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA
Variacin
Sumacuadrados
Gradoslibertad
Mediacuadrtica
SCE
k
SCR
n k 1
Explicada
SCE = ( Yi Y i) 2
i=1
n
Residual
SCR = ( Yi Y ) 2
Total
SCT = ( Yi Y ) 2
nk 1
i=1
n
FSnedecor
F=
SCE / k
SCR / (n k 1)
n1
i=1
CONTRASTEDEHIPTESIS:
Hiptesisnula H0 : 1 = 2 = LL = k = 0 elmodelonoesexplicativo
Hiptesisalternativa H1: al menos un i 0 elmodeloesexplicativo
Aunniveldeconfianza (1 ) serechaza H0 si F F ; k , (nk1)
FSnedecorCOEFICIENTEDEDETERMINACIN
n
Elcoeficientededeterminacinsedefine: R2 =
( Yi Y i) 2
SCE
i=1
SCT
( Yi Y ) 2
i=1
Deotraparte,ladistribucinFSnedecor:
F=
nk 1
1 nk 1
SCE / k
SCE SCT n k 1
1 n k 1
1
=
= R2
=
= R2
= R2
SCR
SCT SCE
SCR / (n k 1)
SCT SCR
k
k
k
1 R2
k
SCT
SCT
R2 n k 1
1 R2
k
F =
R2 n k 1
1 R2
k
RESUMENDECONTRASTES
ContrasteConjunto
FSnedecor
Modeloexplicativo
Modeloexplicativo
Modeloexplicativo
Modelonoexplicativo
Modelonoexplicativo
Modelonoexplicativo
ContrastesIndividuales
tStudent
Todaslas Xi sonexplicativas
Algunas Xi sonexplicativas
Ninguna Xi esexplicativa
Todaslas Xi sonexplicativas
Algunas Xi sonexplicativas
Ninguna Xi esexplicativa
Conclusin
Tomamostodaslas Xi
Nosquedamosconlas Xi explicativas
PosibleMulticolinealidad(revisarelModelo)
PosibleMulticolinealidad(revisarelModelo)
PosibleMulticolinealidad(revisarelModelo)
ElModelonoexplicaY
SantiagodelaFuenteFernndez7
RegresinLinealMltiple
PREDICCINENELMODELODEREGRESIN
UnavezestimadoyvalidadoelModelo,unadesusaplicacionesmsimportantesconsisteenpoder
realizarprediccionesacercadelvalorquetomaralavariabledependienteenelfuturooparauna
unidadextramuestral.
Estaprediccinsepuederealizartantoparaunvalorindividualcomoparaunvalormedio,o
esperado,delavariabledependiente,siendoposibleefectuarunaprediccinpuntualopor
intervalos.Suclculoserealizamediantelassiguientesexpresiones:
Y0 = 0 + 1 X10 + 2 X20 + L + K XK 0
IC E(Y0 )
= Y 0 t / 2 , (nk 1) S R
(1 X 10 X 20
X 10
L X k 0 ) (X' X) 1 X 20
XK0
IntervalodeconfianzaparaunvalorindividualdeYparalosvalores ( X 10 , X 20 , L L , X k 0 ) delas
variablesexplicativas.
IC Y0
= Y0 t / 2 , (nk 1) SR
1 + (1 X 10 X 20
X 10
L X k 0 ) (X' X) 1 X 20
XK0
MATRIZDECOVARIANZAS
2y
Lamatrizdevarianzascovarianzassedefine: VC = Sx 1 y
Sx y
2
S yx 1
2x1
Sx 2 x 1
S yx 2 S yx 1 = Sx 1 y
Sx 1 x 2 S yx 2 = Sx 2 y
2x2 Sx 1 x 2 = Sx 2 x 1
VC yx 1
VC y
2 =
VC yx 2
VC y
Sx 1 y
Sx 1 x 2
VC
=
y
x
1
Sx 2 y
2x2
0 = Y 1 X1 2 X2
Sx 1 x 2
2x2
VC y x 2
Sx y
= 1
Sx 2 y
2x1
S2x 2 x 1
SantiagodelaFuenteFernndez8
RegresinLinealMltiple
2
2
Coeficientededeterminacinmltiple: R = ryx 1x 2 = 1
Coeficientesdecorrelacinparcial:
x1
= VCx 1x 1 VC
VC2 = VC yy VC
x2
ryx 1 .x 2 =
= VCx 2 x 2
CV
2y C yy
VC yx 1
VC yy VCx 1x 1
ryx 2 .x 1 =
VC yx 2
VC yy VCx 2 x 2
MATRIZDECORRELACIONES
Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
S yx 1
ryx 1 =
ryx 1 ryx 2
ryx 1 = rx 1 y
y x 1
r = r
Rx = rx 1 y 1
rx 1x 2 donde yx 2 x 2 y
rx x = rx x
S yx 2
rx y rx x
1
2 1
1 2
2 1
2
ryx 2 =
y x 2
ryx 1 ryx 2 rx 1 x 2
ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )
Coeficientesdecorrelacinparcial:
ryx 2 ryx 1 rx 2 x 1
ryx 2 .x 1 =
(1 ryx2 1 )(1 rx22 x 1 )
Coeficientededeterminacinmltiple: R = r
2
2
yx 1 x 2
SantiagodelaFuenteFernndez9
RegresinLinealMltiple
Ejercicio1.Sepretendenestimarlosgastosenalimentacindeunafamiliaenbasealainformacin
queproporcionanlasvariablesregresoras'ingresosmensualesy'nmerodemiembrosdela
familia'.Paraelloserecogeunamuestraaleatoriasimplede15familias,cuyosresultadossefacilitan
enlatablaadjunta.(Elgastoeingresoseexpresanencienmileuros).
GastoAlimentacin
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
Ingresos
2,10
1,10
0,90
1,60
6,20
2,30
1,80
1,00
8,90
2,40
1,20
4,70
3,50
2,90
1,40
Tamao
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
0,31
11,14
0,32
10,95
0,46
11,64
1,25
16,24
0,44
12,33
0,52
11,86
Y = 0,29 = X + U = 115
1,29
18,93
0,35
12,42
0,35
11,24
0,78
14,73
0,43
13,52
0,47
12,93
0,38
11,44
0 u1
1 + u2
u
2 3
AplicandoelcriteriodelosmnimoscuadradosordinariosMCO,lafuncinquemejorseajustaalos
datoseslaqueminimizalavarianzadelerrorU,loqueconllevaaunsistemadeecuaciones
normales:
SantiagodelaFuenteFernndez
10
RegresinLinealMltiple
15 Y = N + 15 X + 15 X
i
0
1 1i
2 2i
i=1
i=1
i=1
15
15
15
15
2
X
Y
=
X
+
X
X
+
X1i
X2i
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
2,1
1,1
0,9
1,6
6,2
2,3
1,8
1
8,9
2,4
1,2
4,7
3,5
2,9
1,4
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
X12i
4,41
1,21
0,81
2,56
38,44
5,29
3,24
1
79,21
5,76
1,44
22,09
12,25
8,41
1,96
X22i
9
16
25
16
16
9
36
25
9
4
16
9
4
9
16
X1i X2i
X1i Yi
X2i Yi
6,3
4,4
4,5
6,4
24,8
6,9
10,8
5
26,7
4,8
4,8
14,1
7
8,7
5,6
0,903
0,341
0,288
0,736
7,750
1,012
0,936
0,29
11,481
0,84
0,42
3,666
1,505
1,363
0,532
1,29
1,24
1,6
1,84
5
1,32
3,12
1,45
3,87
0,7
1,4
2,34
0,86
1,41
1,52
15
15
15
15
15
15
15
15
i =1
i=1
i=1
i=1
i =1
i =1
i =1
i =1
Yi = 8,07 X1i = 42 X2i = 55 X12i = 188,08 X22i = 219 X1i X2i = 140,8 X1i Yi = 32,063 X2i Yi = 28,96
i=1
i=1
i=1
150 + 42 1 + 552 = 8,07
15
15
15
15
2
conlocual, X1i Yi = 0 X1i + 1 X1i + 2 X1i X2i 42 0 + 188,08 1 + 140,08 2 = 32,063
i=1
i=1
i=1
i=1
15
15
15
Yi = N0 + 1 X1i + 2 X2i
enformamatricial,
X 'X
6444
47
4444
8
154255
42188,08140,8
55140,8219
[X 'X ]
644444
7444448
0
1,36
0,092
0,282
1 = 0,0920,0160,013
0,2820,0130,067
2
0
8,07
1 = 32,063
28,96
2
X 'Y
647
4
8
8,07
32,063
28,96
0
0,16
SantiagodelaFuenteFernndez
11
RegresinLinealMltiple
Residuos: ui = Yi Yi
0,046
0,002
0,039
0,074
0,178
0,026
0,050
0,084
0,107
0,002
0,023
0,009
0,086
0,033
0,023
u2i = (Yi Yi ) 2
0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005
dedonde,lasumade
cuadradosRESIDUAL,es
decir,lavariabilidaddeY
respectoalarectaajustada
ser:
15
SR2 =
SCR
0,0721
=
= 0,006
15 2 1
12
SR =
0,006 = 0,0775
15
(Y1 Y1 ) 2 = 0,0721
i=1
INTERVALOSDECONFIANZAPARAMTROSDELMODELO (1 ) = 0,90
Intervalodeconfianzaparalavarianza
=
= [0,0034 ; 0,0138 ]
2
21,026 5,226
, (nk1)
1 , (nk1) , (nk1)
1 , (nk1)
2
2
2
2
0,0034 2 0,0138
) Lavarianzadelosestimadoresdelmodelo N , 2 [X' X ] 1 :
q i +1, i +1 elemento de [X'X ] 1
SantiagodelaFuenteFernndez
644474448
1,36
0,016
0,067
SR2 q i +1, i +1
644444744444
8
0,00816
0,000096
=
0,0004
12
RegresinLinealMltiple
0 = 0,160
2 = 0,077
1 = 0,149
q i +1, i +1
t0 ,05 , 12 = 1,782
ContrastedeHiptesisindividualpara X 2 (tamaofamiliar)
Nosplanteamossilavariable X 2 (tamao)influyesobrelavariablederespuestaY(gastos).En
otraspalabras,sielvalordelparmetroenlapoblacinesceroono.
Paraello,seestablecelahiptesisnula H0 : 2 = 0 frentealahiptesisalternativa H1: 2 0 .
2
Elestadsticoobservado t = 2 2 ,bajolahiptesisnularesulta: t =
SR q33
SR q33
Portanto,
2 = 0,077
Elestadsticoexperimental t =
t0 ,05 , 12 = 1,782
2
0,077
=
= 49,67
SR q33 0,00155
SantiagodelaFuenteFernndez
13
RegresinLinealMltiple
MODELOLINEALDEREGRESINMLTIPLE:HERRAMIENTASDESOFTWARE
EXCELYLAREGRESINMLTIPLE
Sepuedeutilizarelanlisisdelaregresinlinealmltipleparaestimarelgastodefamiliasen
alimentacin(Y)basndoseenlasvariablesX1='Ingresosmensuales'yX2='nmerodemiembrosde
lafamilia'.
ExceldisponedeanlisisdeRegresinpara
ajustarelmodeloderegresinmltiple,
simultneamenteproporcionalas
estimacionesdelosparmetros,la
contrastacinindividual,yelanlisisdelos
residuos.
EnelmenHerramientas,tenemosel
dilogoAnlisisdedatos,dondeelegimos
Regresin,obtenindoseuncuadrode
dilogoquepermiterealizarunajustepara
laregresinmltiple.
LosCamposdeEntradatienenlasfuncionalidades:
RangoYdeentrada:Introducirlareferencia
correspondientealrangodedatosdependientes.Elrango
debeestarformadoporunanicacolumna.
RangoXdeentrada:Introducirlareferencia
correspondientealrangodedatosindependientes.Excel
ordenarlasvariablesindependientesdeesterangoen
ordenascendentedeizquierdaaderecha.Elnmero
mximodevariablesindependienteses16.
SantiagodelaFuenteFernndez
14
RegresinLinealMltiple
Rtulos:Activarestacasillacuandolaprimerafilaolaprimeracolumnadelrango(orangos)deentrada
tienenrtulos.Noactivarenelcasodequeelrangodeentradacarezcadertulos.Excelgeneralos
rtulosdedatoscorrespondientesparalatabladeresultados.
Niveldeconfianza:Activarestaparaincluirmsnivelesdeconfianzaenlatabladeresmenesde
resultados.Introducirelniveldeconfianzaaaplicarademsdelnivelpredeterminadodel95%.
Constanteigualacero:Activarestacasillaparaquelalneaderegresinpaseporelorigen.
Rangodesalida:Introducirlareferenciacorrespondientealaceldasuperiorizquierdadelatablade
resultados.Dejarporlomenossietecolumnasdisponiblesparalatabladeresultadossumarios,donde
aparecen:tabladeanlisis,nmeroobservaciones,coeficientes,errortpicodelpronsticoY,valoresde
R2yerrortpicodecoeficientes.
Enunahojanueva:Hacerclicenestaopcinparainsertarunahojanuevaenellibroactualypegarlos
resultados,comenzandoporlaceldaA1delanuevahojadeclculo.Paradarunnombrealanuevahoja
declculo,anotarloenelcuadro.
Enunlibronuevo:Hacerclicparacrearunnuevolibroypegarlosresultadosenunahojanuevadellibro
creado.Sideseaincorporarlaopcingrficatienequeteclearestaopcin.
Residuos:Activarestacasillaparaincluirlosresiduosenlatabladeresultados.
Residuosestndares:Activarestacasillaparaincluirresiduosestndaresenlatabladeresultadosde
residuos.
Grficosderesiduos:Siactivaestacasillasegeneraungrficoporcadavariableindependientefrenteal
residuo.
Curvaderegresinajustada:Siactivaestacasillasegeneraungrficoconlosvalorespronosticados
frentealosvaloresobservados.
Trazadodeprobabilidadnormal:Activandoestacasillasegeneraungrficoconprobabilidadnormal.
Finalmente,conlasopcionesactivadasenlafiguraanterior,enlatabladeresultadosaparecenlos
estadsticosderegresin,cuadrodeanlisisdelavarianzadelmodelo,estimadores,contrastesde
significacindeFSnedecorydetStudentconsuspvaloresasociados,intervalosdeconfianzapara
losparmetrosyparalasprediccionesal90%y95%,yresiduos.
SantiagodelaFuenteFernndez
15
RegresinLinealMltiple
Lasiguientefigurapresentaelgrficodecadavariableindependiente(X1,X2)contralosresiduos,lo
queseutilizaparadetectarelproblemadenolinealidad,heteroscedasticidad,yautocorrelacinen
elmodelodelajuste.
Lomejoresquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.
Lafiguraadjuntapresentaelgrficopara
detectarlahiptesisdenormalidadenel
modelo.
Lagrficaidealesladiagonaldelprimer
cuadrante.
SantiagodelaFuenteFernndez
16
RegresinLinealMltiple
Lassiguientesgrficasvisualizancadavariableindependientecontralosvalorespredichos,loque
sirveparadetectarproblemasdeheteroscedasticidad.
Loidealesquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.
SPSSYLAREGRESINMLTIPLE_______________________________________________________
CondatosintroducidosenSPSS,intentamosajustarunmodelomedianteMnimosCuadrados
Ordinarios(MCO).
Paraello,seeligeenelMenAnalizar/Regresin/Lineal,comoseindicaenlafiguraadjunta.
EnelcuadrodelaRegresinlinealseintroducelavariabledependiente(Y)ylasvariables
independientesingresos(X1)ytamaofamiliar(X2).Enelbotn[Opciones]:
SantiagodelaFuenteFernndez
17
RegresinLinealMltiple
Enlasopciones[EstadsticosyGrficos],seprocedecomoapareceenlasseleccionesadjuntas.
Enelbotn[Grficos]seseleccionaresiduoscontravalorespredichos.AlpulsarAceptarseobtiene
elajustedelmodelo.
EnelVisordeSPPS,elajustedelModelo:
Respectoalaautocorrelacin,elestadsticodeDurbinWatsonde1,177nodejaclarolapresenciao
n
nodeautocorrelacin: DW =
(ui u i1 ) 2
i =2
u2i
i =1
DW 2 si = 0
2(1 ) DW 0 si = 1
DW 4 si = 1
Elanlisisdelavarianzaindicaqueelmodeloderegresinessignificativo(pvaloraproximadamente
cero,F2,12=113,141,pvalor<0,001).Portanto,serechazalahiptesisnuladequelavariabilidad
observadaenlavariablerespuestaseaexplicadaporelazar,admitiendoquehayalgntipode
asociacinentrelavariabledependienteylasindependientes.
SantiagodelaFuenteFernndez
18
RegresinLinealMltiple
Enlafiguradelhistogramadelos
residuosseobservaqueseajustabien
aunadistribucinnormal.
Enlafigurasepresentaelgrficodenormalidadque
seajustamuybienaladiagonaldelprimercuadrante.
Enelgrficoderesiduostipificadoscontra
valorespredichosexistendudassobrela
aleatoriedadporquelospuntosse
concentransiguiendorectasparalelas,lo
quepermitevislumbrarproblemasde
heteroscedasticidad.
SantiagodelaFuenteFernndez
19
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA
n
( Yi Y ) 2
Descomposicindelavariabilidad:
i=1
1
4243
SCT
Variacin
SumadeCuadrados
SCE = ( Yi Y ) 2 = 1,3595
Residual
SCR = ( Yi Y i) 2 = 0,0721
Total
SCT = ( Yi Y ) 2 = 1,4316
SCE
= 0,6797
2
1521
SCR
= 0,006
15 2 1
151
SCT
= 0,1023
15 1
15
15
i=1
i=1
1
4243
SCE
i=1
i=1
( Yi Y ) 2
i=1
1
4243
SCR
Gr.libertad Mediacuadrtica
15
Explicada
( Yi Y i) 2
FSnedecor
F=
SCE / 2
= 113,28
SCR /(15 2 1)
Clculos
Yi
(Yi Y) 2
Yi
u2i = (Yi Yi ) 2
(Yi Y) 2
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
0,011664
0,051984
0,047524
0,006084
0,506944
0,009604
0,000324
0,061504
0,565504
0,035344
0,035344
0,058564
0,011664
0,004624
0,024964
0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566
0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005
0,0237
0,0511
0,0320
0,0230
0,2849
0,0155
0,0010
0,0269
0,7381
0,0347
0,0446
0,0544
0,0005
0,0012
0,0329
Yi = 8,07
15
i =1
15
i=1
15
i=1
15
i =1
SCE / 2
= 113,28 > 3,8853 = F0 ,05; 2 , 12
SCR /(15 2 1)
As,pues,serechazalahiptesisnula,elcontrasteconjuntodelaFSnedecorindicaclaramentela
influenciadelmodeloenlavariablerespuesta.
SantiagodelaFuenteFernndez
20
RegresinLinealMltiple
Clculodeloscoeficientesdecorrelacin(mltipleysimple)
Estimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajusterealizado.
UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quesedefine:
n
R2 =
( Yi Y i) 2
SCE
1,3595
i=1
SCT
( Yi Y )
1,4316
= 0,9496
i=1
CoeficientedeDeterminacincorregido
porelnmerodegradosdelibertad
R2 = 1
SCR n k 1
0,006
=1
= 0,9413
SCT n 1
0,1023
Coeficientedecorrelacinsimpleentrelas
variables(Gasto,Ingreso):
(Gasto, Ingreso) =
Cov(Gasto, Ingreso)
= 0,9424
Gasto Ingreso
Tambinsepuedecalcularelcoeficientededeterminacindelaregresin(Gasto,Ingreso).Latabla
ANOVAdelmodeloser:
SCE 1,272
=
= 0,8882
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 = 0,9424
R2 =
Cov(Gasto, Tamao)
= 0,126
Gasto Tamao
CoeficientesdeCorrelacinparcial:
21
RegresinLinealMltiple
1
2
R
S . q i +1, 1 +1
0,149
= 15,05
0,000096
t2ingreso
15,052
Elcoeficientededeterminacin, R (Gasto,Ingreso; Tamao) = 2
=
= 0,9496
tingreso + n (k + 1) 15,052 + 12
2
Coeficientedecorrelacin.EstecoeficientemidelarelacinentrelasvariablesGastoeIngresolibres
delainfluenciadelavariableTamao.
Anlogamente,elCoeficientecorrelacinparcialentelasvariables(Gasto,Tamao):
(Gasto, Tamao; Ingreso) = 0,741
Estimacindelamediacondicionada
Supongamosquesetratadeestimarelgastomediodeunafamiliaconunosingresosdetreintamil
euros (X1 = 3) concuatromiembrosfamiliares (X2 = 4)
Aplicandoelmodeloderegresin: Y0 = 0,160 + 0,149 (3) + 0,077(4) = 0,595
IC E(Y0 ) = Y0 t / 2 , (nk1) SR
(1 X 1
SR =
1
X2 ) (X' X) 1 X1
X
2
(1 3 4) 0,0920,0160,013
0,2820,0130,067
1
3
4
= [0,557 ; 0,633]
154255
X' X = 42188,08140,8
55140,8219
[X' X]
= 0,0920,0160,013
0,2820,0130,067
(1 3 4) 0,0920,0160,013 3 = ( 0,044 0,008 0,025) 3 = 0,08
0,2820,0130,067 4
4
SantiagodelaFuenteFernndez
22
RegresinLinealMltiple
Ejercicio2.Partiendodelainformacin:
(a)
(b)
(c)
(d)
yj
x1 j
x2 j
1
3
4
6
7
10
15
16
18
20
2
1
3
4
5
8
7
9
11
12
17
15
13
10
9
8
6
5
3
4
Estimarelmodeloderegresin
Obtenerunamedidadefiabilidaddelajustelineal
QupartedelavariabilidaddeYquedaexplicadaatravsdelplanoderegresin?
Calcularloscoeficientesdecorrelacinlinealsimple
3
1115
4
1313
6
1410
7
159
= X + U =
Y=
10
188
15
176
16
195
18
1113
20
1124
0 u1
1 + u2
u
2 3
[ ] 1 X' Y
1 1 1 1 1 1 1 1 1 1
[X' X] = 2 1 3 4 5 8 7 9 11 12
17 15 13 10 9 8 6 5 3 4
SantiagodelaFuenteFernndez
1 2
1 1
1 3
1 4
1 5
1 8
1 7
1 9
1 11
1 12
17
15
13
10
90
10 62
9
5
3
23
RegresinLinealMltiple
[X' X] = 62 514 405 Adj [X' X] = Adj 62 514 405 = 26418 2040
1530
90 405 1014
90 405 1014 21150
1530
1296
[X' X]
90
10 62
1
= 62 514 405 =
30294
90 405 1014
21150
1530
1296 0,6982
1 1 1 1 1 1 1 1 1 1
Deotraparte, [X' Y ] = 2 1 3 4 5 8 7 9 11 12
17 15 13 10 9 8 6 5 3 4
0
1
= 1 = [X' X ] 1 X' Y =
30294
2
0,8721
0,0673
0,0505
0,6982
0,0505
0,0428
1
3
4
6 100
7
= 843
10 621
15
16
18
20
21150
1530
1296 621 0,67
Tambinsepodahaberrealizadoteniendoencuentalasecuacionesnormalesmnimo
cuadrticas:
10 Y = N + 10 X + 10 X
i
0
1 1i
2 2i
i=1
i=1
i=1
10
10
10
10
2
X
Y
X
X
X
=
SantiagodelaFuenteFernndez
24
RegresinLinealMltiple
TablaI
Yi
X1i
X2i
Yi2
X12i
1
3
4
6
7
10
15
16
18
20
2
1
3
4
5
8
7
9
11
12
17
15
13
10
9
8
6
5
3
4
1
9
16
36
49
100
225
256
324
400
100
62
90
1416
X1i X2i
X1i Yi
X2i Yi
4
1
9
16
25
64
49
81
121
144
X22i
289
225
169
100
81
64
36
25
9
16
34
15
39
40
45
64
42
45
33
48
2
3
12
24
35
80
105
144
198
240
17
45
52
60
63
80
90
80
54
80
514
1014
405
843
621
10 0 + 62 1 + 90 2 = 100
10
10
10
10
10
10
10
i=1
i=1
i=1
Yi = N0 + 1 X1i + 2 X2i
enformamatricial,
X 'X
64447
444
8
106290
62514405
904051014
[X 'X ]
6444444
4
74444444
8
0
357171 26418 21150
1
1 =
26418
2040
1530
30294
1530
1296
2
21150
1
0
100
1 = 843
621
2
X 'Y
67
8
100
843
621
0
10,32
= 0,93 Y = 10,32 + 0,93 X 0,67 X + Re siduo (Modeloregresinlineal)
1
2
2
0,67
(b) Lafiabilidaddelajustesereflejamediante R2 coeficientededeterminacinlineal:
Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados
ui = Yi Yi alasobservacionesmuestrales.
Deestemodo,paralaprimeraobservacin( Y1 = 1 ; X11 = 2 ; X21 = 17 ),setiene:
u1 = Y1 Y1 = 1 0,79 = 0,21
Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:
SantiagodelaFuenteFernndez
25
RegresinLinealMltiple
Yi
Yi
ui = Yi Yi
(Yi Y) 2
u2i = (Yi Yi ) 2
(Yi Y) 2
1
3
4
6
7
10
15
16
18
20
100
0,79
1,2
4,4
7,34
8,94
12,4
12,81
15,34
18,54
18,8
0,21
1,8
0,4
1,34
1,94
2,4
2,19
0,66
0,54
1,2
81
49
36
16
9
0
25
36
64
100
416
0,0441
3,24
0,16
1,7956
3,7636
5,76
4,7961
0,4356
0,2916
1,44
21,7266
84,8241
77,44
31,36
7,0756
1,1236
5,76
7,8961
28,5156
72,9316
77,44
394,3666
10
10
10
10
R2 =
( Yi Y i) 2
SCE
394,3666
i=1
SCT
10
( Yi Y ) 2
416
= 0,948 coeficientededeterminacinlineal
i=1
Coeficientededeterminacinlinealcorregidopor
elnmerodegradosdelibertad
R2 = 1
SCR n k 1
21,7266 / 7
=1
= 0,933
SCT n 1
416 / 9
(c) LapartedevariabilidadcontenidaenYquequedaexplicadaporelmtodoesprecisamente
R2 = 0,948 = 94 ,8% ,queessuficientementealta.
(d) Paracalcularloscoeficientesdecorrelacinlinealsimple,serecurrealatablaI,paracalcular
medias,varianzasycovarianzas
10
y=
yi 100
i=1
N
10
10
= 10
2y =
y2i
i=1
10
x1 =
x1i 62
i=1
N
10
x2 =
10
1416
102 = 41,6
10
10
= 6,2
2x1 =
10
x2i 90
i=1
y2 =
x12i
i=1
x12 =
514
6,22 = 12,96
10
x22 =
1014 2
9 = 20,4
10
10
=9
2x2 =
x22i
i=1
10
m1y =
x 1i y i
i=1
x1 y =
843
(6,2).10 = 22,3
10
x2 y =
621
9 .10 = 27,9
10
10
m2 y =
x 2i y i
i=1
N
10
m12 =
x 1i x 2 i
i=1
x1 x2 =
405
(6,2). 9 = 15,3
10
SantiagodelaFuenteFernndez
26
RegresinLinealMltiple
Loscoeficientesdecorrelacinlinealsimplesern:
r1y =
r2 y =
r12 =
m1y
x 1 y
m2 y
x 2 y
22,3
= 0,96
12,96 41,6
27,9
= 0,96
20,4 41,6
15,3
m12
=
= 0,94
x 1 x 2
12,96 20,4
PrcticaenSPSS____________________________________________________________________
EnelVisordeSPSS,sereflejanlosresultados:
SantiagodelaFuenteFernndez
27
RegresinLinealMltiple
Ejercicio3.Elgerentedeunaempresaestudialasposiblesrelacionesentrebeneficiosanuales,
gastosenpublicidadanualesyhorasextraordinariasanualesdelosempleados.Paraelloutiliza
datos,deestastresvariables,proporcionadasporalgunasempresasdelsector.Sedeseasaber:
Beneficios
(millones)
1,3
3,5
2,8
3
3,3
4
3,7
GastosPublicidad
(millones)
0,3
1,5
0,7
1,1
1,2
2
2
Horasextras
(100horas)
4
9
6
7,5
8
7
8
a) Matrizdevarianzascovarianzas.
b) Matrizdecorrelacin.
c) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelosgastosen
publicidad?
d) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelashoras
extraordinariasanualesdelosempleados?
e) Establecerunarelacinlinealqueexpliqueanualmentelosbeneficiosmediantelosgastosen
publicidadyhorasextras.
f) Hallarelcoeficientedecorrelacinmltiple.Quporcentajedelavarianzadebeneficiosqueda
explicadoporelmodelolinealobtenidoenelapartadoanterior?
g) Siunaempresadestina900.000eurosapublicidadysusempleadosrealizan500horas
extraordinariasalao,culseralaestimacindelosbeneficiosdedichaempresa?
h) Coeficientesdecorrelacinparcialdebeneficioscongastosenpublicidadydebeneficioscon
horasextrasdelosempleados.
g)Coeficientedecorrelacinmltiple.
SantiagodelaFuenteFernndez
28
RegresinLinealMltiple
a) Lamatrizdevarianzascovarianzasvienedefinida: VC = Sx 1 y
Sx y
2
2
y
Yi
X1i
X2i
Yi2
X12i
1,3
3,5
2,8
3
3,3
4
3,7
21,6
0,3
1,5
0,7
1,1
1,2
2
2
8,8
4
9
6
7,5
8
7
8
49,5
1,69
12,25
7,84
9
10,89
16
13,69
71,36
0,09
2,25
0,49
1,21
1,44
4
4
13,48
y=
= 3,0857 2y =
y2i
x1 =
x1i 8,8
i=1
=
= 1,2571 2x1 =
x2i 49,5
i=1
=
Yi X1i
Yi X2i
X1i X2i
0,39
5,25
1,96
3,3
3,96
8
7,4
30,26
5,2
31,5
16,8
22,5
26,4
28
29,6
160
1,2
13,5
4,2
8,25
9,6
14
16
66,75
S yx 2
Sx 1 x 2
2x2
S yx 1 = Sx 1 y
S = S
x2y
yx 2
Sx x = Sx x
2 1
1 2
Tablaoperaciones
i=1
y2 =
71,36
3,08572 = 0,6727
7
x2 =
Sx 2 x 1
2
x1
yi 21,6
i=1
=
X22i
16
81
36
56,25
64
49
64
366,25
S yx 1
x12i
i=1
x12 =
13,48
1,25712 = 0,3454
7
x22 =
366,25
7,07142 = 2,3167
7
= 7,0714 2x2 =
x22i
i=1
S yx 1 =
yi x1i
i=1
y x1 =
30,26
(3,0867).(1,2571) = 0,4438
7
y x2 =
160
(3,0867).(7,0714) = 1,0369
7
S yx 2 =
y i x 2i
i=1
N
7
Sx 1 x 2 =
x1i x2i
i=1
x1 x2 =
66,75
(1,2571). (7,0714) = 0,6462
7
b)Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
1
ryx 1 ryx 2
ryx 1 = rx 1 y
Rx = rx 1 y 1
rx 1x 2 donde ryx 2 = rx 2 y
rx x = rx x
rx y rx x
1
2 1
1 2
2 1
2
ryx 1 =
S yx 1
y x 1
S yx 2
0,4438
1,0369
= 0,9207 ryx 2 =
=
= 0,8306
y x 2
0,6727 0,3454
0,6727 2,3167
SantiagodelaFuenteFernndez
29
RegresinLinealMltiple
rx 1 x 2 =
Sx 1 x 2
x 1 x 2
0,6462
= 0,7224
0,3454 2,3167
0,9207 0,8306
1
Portanto,lamatrizdelascorrelacionesser: Rx = 0,9207
1
0,7224
0,8306 0,7224
1
NOTA.Enlaregresinlinealmltiplesurgeelproblemadequeexistaunacorrelacinlinealsimple
perfectaentredos(omsvariables)explicativas,yaqueestoimplicaqueuna(oms)columna(s)de
lamatrizXdeobservacionessoncombinacinlinealdeotra(s),conloqueelrangodeestamatrizX
sereduce.
Analizandolamatrizdelascorrelaciones Rx sedecidesiexisteonomulticolinealidad:
S Rx = 0 a Existemulticolinealidad
S Rx 0 a Existecuasimulticolinealidadomulticolinealidadimperfecta
Encasodemulticolinealidadserequieremodificarelmodeloorealizaralgntipodetransformacin
quelaelimine.
c) Serequierehallarelcoeficientededeterminacinentre (Y , X1 ) : R2yx 1 = ryx2 1 = 0,92072 = 0,8477
Esdecir,el84,77%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdel
gastoenpublicidad (X1 )
d) Serequierehallarelcoeficientededeterminacinentre (Y , X2 ) : R2yx 2 = ryx2 2 = 0,83062 = 0,6899
Esdecir,el68,99%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdelas
horasextrasdelosempleados (X2 )
e) Hayquedeterminarelplanoderegresindelosbeneficios(Y)sobreelgastoenpublicidad (X1 ) y
lashorasextrasdelosempleados (X2 )
Yi = 0 + 1 X1i + 2 X2i
Setienecomoreferencialamatrizdelasvarianzascovarianzas:
2y
VC = Sx 1 y
Sx y
2
S yx 1
2x1
Sx 2 x 1
SantiagodelaFuenteFernndez
30
RegresinLinealMltiple
VC yx 1
VC y
2 =
VC yx 2
VC y
0 = Y 1 X1 2 X2
0,6462
2,3167 0,3581
=
= 0,9360 2 = ()
0,6462 0,3826
2,3167
0,4438
1,0369
0,3454
0,6462
0,3454
0,6462
0,0714
=
= 0,1866
0,6462
0,3826
2,3167
Otraformadeenfocarlasituacin,desdelaTabladeoperaciones,mediantelasecuacionesMCO:
7
7
7
N0 + 1 X1i + 2 X2i = Yi
i=1
i=1
i=1
7 0 + 8,8 1 + 49,5 2 = 21,6
7
7
7
7
2
conlocual, 0 X1i + 1 X1i + 2 X1i X2i = X1i Yi 8,8 0 + 13,48 1 + 66,75 2 = 30,26
i=1
i=1
i=1
i=1
2
0 X2i + 1 X1i X2i + 2 X2i = X2i Yi
i=1
i=1
i=1
i=1
enformamatricial,
X 'X
644447
44448
7 8,8 49,5
[X 'X ]
6444444
7444444
8
0,6181 0,6085
0 21,6
0 3,6687
0,8648 0,2412
1 = 30,26 1 = 0,6181
160
0,1289
2 0,6085 0,2412
2
1
X 'Y
6
47
4
8
21,6
30,26
160
0
0,5895
= 0,9360 Y = 0,5895 + 0,936 X + 0,1866 X (Modeloregresinlineal)
1
2
1
0,1866
2
Conelmodeloderegresin,apartirdelaecuacin, Y = 0,5895 + 0,936 X1 + 0,1866 X2 ,seobtienen
lasprediccionesyresiduosasociados ui = Yi Yi alasobservacionesmuestrales.
Deestemodo,paralaprimeraobservacin( Y1 = 1,3 ; X11 = 0,3 ; X21 = 4 ),setiene:
SantiagodelaFuenteFernndez
31
RegresinLinealMltiple
Considerandotodoslospuntosmuestrales,seobtiene:
Yi
X1i
X2i
Yi
ui = Yi Yi
1,3
3,5
2,8
3
3,3
4
3,7
21,6
0,3
1,5
0,7
1,1
1,2
2
2
8,8
4
9
6
7,5
8
7
8
49,5
1,6167
3,6729
2,3643
3,0186
3,2055
3,7677
3,9543
0,3167
0,1729
0,4357
0,0186
0,0945
0,2323
0,2543
( Yi Y i) 2
SCE
4 ,2616
i=1
R =
= 7
=
= 0,9051 coeficientededeterminacinlineal
SCT
( Y Y ) 2 4 ,7086
2
i=1
SR2 =
SCR
0,4479
=
= 0,112 varianzaresidual
n k 1
4
Coeficientededeterminacinlinealcorregido
porelnmerodegradosdelibertad
R2 = 1
SCR n k 1
0,4479 / 4
=1
= 0,8573
SCT n 1
4 ,7086 / 6
VC yx 1
VC yy VCx 1x 1
VCij sonlosadjuntosdelamatrizdelasvarianzascovarianzas:
2y
VC = Sx 1 y
Sx y
2
VC yx 1 =
VC yy =
S yx 1
Sx 2 x 1
2
x1
0,4438 0,6462
= 0,3581
1,0369 2,3167
0,3454 0,6462
0,6727 1,0369
= 0,3826 VCx 1x 1 =
= 0,4833
0,6462 2,3167
1,0369 2,3167
SantiagodelaFuenteFernndez
VC yx 1
VC yy VCx 1x 1
0,3581
= 0,833
(0,3826)(0,4833)
32
RegresinLinealMltiple
ryx 1 .x 2 =
1
ryx 1
Rx = rx 1 y 1
correlacionessimples Rx delavariableexplicativa
rx y rx x
2 1
2
conlocual, ryx 1 .x 2 =
ryx 1 ryx 2 rx 1 x 2
(1 r )(1 r
2
yx 2
Anlogamente, ryx 2 .x 1 =
2
x1x 2
0,9207 (0,8306)(0,7224)
(1 0,83062 )(1 0,72242 )
ryx 2 ryx 1 rx 2 x 1
(1 r )(1 r
2
yx 1
2
x 2x1
0,9207 0,8306
ryx 2 1
1
0,7224
rx 1x 2 = 0,9207
1
1 0,8306 0,7224
= 0,833
0,8306 (0,9207)(0,7224)
(1 0,92072 )(1 0,72242 )
= 0,613
# Tambin,losCoeficientesdecorrelacinparcialsecalculanmediantelaexpresin:
ti =
R2 (Y , X1 ; X2 ) =
SR2 . q i +1 , 1 +1
t2i
coeficientededeterminacinparcial
t2i + n (k + 1)
setena:
tgastos _ publi =
1
2
R
S . q i +1, 1 +1
0,936
= 3,0075
(0,112) (0,8648)
Elcoeficientededeterminacinparcial:
ryx2 1 .x 2 = R2 (Beneficios , Gastos _ Publi;Horas extras) =
t2gasto _ publi
t2gasto _ publi + n (k + 1)
3,00752
= 0,6933
3,00752 + 4
Elcoeficientedecorrelacinparcial:
SantiagodelaFuenteFernndez
2
2
R
S . q i +1, 1 +1
0,1866
= 1,5530
(0,112) (0,1289)
33
RegresinLinealMltiple
Elcoeficientededeterminacinparcial:
= R (Beneficios ,Horas extras; Gastos _ Publi) =
2
yx 2 . x 1
2
thoras
_ extras
1,5532
= 0,37615
2
thoras
1,5532 + 4
_ extras + n (k + 1)
=
Elcoeficientedecorrelacinparcial:
CV
R2 = ryx2 1x 2 =
2y C yy
2y
matrizdevarianzascovarianzas: VC = Sx 1 y
Sx y
2
S yx 1
Sx 2 x 1
2
x1
0,3454 0,6462
= 0,3826
CV = 0,4438 0,3454 0,6462 = 0,0245 VC yy =
0,6462 2,3167
1,0369 0,6462 2,3167
ryx2 1x 2 = R2 = 1
R =r
2
2
yx 1 x 2
CV
C yy
2
y
=1
0,0245
= 0,905 ,obien,
(0,6727)(0,3826)
SantiagodelaFuenteFernndez
34
RegresinLinealMltiple
GuaPrcticaenSPSS________________________________________________________________
Estimaciones
Ofrecelasestimacionesdeloscoeficientesderegresinparcialnoestandarizados(B)y
estandarizados(Beta),juntoconlaspruebasdesignificacinindividualesparacontrastarlas
hiptesisdequeelvalorpoblacionaldeesoscoeficientesescero.
Enlacolumnaencabezadapor[Coeficientesnoestandarizados]seencuentranloscoeficientes i
queformanpartedelaecuacinenpuntuacionesdirectas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)
Estoscoeficientesnoestandarizadosseinterpretanenlostrminosyaconocidos.Sealarqueestos
coeficientesnosonindependientesentres.Dehecho,recibenelnombredecoeficientesen
regresinparcialporqueelvalorconcretoestimadoparacoeficienteseajustateniendoencuentala
presenciadelrestodevariablesindependientes.Conviene,portanto,interpretarlosconcautela.
Elsignodelcoeficientederegresinparcialdeunavariablepuedenoserelmismoqueeldel
coeficientedecorrelacinsimpleentreesavariableyladependiente.Estoseproducealosajustes
quesellevanacaboparaobtenerlamejorecuacinposible.Aunqueexistendiferentes
explicacionesparajustificarelcambiodesignodeuncoeficientederegresin,unadelasquedeben
SantiagodelaFuenteFernndez
35
RegresinLinealMltiple
desermsseriamenteconsideradaseslaqueserefierealapresenciadeunaltogradodeasociacin
entrealgunadelasvariablesindependientes(Colinealidad).
# LosCoeficientesBetaestnbasadosenlaspuntuacionestpicasy,portanto,sondirectamente
comparablesentres.Indicanlacantidaddecambio,enpuntuacionestpicas,queseproducirenla
variabledependienteporcadacambiodeunaunidadenlacorrespondientevariableindependiente
(manteniendoconstanteselrestodevariablesindependientes).
Estoscoeficientesproporcionanunapistamuytilsobrelaimportanciarelativadecadavariable
independienteenlaecuacinderegresin.Engeneral,unavariabletienetantomspeso
(importancia)enlaecuacinderegresincuantomayor(envalorabsoluto)essucoeficientede
regresinestandarizado.
ObservandoloscoeficientesBetadelejercicio,lavariableGastos_Publicidadeslamsimportante.
# Pruebasdesignificacin
Laspruebastysusnivelescrticos(ltimasdoscolumnasdelatabla)sirvenparacontrastarla
hiptesisnuladequeuncoeficientederegresinvale0enlapoblacin.Nivelescrticos(Sig)muy
pequeos(generalmentemenoresque0,05)indicanquedebemosrechazarlahiptesisnula.
Uncoeficientedeceroindicaausenciaderelacinlineal,demodoqueloscoeficientes
significativamentedistintosdeceroinformansobrequvariablessonrelevantesenlaecuacinde
regresin.
Observandoelnivelcrticoasociadoacadapruebat,lasdosvariablesutilizadas
(Gastos_Publicidad,Horas_extras)tienencoeficientessignificativamentedistintosdecero(en
todas,Sig<0,05).Portanto,lasdosvariablesindependientescontribuyensignificativamentea
explicarloqueocurreconlavariabledependiente(Beneficios).
Ajustedelmodelo
Muestraelcoeficientedecorrelacinmltiple,sucuadradocorregidoynocorregido,yelerrortpico
delosresiduos.TambinincluyelatablaresumendeANOVA,quecontienealestadsticoFdeFisher
Snedecorparacontrastarlahiptesisnuladequeelcoeficientedecorrelacinmltiple Ryx 1x 2 = 0
R2 = 0,905 coeficientedeterminacinmltiple
R 2 = 0,905 coeficientedeterminacinmltiple
corregido
ElestadsticoFcontrastalahiptesisnuladeque
elvalorpoblacionalde Ryx 1x 2 escero.
Enconsecuencia,permitedecidirsiexisterelacinlinealsignificativaentrelavariabledependientey
elconjuntodevariablesindependientestomadasjuntas.
Elvalordeunnivelcrtico(Sig<0,05)indicaqueexisterelacinlinealsignificativa,pudiendoafirmar
queelhiperplanodefinidoporlaecuacinderegresinofreceunbuenajustealanubedepuntos.
SantiagodelaFuenteFernndez
36
RegresinLinealMltiple
SCE = 7 (Y Y) 2 = 4 ,261 gl = k = 2
i
i=1
7
7
SCT = (Yi Y) 2 = 4 ,709 gl = n 1 = 7 1 = 6
i=1
7
R2 =
( Yi Y i) 2
SCE
i=1
SCT
( Yi Y ) 2
4 ,261
= 0,905 coeficientededeterminacinmltiple
4 ,709
i=1
SR2 =
SCR
0,448
=
= 0,112 varianzaresidual
nk 1
4
R2 = 1
F=
0,448 / 4
SCR n k 1
=1
= 0,857 coeficientededeterminacinmltiplecorregido
SCT n 1
4 ,709 / 6
SCE k
4 ,261 / 2
=
= 19,023 estadsticoobservadoFdeFisherSnedecor
SCR n k 1 0,448 / 4
AdvirtaselarelacinentreelcoeficientededeterminacinmltipleyelestadsticoF:
2
0,905
n k 1 R
F =
=2
= 19,023
(1 0,905)
k 1 R
H0 : 1 = 2 = 0
ContrastedelaHiptesisnula
19,023 > 6,9443 = F0 ,05; 2 ,4
Se
rechaza
H
si
F
F
;
k
,
(
n
1
)
Intervalosdeconfianza
Situadosenlatabla[Coeficientesderegresin],permitiendoqueademsdeobtenerunaestimacin
puntualdeloscoeficientesderegresinparcial,sepuedaobtenerelintervalodeconfianzapara
estoscoeficientes.
Estosintervalosinformansobreloslmitesenqueseencuentraelvalorpoblacionaldecada
coeficiente.Loslmitesseobtienensumandoyrestando1,96(SPSStrabajapordefectoconunnivel
designificacin0,95)errorestpicosalvalordelcorrespondientecoeficientederegresin.
Unaamplitudgrandeenlosintervalosdeconfianzaindicaquelasestimacionesobtenidassonpoco
precisasy,probablemente,inestables(coasquepuedeocurrir,porejemplo,cuandoexisten
problemasdecolinealidad).
SantiagodelaFuenteFernndez
37
RegresinLinealMltiple
Matrizdecovarianzas
Muestraunamatrizconlascovarianzasycorrelacionesexistentesentreloscoeficientesderegresin
parcial.
Descriptivos
Ofrecelamediayladesviacintpicadecadavariableyelnmerodecasosutilizadosenelanlisis.
Adems,ofrecelamatrizdecorrelacionesentreelconjuntodevariablesutilizadasenelanlisis,
Enlamatrizdecorrelaciones,cadacoeficientedecorrelacinapareceacompaadodesu
correspondientenivelcrtico(quepermitedecidirsobrelahiptesisdequeelcoeficientede
correlacinvale0enlapoblacin)ydelnmerodecasossobreelquesehacalculadocada
coeficiente.
Lgicamente,enladiagonaldelamatrizdecorrelacionesaparecenunos,pueslarelacinentre
unavariableyellamismaesperfecta.
SantiagodelaFuenteFernndez
38
RegresinLinealMltiple
Correlacionesparcialysemiparcial
Estaopcinpermiteobtenerloscoeficientesdecorrelacinparcialysemiparcialentrelavariable
dependienteycadavariableindependiente
Uncoeficientedecorrelacinparcialexpresaelgradoderelacinexistenteentredosvariablestras
eliminardeambaselefectodebidoatercerasvariables.Esdecir,loscoeficientesdecorrelacin
parcialexpresanelgradoderelacinexistenteentrecadavariableindependienteylavariable
dependientetraseliminardeambaselefectodebidoalrestodevariablesindependientesincluidas
enlaecuacin.
Uncoeficientedecorrelacinsemiparcialexpresaelgradoderelacinexistenteentredosvariables
traseliminardeunadeellaselefectodebidoatercerasvariables.Esdecir,estoscoeficientes
expresanelgradoderelacinexistenteentrelavariabledependienteylapartedecadavariable
independientequenoestexplicadaporelrestodevariablesindependientes.
Conloscoeficientesdecorrelacinparcialysemiparcial,aparecenlascorrelacionesdeordencero,es
decir,loscoeficientesdecorrelacincalculadossintenerencuentalapresenciadetercerasvariables
(setratadelosmismoscoeficientesqueaparecenenlatablaanteriordecorrelaciones).
Comparandoentresestoscoeficientes(deordencero,parcialysemiparcial),pueden
encontrarsepautasderelacininteresantes:Enlosdatosdelatablaseobserva,porejemplo:
LarelacinentrelavariabledependienteBeneficiosylavariableindependiente
Gastos_Publicitariosvale0,921.
Aleliminardelasvariables(Beneficios,Gastos_Publicitarios)elefectoatribuiblealas
Horas_extras,larelacinbajaa0,833(parcial).
CuandoelefectoatribuibleaHoras_extrasseeliminaslodelavariableBeneficios,larelacin
bajaa0,464(semiparcial).
Anlisisqueindicaquelarelacinentrelasvariables(Beneficios,Horas_extras)tienemuchomenor
pesoenlarelacin.
Colinealidad
Existeunacolinealidadperfectacuandounadelasvariablesindependientesserelacionadeforma
perfectamentelinealconunaomsdelrestodelasvariablesindependientesdelaecuacin.
Sedicequeexisteunacolinealidadparcial,osimplemente,colinealidad,cuandoentrelasvariables
independientesdeunaecuacinexistencorrelacionesaltas.
SantiagodelaFuenteFernndez
39
RegresinLinealMltiple
Lacolinealidadesunproblema,porqueenelcasodecolinealidadperfecta,noesposibleestimarlos
coeficientesdelaecuacinderegresin;yenelcasodecolinealidadparcial,aumentaeltamaode
losresiduostipificadosyestoproducecoeficientesderegresinmuyinestables(pequeoscambios
enlosdatos,comoquitaroaadiruncaso,producecambiosmuygrandesenloscoeficientesde
regresin).Estaesunadelasrazonesdeencontrarseconcoeficientesconsignocambiado:
<correlacionespositivaspuedentransformarseencoeficientesderegresinnegativos(incluso
significativamentenegativos)>.Curiosamente,lamedidadeajuste R2 nosealteraporlapresencia
decolinealidad,perolosefectosatribuidosalasvariablesindependientespuedenserengaosos.
Alevaluarlaexistenciaonodecolinealidad,ladificultadestribaendeterminarculeselgrado
mximoderelacinpermisibleentrelasvariablesindependientes.Sobreestacuestinnoexisteun
consensogeneralizado,aunquepuedeservirdegualapresenciadeindiciosquesepueden
encontrarenlosresultadosdeunanlisisderegresin(aunqueestosindiciospuedentenersu
origenenotrascausas):
ElestadsticoFqueevalaelajustegeneraldelaecuacinderegresinessignificativo,perono
loesningunodeloscoeficientesderegresinparcial.
Loscoeficientesderegresinparcialestandarizados(coeficientesBeta)estninfladostantoen
positivocomoennegativo(almismotiempo,adoptanvaloresmayoresque1ymenoresque1)
Existenvaloresdetoleranciapequeos(prximosa0,01).Latoleranciadeunavariable
independienteeslaproporcindevarianzadeesavariablequenoestasociada(queno
depende)delrestodevariablesindependientesincluidasenlaecuacin.Porejemplo,una
variableconunatoleranciade0,01esunavariablequecomparteel99%desuvarianzaconel
restodevariablesindependientes,loquesignificaquesetratadeunavariableredundantecasi
porcompleto.
Loscoeficientesdecorrelacinestimadossonmuygrandes(porencimade0,90envalor
absoluto).
SPSSofrecelaposibilidaddeobteneralgunosestadsticosquepuedenayudaradiagnosticarla
presenciadecolinealidad.Setratadeestadsticosorientativosque,aunquepuedenservirdeayuda
paradeterminarsiexistemayoromenorgradodecolinealidad,nopermitentomarunadecisin
clarasobrelapresenciaonodecolinealidad.
Losestadsticosdecolinealidadserecogenenlatabladecoeficientesderegresinparcialya
analizadaanteriormente,peroahoracontieneninformacinadicionalsobrelosnivelesdetolerancia
ysusinversos(FIV).
Elniveldetoleranciadeunavariableseobtienerestandoa1elcoeficientededeterminacin
mltiple (1 R2 ) queresultaalregresaresavariablesobreelrestodevariablesindependientes.
Valoresdetoleranciamuypequeosindicanqueesavariablepuedeserexplicadaporuna
combinacinlinealdelrestodevariables,loquesignificaqueexistecolinealidad.
SantiagodelaFuenteFernndez
40
RegresinLinealMltiple
Losfactoresdeinflacindelavarianza(FIV)sonlosinversosdelosnivelesdetolerancia.Reciben
estenombreporquesonutilizadosenelclculodelasvarianzasdeloscoeficientesderegresin.
CuantomayoreselFIVdeunavariable,mayoreslavarianzadelcorrespondientecoeficientede
regresin.Deah,queunodelosproblemasdelapresenciadecolinealidad(toleranciaspequeas,
FIVsgrandes)sealainestabilidaddelasestimacionesdeloscoeficientesderegresin.
LasiguientetabladelVisordeSPSSmuestralasolucinresultantedeaplicarunanlisisde
componentesprincipalesalamatrizestandarizadanocentradadeproductoscruzadosdelas
variablesindependientes:
LosAutovaloresinformansobrecuntasdimensionesofactoresdiferentessubyacenenelconjunto
devariablesindependientesutilizadas.
Lapresenciadevariosautovaloresprximosaceroindicaquelasvariablesindependientesestn
muyrelacionadasentres(colinealidad).Enestecaso,noexisteelproblema.
Losndicesdecondicinsonlarazcuadradadelcocienteentreelautovalormsgrande(2,889)y
cadaunodelrestodelosautovalores(porejemplo, 2,889 0,097 = 5,453 ).
Encondicionesdenocolinealidad,estosndicesnodebensuperarelvalorde15.ndicesmayores
que15indicanunposibleproblema,ndicesmayoresque30informandeunserioproblemade
colinealidad.
LasProporcionesdelavarianzarecogenlaproporcindevarianzadecadacoeficientederegresin
parcialqueestexplicadaporcadadimensinofactor.Encondicionesdenocolinealidad,cada
dimensin(factor)sueleexplicargranpartedelavarianzadeunsolocoeficiente(exceptoenloque
serefierealcoeficiente 0 oconstante,quesiempreapareceasociadoaunodelosotros
coeficientes.Enelejercicio,eltrminoconstanteapareceasociadoalasHoras_extras.
LaColinealidadesunproblemacuandounadimensinofactorconunndicedecondicinalto,
contribuyeaexplicargranpartedelavarianzadeloscoeficientesdedosomsvariables.
Cuandoenunconjuntodedatossedetectalapresenciadecolinealidad,hayqueaplicaralgn
tipodeactuacin:
(a) Aumentareltamaodelamuestra(estilcuandoexistenpocoscasosenrelacinconel
nmerodevariables).
(b) Crearindicadoresmltiplescombinandovariables(promediandovariables,efectuandoun
anlisisdecomponentesprincipalesparareducirlasvariablesaunconjuntodecomponentes
independientesyaplicardespuselanlisisderegresinsobreesoscomponentes.
(c) Excluirvariablesredundantes(variablesquecorrelacionanmuyaltoconotras),quedandocon
lasqueseconsideranmsimportantes.
(d) Utilizarunatcnicadeestimacinsesgada,comolaregresinridge.
SantiagodelaFuenteFernndez
41
RegresinLinealMltiple
Residuos:DurbinWatson
Elanlisisdelosresiduosproporcionainformacincrucialsobreelcumplimientodevariossupuestos
delmodeloderegresinlineal:independencia,homocedasticidad,normalidadylinealidad.
ElestadsticodeDurbinWatson(1951)proporcionainformacinsobreelgradodeindependencia
existenteentreellos:
n
DW =
(ui u i1 ) 2
i=2
u2i
i=1
DW 0 si = 1
2(1 ) DW 2 si = 0
DW 4 si = 1
ElestadsticodeDurbinWatsonoscilaentre0y4,tomaelvalor2cuandolosresiduosson
independientes.Losvaloresmenoresque2indicanautocorrelacinpositivaylosmayoresque2
autocorrelacinnegativa.Sepuedeasumirindependenciaentrelosresiduoscuando 1,5 DW 2,5
DW=1,933,valorqueseencuentraentre1,5y2,5,sepuedeasumirquelosresiduosson
independientes.
Diagnsticosporcaso
Valoresatpicosamsde...Conestaopcin,SPSSindicalosvaloresqueproducenunerrorgrande,
concretamenteamsdenvecesladesviacintpicadelavariableresiduos.Enestecaso,si
introducimos2o3desviacionestpicasnoseobtieneningnvaloratpico(pudieraocurrirqueal
poner1,5desviacionestpicas,sexistiera).
Laformadeprocederesseleccionar[CambioenR2]y[Valoresatpicosamsde...],elModelo
indicaelnmerodepasosdadosparaconstruirelmodeloderegresin(pasosquesean).Tambin
indicasienalgunodelospasossehaeliminadoalgunavariablepreviamenteseleccionada;enel
ejemploquenosocupanoseeliminaningunavariable.
LatablarecogeelvalordeR2encadapaso,elcambioexperimentadoporR2encadapaso,yel
estadsticoFysusignificacin.ElestadsticoFpermitecontrastarlahiptesisdequeelcambioenR2
valeceroenlapoblacin.
Alseleccionarlaprimeravariable(Modelo1),elvalordeR2es0,905.Lgicamente,enelprimer
paso, R2cambio = R2 .Alcontrastarlahiptesisdequeelvalorpoblacionalde R2cambio esceroseobtiene
SantiagodelaFuenteFernndez
42
RegresinLinealMltiple
unestadsticoFde19,023que,con2y4gradosdelibertad,tieneunaprobabilidadasociadade
0,009(comoestevaloresmenorque0,05),pudiendoafirmarquelaproporcindevarianza
explicadaporlavariableGastos_Publicidad(variableseleccionadaenelprimerpaso)es
significativamentedistintadecero.
Lasvariablesqueaparecenpermitenobtenerdistintosgrficosdedispersin.Lasvariables
precedidasporunasteriscosonvariablescreadasporSPSS.
Todaslasvariablespuedencrearseenlaopcin[Guardar]
marcandolasopcionespertinentesdelrecuadro
DEPENDNT:Variabledependientedelaecuacinderegresin.
ZPRED(pronsticostipificados):pronsticosdivididosporsudesviacintpica.Sonpronsticos
transformadosenpuntuacionesz(mediaceroydesviacintpica1)
ZRESID(residuostipificados):residuosdivididosporsudesviacintpica.Eltamaodecada
residuotipificadoindicaelnmerodedesviacionestpicasquesealejadesumedia,demodo
que,siestnnormalmentedistribuidos(cosaqueseasumeenelanlisisderegresin).El95%
deestosresiduosseencontrarenelrango[1,96,1,96],loquepermiteidentificarfcilmente
casosconresiduosgrandes.
SantiagodelaFuenteFernndez
43
RegresinLinealMltiple
DRESID(residuoseliminadosocorregidos):residuosobtenidosalefectuarlospronsticos
eliminandodelaecuacinderegresinelcasosobreelqueseefectaelpronstico.Elresiduo
correspondienteacadacasoseobtieneapartirdelpronsticoefectuadoconunaecuacinde
regresinenlaquenosehaincluidoesecaso.Sonmuytilesparadetectarpuntosdeinfluencia
(casoscongranpesoenlaecuacinderegresin).
ADJPRED(pronsticoscorregidos):pronsticosefectuadosconunaecuacinderegresinenla
quenoseincluyeelcasopronosticado(verresiduoseliminadosocorregidos).Diferencias
importantesentrePREDyADJPREDdelatanlapresenciadepuntosdeinfluencia(casoscongran
pesoenlaecuacinderegresin).
SRESID(residuosestudentizados):residuosdivididosporsudesviacintpica,basadastaen
cmodeprximoseencuentrauncasoasu(s)medias(s)enla(s)variable(s)independiente(s).
Aligualqueocurreenlosresiduosestandarizados(alosqueseparecenmucho),los
estudentizadosestnescaladosenunidadesdedesviacintpica.Sedistribuyensegnel
modelodeprobabilidadtStudentcon(np1)gradosdelibertad(pserefierealnmerode
variablesindependientes).Conmuestrasgrandes,aproximadamenteel95%deestosresiduos
deberaencontrarseenelrango[2,2].
SDRESID(residuoscorregidosestudentizados):residuoscorregidosdivididosporsudesviacin
tpica.tilestambinparadetectarpuntosdeinfluencia.
Algunasdeestasvariablespermitendetectarpuntosdeinfluencia,pero,entretodas,haydos
variables(ZPRED,ZRESID)cuyodiagramadedispersininformasobreelsupuestode
homocedasticidadoigualdaddevarianzas.
Elsupuestodeigualdaddevarianzasimplicaquelavariacindelosresiduosdebedeseruniforme
entodoelrangodevalorespronosticados.O,loqueeslomismo,queeltamaodelosresiduoses
independientedeltamaodelospronsticos,dedondesedesprendequeeldiagramadedispersin
nodebemostrarningunapautadeasociacinentrelosresiduosylospronsticos.
Paraobtenerundiagramadedispersinconlasvariables(ZPRED,ZRESID):
Eneldiagramadedispersinseobservaqueaunquelosresiduosylospronsticosparecenser
independientes(lanubedepuntosnosigueningunapautadeasociacinclara,nilinealnideningn
otrotipo),noestclaroquelasvarianzasseanhomogneas.Msbien,parecequeamedidaquevan
aumentandoelvalordelospronsticosvadisminuyendoladispersindelosresiduos.
SantiagodelaFuenteFernndez
44
RegresinLinealMltiple
Lospronsticosmenoresquelamedia(conpuntuacintpicapordebajodecero)estnms
concentradosquelospronsticosmayoresquelamedia(conpuntuacintpicamayorquecero).
Cuandoundiagramadedispersindelatalapresenciadevarianzasheterogneas,puedeutilizarse
unatransformacindelavariabledependientepararesolverelproblema(talcomouna
transformacinlogartmicaounatransformacinrazcuadrada).Noobstante,alutilizaruna
transformacindelavariabledependiente,debecuidarseelproblemadeinterpretacinqueaade
elcambiodeescala.
Eldiagramadedispersindelasvariables(ZPRED,ZRESID)poseelautilidadadicionaldepermitir
detectarrelacionesdetiponolinealentrelasvariables.Cuandolarelacinesnolineal,eldiagrama
puedecontenerindiciossobreotrotipodefuncindeajuste(losresiduosestandarizadospodranen
lugardeestarhomogneamentedispersosseguiruntrazadocurvilneo).
Normalidad
ElrecuadrodeGrficosdelosresiduostipificadoscontienedosopcionesqueinformansobreel
gradoenquelosresiduostipificadosseaproximanaunadistribucinnormal:HistogramayGrfico
deprobabilidadnormal.
HISTOGRAMA:Ofreceunhistogramadelosresiduostipificadosconunacurvanormal
superpuesta.Lacurvaseconstruyetomandounamediadeceroyunadesviacintpicadeuno.
Esdecir,lamismamediaylamismadesviacintpicaquelosresiduostpicostipificados.
Enelhistogramadelejercicioseobservaquelapartecentralacumulamscasosdelosque
existenenunacurvanormal.Ladistribucinesalgoasimtricaaladerecha.Ladistribucinde
losresiduosnopareceseguirelmodelodeprobabilidadnormal,demodoquelosresultadosdel
anlisisdebendeinterpretarseconcautela.
GRFICOSDELOSRESIDUOSTIPIFICADOS.Permiteobtenerundiagramadeprobabilidad
normal.Enelejedeabscisasestarepresentadalaprobabilidadacumuladaquecorresponde
acadaresiduotipificado.Eldeordenadasrepresentalaprobabilidadacumuladatericaque
correspondeacadadesviacintpicaenunacurvanormalN(0,1).
SantiagodelaFuenteFernndez
45
RegresinLinealMltiple
Lospuntosnoseencuentranalineadossobre
ladiagonaldelgrfico,indicandoelposible
incumplimientodelsupuestodenormalidad.
EnelGrficodevaloresobservadosfrentea
lospredichos(DEPENDNT,ZPRED),los
valoressedebenalinearenladiagonaldel
cuadrante,sihubieramuchadispersin,
implicaraquenoseverificanlashiptesisde
homocedasticidad.
Enestecasoexisteigualdaddevarianzas.
SeleccionandolaopcinGenerartodoslosgrficos
parciales,SPSSmuestralagrficadelavariable
dependientefrenteatodaslasvariablesindependientes,
comprobandosiexistelinealidadentrelasvariables.
Observandolosgrficos,sepodraimaginaruncomportamientolineal.
SantiagodelaFuenteFernndez
46
RegresinLinealMltiple
Pulsandoelbotn[Guardar]seabreunabanicode
opciones.
Todosloscasoscontribuyenalaobtencindelarecta
deregresin,peronotodoslohacenconlamisma
fuerza.Lospuntosdeinfluenciasoncasosque
afectandeformaimportantealvalordelaecuacin
deregresin.
Lapresenciadepuntosdeinfluencianotieneporqu
constituirunproblemaenregresin,dehecholo
normalesqueenunanlisisderegresinnotodos
loscasostenganlamismaimportancia(desdeel
puntodevistaestadstico).Noobstante,elanalista
debedeserconscientedetalespuntos,porque,
entreotrascosas,podratratarsedecasoscon
valoreserrneos.Siendoconscientesdesiexisteno
nopuntosdeinfluenciaesposiblecorregirelanlisis.
SemarcantodaslasopcionesdelosrecuadrosDistanciasyEstadsticosdeinfluencia(todasestas
opcionescreanvariablesnuevasenelarchivodedatos).
Distancias
Esterecuadrorecogetresmedidasqueexpresanelgradoenquecadacasosealejadelosdems.
Mahalanobis.Mideelgradodedistanciamientodecadacasorespectodelospromediosdel
conjuntodevariablesindependientes.Enregresinsimple,estadistanciaseobtieneelevandoal
cuadradolapuntuacintpicadecadacasoenlavariableindependiente.
Enregresinmltipleseobtienemultiplicandopor(n1)elvalordeinfluenciadecadacaso.
Cook.Mideelcambioqueseproduceenlasestimacionesdeloscoeficientesderegresinalir
eliminandocadacasodelaecuacinderegresin.UnadistanciadeCookgrandeindicaqueese
casotieneunpesoconsiderableenlaestimacindeloscoeficientesderegresin.
ParaevaluarestasdistanciaspuedeutilizarseladistribucinFcon(p+1)y(np1)gradosde
libertad,dondepeselnmerodevariablesindependientesyneltamaodelamuestra.
Engeneral,uncasoconunadistanciadeCooksuperiora1debedeserrevisado.
Valoresdeinfluencia.Representanunamedidadelainfluenciapotencialdecadacaso.
Respectoalasvariablesindependientes,unvalordeinfluenciaesunamedidanormalizadadel
gradodedistanciamientodeunpuntodelcentrodesudistribucin.Lospuntosmuyalejados
puedeninfluirdeformamuyimportanteenlaecuacinderegresin,peronotienenporqu
hacerlonecesariamente.
Conmsde6variablesyalmenos20casos,seconsideraqueunvalordeinfluenciadebedeser
revisadossiesmayorque(3p/n).Losvaloresdeinfluenciatienenunmximode(n1)/n.
Comoreglageneral,paraorientardecisiones,losvaloresmenoresque0,2seconsideranpoco
problemticos;losvalorescomprendidosentre0,2y0,5seconsideranarriesgados;ylosvalores
mayoresque0,5debieranevitarse.
SantiagodelaFuenteFernndez
47
RegresinLinealMltiple
Estadsticosdeinfluencia
Esterecuadrocontienevariosestadsticosquecontribuyenaprecisarlaposiblepresenciadepuntos
deinfluencia.
DfBetas(diferenciaenlasbetas).Mideelcambioqueseproduceenloscoeficientesde
regresinestandarizados(betas)comoconsecuenciadeireliminandocadacasodelaecuacin
deregresin.SPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesbeta
tienelaecuacinderegresin,esdecir,tantoscomovariablesindependientesmsuno(el
correspondientealaconstantedelaecuacin).
DfBetastipificadas.EselcocienteentreDfBetasysuerrortpico.
Generalmente,unvalormayorque 2 n delatalapresenciadeunposiblepuntodeinfluencia.
ElSPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesBetatienela
ecuacinderegresin.
DfAjuste(diferenciaenelajuste).Mideelcambioqueseproduceenelpronsticodeuncaso
cuandoesecasoeseliminadodelaecuacinderegresin.
DfAjustetipificado.EselcocienteentreDfAjusteysuerrortpico.
Generalmente,seconsideranpuntosdeinfluencialoscasosenlosqueDfAjustetipificadoes
mayorque 2 (p n) ,siendopelnmerodevariablesindependientesyneltamaodela
muestra.
Raznentrelascovarianzas(RV).Indicaenqumedidalamatrizdeproductoscruzados(base
delanlisisderegresin)cambiaconlaeliminacindecadacaso.
Seconsideraqueuncasoesunpuntodeinfluenciasi RV > 3 + p n
Crearcoeficientesdelosestadsticos.ElSPSSofreceunatablaresumenqueincluye,paratodos
losestadsticosdelrecuadroDistancias,elvalormnimo,elmximolamedia,ladesviacintpica
yelnmerodecasos.Latablatambinrecogeinformacinsobrelospronsticosylosresiduos.
Sealarquelospuntosdeinfluencianotienenporqutenerresiduosespecialmentegrandes,el
problemaquepresentannoesprecisamentelafaltadeajuste.Apesardeello,esconveniente
SantiagodelaFuenteFernndez
48
RegresinLinealMltiple
examinarlosporsudesproporcionadainfluenciasobrelaecuacinderegresin.Comostospuntos
sondistintosdelosdems,convieneprecisarenqusondistintos.
Unavezidentificadosyexaminados,sepuedeneliminardelanlisissimplementeporqueentorpecen
elajuste,oporquesupresenciaproducemedidasdeajusteinfladas.
Valorespronosticados
Elobjetivoprincipaldelanlisiseseldepoderefectuarpronsticosencasosnuevos.Sehan
utilizadoloscoeficientesderegresinparcial(B)paraconstruirlarectaderegresin:
Y = 0,5895 + 0,936 X1 + 0,1866 X2
Conocidoslospesosdelaecuacinderegresin,sepuedeutilizarlaopcindelmen
Transformar/Calcularvariableparaobtenerlospronsticosquelaecuacinasignaacadacaso.Pero
estonoesnecesarioporqueelsubcuadroGuardarnuevasvariablescontieneopcionesrelacionadas
conlospronsticos:
Lasopcionesdeesterecuadrogeneran,enelEditordedatos,cuatronuevasvariables,quereciben
automticamenteunnombreseguidodeunnmerodeserie(nombre_#).Porejemplo,laprimera
vezquesesolicitanduranteunasesinlospronsticostipificados,lanuevavariableconlos
pronsticostipificadosrecibeelnombredezpr_1.Sisevuelvenasolicitarpronsticostipificados
durantelamismasesin,lanuevavariablerecibeelnombredezpr_2,yassucesivamente.
Notipificados.Pronsticosquesederivandelaecuacinderegresinenpuntuacionesdirectas,
recibenelnombre:pre_#.
Tipificados.Pronsticosconvertidosenpuntuacionestpicas(restandoacadapronsticola
mediadelospronsticosydividiendoladiferenciaporladesviacintpicadelospronsticos),
recibenelnombre:zpr_#.
Corregidos.Pronsticoquecorrespondeacadacasocuandolaecuacinderegresinseobtiene
sinincluiresecaso,nombre:adj_#.
E.T.delpronsticopromedio.Errortpicodelospronsticoscorrespondientesaloscasosque
tienenelmismovalorenlasvariablesindependientes,nombre:sep_#.
# Alefectuarunpronsticohaydossituacionesdiferentes:
c Efectuarunpronsticoindividual Yi parauncasoconcreto Xi
d Pronosticarparacadacasolamediadelospronsticos Y0 correspondientesatodosloscasos
conelmismovalor X 0 enlas(s)variable(s)independiente(s).Aestamediasellamapronstico
promedio.
Alefectuarunpronsticoindividualparaundeterminadovalorde Xi ,elerrordeestimacino
variacinresidual (Y Yi ) puedecontenerdosfuentesdeerror:
1. Ladiferenciaentreelvalorobservadoenlavariabledependiente Yi ylamediapoblacional
correspondientea X 0 ( Y / X 0 ).
SantiagodelaFuenteFernndez
49
RegresinLinealMltiple
2. Ladiferenciaentreelpronsticoparaesecaso (Y o Y ) ylamediapoblacionalcorrespondientea
X 0 ( Y / X 0 ).
Enunpronsticoindividualentranenjuegolasdosfuentesdeerror,mientrasqueenunpronstico
promediosloentralasegundafuentedeerror.Enconsecuencia,paraunvalordadode X 0 ,elerror
tpicodelpronsticopromediosermenoroigualqueelerrortpicodelvalorindividual.
Portanto,alconstruirintervalosdeconfianzaparalospronsticos,laamplituddelintervalo
cambiardependiendodelerrortpicoquesetomecomoreferencia.
Intervalosdepronstico.Lasopcionesdelrecuadropermitenobtenerdostiposdeintervalos:
~Media:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticospromedio.
~Individuos:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticosindividuales.
LaopcinIntervalodeconfianzak%permiteestablecerelniveldeconfianzaconelquese
construyenlosintervalosdeconfianza.
Cadaunadelasopciones(mediaeindividuos)generaenelEditordedatosdosnuevasvariablescon
ellmiteinferiorysuperiordelintervalo.Estasnuevasvariablesrecibenlossiguientesnombres:
lmci_#:lmiteinferiorICpronsticomedio
lici_#:lmiteinferiorICpronsticoindividual
SantiagodelaFuenteFernndez
umci_#:lmitesuperiorICpronsticomedio
uici_#:lmitesuperiorICpronsticoindividual
50
RegresinLinealMltiple
CRITERIOSDESELECCINDEVARIABLES
LosmtodosporpasosqueincluyeelSPSSparalaseleccinde
variablessebasanendoscriteriosestadsticos:
1.
2.
Criteriodesignificacin(ProbabilidaddeF,valordeF)
Criteriodetolerancia
1. Criteriodesignificacin.Sloincorporaalmodeloderegresinaquellasvariablesque
contribuyendeformasignificativaalajustedelmodelo.
Lacontribucinindividualdeunavariablealajustedelmodeloseestablececontrastando,apartir
delcoeficientedecorrelacinparcial,lahiptesisdeindependenciaentreesavariableylavariable
dependiente.Paradecidirsisemantieneoserechazaesahiptesisdeindependencia,elSPSS
incluyedoscriteriosdeseleccin:
ProbabilidaddeF.Unavariablepasaaformarpartedelmodeloderegresinsielnivelcrtico
asociadoasucoeficientedecorrelacinparcialalcontrastarlahiptesisdeindependenciaes
menorque0,05(probabilidaddeentrada).Yquedafueradelmodeloderegresinlinealsiel
nivelcrticoesmayorque0,10(probabilidaddesalida).
ValordeF.Unavariablepasaaformarpartedelmodeloderegresinlinealsielvalordel
estadsticoFutilizadoparacontrastarlahiptesisdeindependenciaesmayorque3,84(valorde
entrada).YquedafueradelmodeloderegresinlinealsielvalordelestadsticoFesmenorque
2,71(valordesalida).
LasopcionesdelrecuadroCriteriosdelmtodoporpasospermiteseleccionarunodelosdos
criteriosdesignificacindisponibles,ascomomodificarlasprobabilidadesdeentradaysalida.
2. Criteriodetolerancia.Superadoelniveldesignificacin,unavariablesolopasaaformarparte
delmodelosisuniveldetoleranciaesmayorqueelnivelestablecidopordefecto(esteniveles
mayorque0,0001,peropuedecambiarsemediantesintaxis)y,siadems,ancorrespondindoleun
coeficientedecorrelacinparcialsignificativamentedistintodecero,suincorporacinalmodelo
hacequealgunadelasvariablespreviamenteseleccionadaspaseatenerunniveldetoleranciapor
debajodelestablecidopordefecto.
Unaformaintuitivadecomprenderyvalorarelefectoresultantedeaplicarestoscriteriosde
seleccinconsisteenobservarelcambioquesevaproduciendoenelcoeficientededeterminacin
R2 amedidaquesevanincorporando(oeliminando)variablesalmodelo.
Estecambiosepuededefinircomo R2cambio = R2 R2i ,donde R2i serefierealcoeficientede
determinacinobtenidocontodaslasvariablesindependientesexceptolaisima.
Uncambiograndeen R2 indicaqueesavariablecontribuyedeformaimportanteaexplicarloque
ocurreconlavariabledependiente.
Paraobtenerlosvaloresde R2cambio ysusignificacin(elgradoenqueelcambioobservadoen
R2 difieredecero)hayquemarcarlaopcinCambioenRcuadradodelbotn[Estadsticos].
SantiagodelaFuenteFernndez
51
RegresinLinealMltiple
MTODOSDESELECCINDEVARIABLES
Existendiferentesmtodosparaseleccionarlas
variablesindependientesquedebeincluirun
modeloderegresin,perolosquemayor
aceptacinsonlosmtodosdeseleccinpor
pasos(stepwise).Conestosmtodos,se
seleccionaenprimerlugarlamejorvariable(con
algncriterioestadstico);acontinuacin,la
mejordelasrestantes;yassucesivamentehasta
quenoquedenvariables.
TodaslasopcionesseencuentrandisponiblesenelmendelbotndespegableMtodo.
Dosdelosmtodospermitenincluiroexcluir,enunsolopaso,todaslasvariablesindependientes
seleccionadas:
Introducir:Construyelaecuacinderegresinutilizandotodaslasvariablesseleccionadasenla
listadeIndependientes.Eselmtodoutilizadopordefecto.
Eliminar:EliminaenunsolopasotodaslasvariablesdelalistadeIndependientesyofrecelos
coeficientesderegresinquecorresponderanacadavariableenelcasodequepasarana
formarpartedelaecuacinderegresin.
Elrestodeseleccindevariablessonmtodosporpasos,estoes,mtodosquevanincorporandoo
eliminandovariablespasoapasodependiendoquestascumplanonoloscriteriosdeseleccin:
Haciadelante:Lasvariablesseincorporanalmodeloderegresinunaauna.
Enelprimerpasoseseleccionalavariableindependiente,queademsdesuperarloscriterios
deentrada,msaltocorrelaciona(positivaonegativamente)conladependiente.
Enlossiguientespasosseutilizacomocriteriodeseleccinelcoeficientedecorrelacinparcial:
<<Vansiendoseleccionadasunaaunalasvariablesque,ademsdesuperarloscriteriosde
entrada,poseenelcoeficientedecorrelacinmsaltoenvalorabsoluto(larelacinseparcializa
controlandoelefectodelasvariablesindependientespreviamenteseleccionadas).
Laseleccindevariablessedetienecuandonoquedanvariablesquesuperenelcriteriode
entrada(utilizarcomocriteriodeentradaeltamao,envalorabsoluto,delcoeficientede
correlacinparcial,esequivalenteaseleccionarlavariableconmenorprobabilidaddeFomayor
valordeF)>>.
Haciaatrs:Comienzaincluyendoenelmodelotodaslasvariablesseleccionadasenlalista
Independientesyluegoprocedeaeliminarlasunaauna.
Laprimeravariableeliminadaesaquellaque,ademsdecumplirloscriteriosdesalida,poseel
coeficientederegresinmsbajoenvalorabsoluto.
Encadapasosucesivosevaneliminandolasvariablesconcoeficientesderegresinno
significativos,siempreenordeninversoaltamaodesunivelcrtico.
SantiagodelaFuenteFernndez
52
RegresinLinealMltiple
Laeliminacindevariablessedetienecuandonoquedanvariablesenelmodeloquecumplan
loscriteriosdesalida.
Pasossucesivos:EsunmtodomezcladelosmtodosHaciadelanteyHaciaatrs.
ComoelmtodoHaciadelante,enelprimerpasocomienzaseleccionandolavariable
independienteque,ademsdesuperarloscriteriosdeentrada,msaltocorrelaciona(envalor
absoluto)conlavariabledependiente.
Acontinuacin,seleccionalavariableindependienteque,ademsdesuperarloscriteriosde
entrada,poseeelcoeficientedecorrelacinparcialmsalto(envalorabsoluto).
Cadavezqueseincorporaunanuevavariablealmodelo,lasvariablespreviamente
seleccionadasson,aligualqueenelmtodoHaciaatrs,evaluadasnuevamentepara
determinarsisiguencumpliendoonoloscriteriosdesalida.Sialgunavariableseleccionada
cumpleloscriteriosdesalida,eseliminadadelmodelo.
Elprocesosedetienecuandonoquedenvariablesquesuperenelcriteriodeentradaylas
variablesseleccionadasnoverifiquenloscriteriosdesalida.
SantiagodelaFuenteFernndez
53