01 Regresion Lineal

Angel Fernando Argüello Ortiz
Licenciado en Estadística
Doctor en Finanzas Públicas
16 años como Catedrático

Universidad Veracruzana
Universidades Privadas
Colegio de Veracruz
Experiencia laboral: SEV, INEGI, COESPO,

UV, Consultor-Asesor
Contacto
afarguello@hotmail.com
aarguello@uv.mx
Consejo Estatal de Población

8186044
Celular 2281048466
Análisis de Regresión
Contenido
1. El Modelo de regresión lineal simple (MRLS)
1. El Modelo de Regresión Lineal Simple (MRLS)
2. Estimadores de mínimos cuadrados
3. Propiedades de los Estimadores
4. Inferencia en el modelo de regresión lineal simple
1. Inferencia para los coeficientes de regresión
2. Inferencia para la función de regresión
3. Predicción
Contenido
2. Diagnóstico y Medidas Remédiales
1. Análisis gráfico de los residuos
2. Observaciones de influencia y outliers
3. Transformaciones
1. Transformaciones en la variable respuesta
2. Transformaciones en las variables explicatorias
3. Transformaciones a ambos lados
4. Transformación de Box-Cox
4. Colinealidad
1. Remedio de la Colinealidad
5. Proceso de modelación estadística
1. Selección de variables
Contenido
3. El Modelo de Regresión Lineal Múltiple
1. El Modelo de regresión lineal múltiple
2. Estimadores de mínimos cuadrados.
3. Propiedades de los estimadores.
4. Inferencia en el modelo de regresión lineal múltiple
1. Inferencia para los coeficientes de regresión

2. Inferencia para la función de regresión
3. Predicción
Durante el curso se expondrán los principios estadísticos en los cuáles se
basan el Análisis de Varianza, el Análisis de Covarianza y la Regresión
Lineal.
Aplicando los métodos más idóneos para el correcto análisis de datos

relevantes haciendo uso de software estadístico que facilite la
interpretación de los resultados.
Un objetivo de la ciencia es encontrar relaciones entre eventos que
ocurren en el mundo para poder describirlos, interpretarlos y
modelarlos.
Por ello los modelos estadísticos lineales se han convertido en un valioso

instrumento para las investigaciones en general. Por otro lado, las
técnicas de Análisis de Varianza y Regresión Lineal, prevén un esquema
adecuado para resolver problemas de una amplia aplicación en muchas
disciplinas, la cuales involucran el criterio de prueba de hipótesis de su
interés.
Inicio de curso: 17 de Octubre de 2016
Conclusión del curso: 11 de Noviembre de 2016
Total de clases: 12
Criterios de Evaluación:
Asistencia
Participación
Ejercicios en clase
Exposición de trabajo final
Un modelo es la forma de representar un objeto o fenómeno específicos,
conceptualizados o entendidos de manera abstracta, ya que su ocurrencia
puede ser real o simulada. El objetivo de la modelación es explicar,
representar y simular comportamiento determinados de una o más
variables de estudios.
Con la modelación representamos nuestra concepción mental de la

realidad, para después expresarla mediante un modelo matemático que
permita su replicación de manera simulada.
En esta unidad se abordará la importancia de elaborar un modelo
estadístico que explique de manera clara y completa el comportamiento de
dos variables, que a su vez den respuesta a un problema específico.
Demostraremos que las técnicas de regresión son de gran apoyo para el

análisis estadístico, ya que pueden predecir el comportamiento de dos o
más variables (dependiente e independiente), bajo las cuales se asume un
grado de asociación, explicándose una relación de causa-efecto.
El análisis de regresión tiene sus orígenes con Sir Francis Galton (1822 -
1911), un antropólogo británico quien buscaba explicar la relación de
causa-efecto entre la altura de los padres e hijos, a la cual se le denominó
“regresión a la mediocridad” o “Ley de la Regresión Filial”.
El análisis de regresión permite identificar y modelar las relación entre dos

o más variables, con la finalidad de obtener información de una de ellas
para concluir sobre el comportamiento de la otra o las otras.
Cuando son dos variables continuas las que se encuentran bajo estudio, y trata de
estimarse su nivel de asociación, se pueden presentar diferentes situaciones:
1. En la medida en que una variable se incrementa la otra también lo hace.
2. A medida que una variable se incrementa la otra disminuye.
3. Los cambios en una variable son completamente ajenos a los cambios en la
otra variable.
Estos comportamientos de la asociación entre variables, suelen explicarse
matemáticamente en términos de correlación.
La correlación mide el grado de asociación entre dos variables en términos
lineales.
Una manera rápida y visual de identificar el nivel y tipo de correlación es

mediante el gráfico de dispersión, que nos permitirá:
1. Identificar si existe o no un nivel de asociación entre las variables.

2. Determinar el tipo de correlación expresada en el gráfico: positiva,
negativa o nula.
3. Identificar el nivel de proximidad entre los datos; es decir, el grado de
correlación: fuerte, débil o nula
4. Diseñar una estrategia metodológica de análisis que confirme lo
expresado por el diagrama de dispersión.
Tipos de Correlación
Correlación Positiva
Visualmente, el comportamiento de los datos representa una recta
creciente, asociada a las dos variables bajo estudio.
.
.
. .
.
.
.
.
.
.
. .
.
.
Correlación Negativa
Visualmente, el comportamiento de los datos representa una recta
decreciente, asociada a las dos variables bajo estudio.
. .
. .
. .
.
. .
.
.
.
.
. .
.
. .
Correlación Nula
Visualmente, el comportamiento de los datos no puede asociarse a una
recta por su gran dispersión.
. .
.
. .
. . .
.
.
. .
. .
. . . .
. . .
.
.
.
.
.
Grado de Correlación
Correlación Fuerte
Mientras más cercanos estén los puntos a la recta más fuerte será la
correlación.
.
.
. .
.
.
.
.
.
.
. .
.
.
Correlación Débil
Mientras más separados estén los puntos a la recta más débil será la
correlación.
. .
.
. . .
. . .
.
.
.
Correlación Nula
Se percibe una correlación nula cuando los puntos tienen una forma
redondeada.
. .
.
. .
. . .
.
.
. .
. .
. . . .
. . .
.
.
.
.
.
Práctica 1
Con base en la tabla de excel enviada identificar mediante un gráfico de
dispersión el tipo de correlación que existe entre las variables, creando la
variable de población en edad dependiente (población de 0 a 14 años
más la de 65 años y más).
1. Población total
2. Población femenina
3. Población masculina
4. Población de 0 a 14 años
5. Población de 15 a 64 años
6. Población de 65 años y más
7. Población en edad dependiente
Cuando se identifica una correlación positiva o negativa, también se observa
un nivel de inclinación de la recta, a la cual le llamamos pendiente, y se
expresa como el número de unidades en que cambia la variable
dependiente (Y) con respecto a cada unidad de cambio de la variable
independiente (X).
Por otro lado, al punto donde la recta atraviesa el eje Y, y que corresponde
al punto donde la variable X es igual a 0, se le conoce como intercepto.
Estos términos se emplean en la ecuación de una línea recta de la siguiente
manera:
Y = β0 + β1x1
Donde β0 es el intercepto y β1 es la pendiente.
Con base en esto, se identifican dos conceptos importantes del análisis

estadística, el Coeficiente de Correlación y el Coeficiente de Regresión.
El Coeficiente de Correlación estará definido por el nivel de asociación

lineal entre la variables independiente (X) y la variable dependiente (Y).
El Coeficiente de Regresión, mide el nivel de intensidad del cambio de la

variable dependiente (Y), con respecto al comportamiento de la variable
independiente (X), que también es conocido como la pendiente.
En este sentido, una vez trazada la línea de regresión se identificará la

distancia entre los puntos de la variable dependiente (Yi) y la línea de
regresión (Ŷ), con lo cual se establece la distancia existente entre los valores
observados y los valores esperados.
A esto se le clasifica como error o residuo y corresponde a la distancia de:

Yi – Ŷ
A manera de ejemplo, para el estudio de la talla y el peso, se identifica el
comportamiento de los datos y se sugiere ajustar una línea de regresión bajo
el siguiente modelo.
Y = 33.7689 + 0.583093 xi
Donde Yi – Ӯ, representa la distancia entre la observación i y la media Ӯ.
También, Ŷ - Ӯ, representa la distancia entre el valor estimado por la línea de

regresión y la media Ӯ.
Con base en estas distancias, la suma de cuadrados de los errores o residuos se

obtendrá de la sumatoria de los cuadrados de la distancia Yi – Ŷ.
En este mismo enfoque, si se estima el cuadrado de las distancias Ŷ - Ӯ, y

se suman, se estará frente a la suma de cuadrados de la regresión o del
modelo.
Mientras que en el caso de elevar al cuadrado la distancia Yi – Ӯ, y

sumarla, el resultado será la Suma de cuadrados total.
En el caso de no obtener la línea de regresión mediante un software
estadístico y trazarlas “a ojo”, “a mano alzada” o “al melate”, resulta
difícil determinar ¿cuál de ellas arroja el modelo que mejor explica el
comportamiento de ambas variables?, o más aún, ¿cómo saber cuál es
la línea que expresará el mejor nivel de correlación?
Para obtener la mejor respuesta a estas preguntas basta con reducir al

máximo la suma de cuadrados de los errores.
Suma de Cuadrados de la Regresión o del Modelo
Ŷ-Ӯ
Suma de Cuadrados de los Errores o Residuos
Yi – Ŷ.
Y
X
Población de 15 a 64 años
1000
900
800
700
600
500
400
300
200
100
0
0 50 100 150 200 250 300 350 400
Supuestos del MRL
Son 6 los supuestos a considerar en el modelo del regresión lineal:

1. Se requiere de un tamaño de la muestra suficientemente
representativo para cada una de las variables a emplearse.
2. Las variables empleadas no son aleatorias, ya que son obtenidas del

estudio y por el investigador, lo que las hace deterministas.
3. Para el caso de la regresión lineal múltiple, todas las variables

independientes relevantes deben formar parte del modelo.
4. Cada una de las variables Xi es linealmente independiente. En caso de

no existir independencia entonces se presenta un caso
multicolinealidad y se viola la hipótesis de independencia.
5. Debe existir un comportamiento lineal entre la variable dependiente

con cada una de las variables independientes.
6. Los errores o residuos se comportan como una distribución normal

N(0, σ2) , con media cero y varianza constante en las variables
independientes.
Análisis de Residuos
En resumen, el cuadro del ANOVA quedaría de la siguiente manera:
Fuente de Grados de Suma de Cuadrado Fc

Variación Libertad Cuadrados Medio
Regresión k-1 SCR CMR FC
Error n-2 SCE CME
Total n-1 SCT


Regresión k-1
Error n-2
Total n-1
Los Grados de libertad:
Es el valor que indica la cantidad de términos independientes (k) en los datos que
se encuentran asociados a cada una de las sumas de cuadrados, según sea el
caso.
Destacando que para la suma de cuadrados totales se obtendrán por suma.
Grados de libertad para la regresión: glr = k – 1
Grados de libertad para el error: gle = n – 2
Grados de libertad para el total: glt = n – 1

Recta de regresión
La recta de regresión es la que mejor se ajusta a la nube de puntos y pasa por

el punto ( , ) conocido como centro de gravedad.
La estimación de la pendiente corresponde al cociente entre la covarianza y la

varianza de la variable X.
xy
Yi – Ӯ = (x- )
x
2
Otro método empelado para estimar la pendiente es:

∑x ∑y
∑xy -
β1 = m = n
(∑x)2
∑x2 -
n
Así mismo, la estimación del intercepto se obtiene mediante:
β0 = - β1
donde:
β1 : Pendiente ó Coeficiente de regresión
∑xy : suma de productos cruzados de X e Y.
∑x : suma de las observaciones de X.
∑y : suma de las observaciones de Y.
∑x2 : suma de los cuadrados de los valores de X.
n: número de parejas que intervienen en los cálculos.
β0 : intercepto al origen.
: el promedio de las observaciones de la variable dependiente.
: el promedio de las observaciones de la variable independiente.
Método de Mínimos Cuadrados
Esta metodología fue utilizada por Carl Gauss (1777-1855) y su objetivo

principal es generar dos estimadores β0 y β1 (a y b le llaman algunos
autores) que al emplearlos en la ecuación de la línea de regresión reduzcan
al máximo el valor de la suma de cuadrados de los errores o residuos
(distancia Yi – Ŷ); es decir, que minimice la suma de cuadrados de la
distancia de cada uno de los puntos con su punto correspondiente
verticalmente hacia los valores observados y representados en la recta del
gráfico de dispersión.
La covarianza SXY , es una medida que explica el nivel de variabilidad
conjunta entre dos variables. Esta puede ser explicada mediante el
diagrama de dispersión, dividiéndolo en cuadrantes.
1 n
Sxy = ∑ (Yi – Ӯ)(Xi – )
n i=1
En el caso de que los puntos se concentren en los cuadrantes primero y

tercero, significa que las dos variables crecen o decrecen de la misma
manera, es decir muestran una correlación positiva y una covarianza
mayor que cero.
II I
III IV
Por otro lado, si los puntos se concentran en los cuadrantes segundo y

cuarto, entonces el comportamiento de los puntos indica que mientras
una variables crece la otra decrece, es decir, muestran una correlación
negativa y una covarianza menor que cero.
En el caso de que los puntos se distribuyen en igual proporción

alrededor de ( , ), la correlación será nula y su covarianza igual a cero,
es decir no hay una relación lineal.
II I
III IV
II I
III IV
Para determinar que tan bueno es el ajuste de la recta de regresión estimada
se emplea el Coeficiente de Determinación R2, el cual indica la variabilidad
ocurrida en la variable Y explicada por el modelo.
Variación explicada por la Variación total de las

regresión observaciones de Y
SCR =
[ ∑xy -
∑x ∑y 2
n ] SCT = ∑y2 -
(∑y)2
(∑x)2 n
2
∑x -
n
SCR SCE =∑(Yi – Ŷ)2
R2 =
SCT
Otro estimador que permite identificar la calidad del ajuste de la recta de
regresión estimada es el Coeficiente de Determinación Ajustado R2A, el
cual resta variabilidad y explica en mayor proporción la variabilidad
ocurrida en la variable Y explicada por el modelo.
n-1
R2A = 1- (1-R2)
n-p
Donde:
n es el número de pares de datos
p es el número de coeficientes a estimar
Práctica 2
Con base en los datos de la siguiente diapositiva obtener el gráfico de
dispersión e identificar el tipo de correlación que existe entre las
variables.
Calcular el modelo y las SCR y SCT

2 2
Tamaño (x 100 m ) X Precio en millones de pesos. Y Tamaño (x 100 m ) X Precio en millones de pesos. Y
1.8 32 2.3 44
1 24 0.9 19
1.7 27 1.2 25
2.8 47 3.4 50
2.2 35 1.7 30
0.8 17 2.5 43
3.6 52 1.4 27
1.1 20 3.3 50
2 38 2.2 37
2.6 45 1.5 28
∑x ∑y β0 = - β1
∑xy -
β1 = m = n
(∑x)2
∑x2 - Y = Ŷ = β0 + β1x1
n
SCR =
[ ∑xy -
n ]
∑x ∑y 2
SCT = ∑y2 -
(∑y)2
(∑x)2 n
∑x2 -
n
SCR
R2 =
SCT
n-1
R2A = 1- (1-R2)
n-p
∑x ∑y (40)*(690)
∑xy - 1554.9 - 20
β1 = m = n =
(∑x)2 1600
∑x2 - 93.56 - 20
n
β0 = - β1 = 34.5 – 12.89*(2) = 8.7
Y = Ŷ = β0 + β1x1 = 8.7 + 12.89*Xi
2255.90044
R2 = 2373
= 0.9507
n-1 20 - 1
R2A = 1- (1-R2) = 1- 20 - 2 (1- .9507) = 0.948
n-p
Como se mencionó anteriormente, la normalidad forma parte de uno de los

supuestos, y en la mayoría de los casos da certidumbre en la eficiencia de las
pruebas de hipótesis.
La violación o el incumplimiento de este supuesto no resta importancia al

análisis de regresión, ya que en muestras de tamaño grande puede ser
disminuido este problema.
Clasificación de los niveles de Correlación en valor
absoluto, recordando que la correlación se registra entre
-1 y 1.
CORRELACIÓN VALOR O RANGO

Perfecta |R| = 1
Excelente 0.9 <= |R| < 1
Buena 0.8 <= |R| < 0.9
Regular 0.5 <= |R| <0.8
Mala |R|< 0.5
Clasificación de los niveles de Determinación
DETERMINACIÓN VALOR O RANGO

Sospechoso |R2| > 0.85
Bueno 0.5 <= |R2| < 0.85
Regular 0.4 <= |R2| < 0.5
Malo 0.3 <= |R2| <0.4
Muy Malo |R2|< 0.3
Comparativamente, a pesar de la cercanía entre los resultados, la
clasificación de los valores de R y R2, expresarán contenidos
diferentes; por lo que se debe poner especial atención al significado
de cada uno de ellos.
CORRELACIÓN VALOR O RANGO DETERMINACIÓN VALOR O RANGO

Perfecta |R| = 1 Sospechoso |R2| > 0.85
Excelente 0.9 <= |R| < 1 Bueno 0.5 <= |R2| < 0.85
Buena 0.8 <= |R| < 0.9 Regular 0.4 <= |R2| < 0.5
Regular 0.5 <= |R| <0.8 Malo 0.3 <= |R2| <0.4
Mala |R|< 0.5 Muy Malo |R2|< 0.3
ANÁLISIS DE RESIDUOS
Esta es una etapa previa al análisis de varianza. Se emplea para determinar

bondades de la modelación estadística con base en el análisis de regresión; es
decir, es un procedimiento que apoya la identificación de la estabilidad e
idoneidad del análisis de regresión así como también aporta elementos para
lograr un mejor ajuste del modelo. Algunos aspectos importantes son:
• Revisión del cumplimiento de las suposiciones que hacen válido el

análisis de varianza: Homogeneidad de varianza, independencia de
errores y distribución normal de los residuos.
• Sugerencia de otros modelos de regresión.
• Determinación de valores atípicos.
Suma de Cuadrados de los Errores o Residuos
Yi – Ŷi
X
Los residuos son las diferencias existentes entre los valores observados y los
valores estimados, que son medidos a partir de la recta.
Como ya se mencionó anteriormente, el R2 representa el porcentaje de

varianza de la variable dependiente explicada por la variable independiente.
Así también se ha destacado que el análisis de regresión explica el nivel de

correlación que existe entre las variables pero no así una relación estricta de
causalidad.
La suma de cuadrados de los residuos no puede bajo ningún caso ser mayor
que la suma de cuadrados totales.
Las propiedades teóricas de los residuos permiten que su utilización sea

práctica, es decir, solamente de manera gráfica podemos realizar u obtener
resultados concluyentes.
Su notación matemática es:

êi = Yi – Ŷ
El análisis de residuos aporta elementos significativos para identificar

patrones de comportamiento que refuerzan los resultados asociados con el
cumplimiento de las suposiciones teóricas del análisis de varianza.
Este tipo de gráfico muestra un comportamiento aleatorio, que es muestra de

un buen modelo.
Cuando la suposición de homogeneidad de varianza (homocedasticidad) no
se cumple, este podría ser uno de los tres patrones de comportamiento.

Residuos ê
8
0
0 10 20 30 40 50 60
-2
-4
-6
Residuos ê
8
0
0 10 20 30 40 50 60
-2
-4
-6
Homocedasticidad
Decimos que existe homocedasticidad cuando la varianza de los errores de la regresión

son los mismos para cada una de las observaciones; este comportamiento se apoya en el
supuesto número 6 que refiere que los errores o residuos se comportan como una
distribución normal N(0, σ2), con media cero y varianza constante en las variables
independientes, lo que asegura que los coeficientes estimados de nuestro modelo son los
mejores.
Esta cualidad es necesaria, para que en un modelo los coeficientes estimados sean los
mejores o más eficientes, tanto para coeficientes lineales como para insesgados..
En el caso de que la varianza de los residuos no sea constante, estaremos frente a un

caso de Heterocedasticidad.
Homocedasticidad
Densidad
Ŷ = β0 + β1X
X
La heteroscedasticidad se presenta cuando la varianza de las observaciones no es
constante.
Lo cual conlleva a el incumplimiento de una de las hipótesis básicas sobre las que se
asienta el modelo de regresión lineal; es decir, la heterogeneidad de los datos es
originada porque sus distribuciones de probabilidad tienen distinta varianza.
Algunas de las razones por las que se registra heteroscedasticidad:

• Cuando los datos son obtenidos de manera transversal y no tienen un
comportamiento o registro homogéneo.
• Cuando las muestras contienen datos registrados mediante el promedio de datos
individuales y no muestrales o se agregan datos aislados.
Heterocedasticidad
Densidad
Ŷ = β0 + β1X
X
Esto nos lleva a la elaboración del análisis de varianza (ANOVA), el cual

representa una herramienta más para determinar la adecuación del modelo,
ya que si su evaluación y el análisis de residuos no presentaron evidencia
suficiente se deberá hacer un estudio más detallado.
Si se han cumplido los supuestos de independencia, normalidad y

homogeneidad de las varianzas de los residuos, se puede aplicar el análisis
de varianza, que permitirá estudiar en mayo detalle el nivel de asociación
entre las variables dependiente y predictiva.
Para llevar a cabo el análisis de varianza (ANOVA) es necesario:
1. Realizar el planteamiento de la hipótesis, el cual puede estar asociado a

la presencia o ausencia de correlación.
H0 : β0 = 0 (no hay regresión)
Ha : β0  0 (si hay regresión)
2. Integrar la tabla de resultados para llevar a cabo los cálculos

correspondientes.
3. Realizar los cálculos correspondientes

Los cálculos sugeridos para el ANOVA son:
• Grados de libertad
• Sumas de Cuadrados
• Cuadrados medios
• Estadístico F

Es el valor que indica la cantidad de términos independientes (k) en los datos que
se encuentran asociados a cada una de las sumas de cuadrados, según sea el
caso.
Destacando que para la suma de cuadrados totales se obtendrán por suma.
Grados de libertad para la regresión: glr = k – 1

Las Sumas de Cuadrados:
Suma de cuadrados para la Suma de cuadrados para el

regresión (SSR) total (SST)
SCR =
[ ∑xy -
∑x ∑y 2
n ] SCT = ∑y2 -
(∑y)
n
2
(∑x)2
∑x2 -
n
Suma de cuadrados para el
error (SSE)
SCE = SCT – SCR

Los Cuadrados medios:
Cuadrado medio de la Cuadrado medio del

regresión (CMR) error (CME)
SCR SCE
CMR = CME =
glr gle
El Estadístico F:
CMR
FC =
CME
Donde:
Fc es el Estadístico calculado de F.
El valor de Fc tiene asociado un p-value que indica la

evidencia probabilística para rechazar la Ho.
Los criterios específicos para las pruebas de hipótesis a partir de la

observación del p-value son los siguientes:
a. Sí p > 0.1.Se declara que no existe evidencia suficiente para rechazar Ho.
b. Sí 0.05 < p ≤ 0.1. Se declara que hay evidencia, pero baja, es decir, se
rechaza Ho con baja significancia.
c. Sí 0.01 < p ≤ 0.05. Se dice que existe suficiente evidencia para rechazar
Ho. Se rechaza Ho con evidencia significativa.
d. Sí p ≤ 0.01. Se dice que existe evidencia altamente significativa para

rechazar Ho.

Regresión k-1 SCR CMR FC
Error n-2 SCE CME
Total n-1 SCT


Regresión k-1
Error 18
SCE = SCT – SCR
Total 19
Así también, el análisis de varianza se basa en que la variabilidad total de la muestra puede
descomponerse en la variabilidad debida a las diferencias entre grupos y la debida a la
diferencia dentro de los grupos. A partir de este supuesto, el análisis de varianza proporciona,
para contrastar la H0 de igualdad de medias entre los grupos, el estadístico F (compara la
variabilidad debida a las diferencias entre grupos con la debida a las diferencias dentro de los
grupos).
Cuanto mayor sea el valor de F y menor su significación, hay más probabilidad de que existan
diferencias significativas entre los grupos.
En consecuencia, si el p-valor asociado al estadístico es menor que el nivel de significación

(normalmente, 0.05 o 0.01) rechazaremos la hipótesis nula de igualdad de medias. En nuestro
ejemplo el p-valor es igual a 0.002. Éste se ha efectuado sobre la variable dependiente
transformada (proceso que se describe en el punto siguiente).
Homocedasticidad
Prueba de Homogeneidad de Varianzas

Si se cumplieron los supuestos antes planteados, entonces se justifica la
elaboración del Análisis de Varianza.
Lo cual lleva a la contrastación de la homogeneidad de varianzas de la

variable dependiente entre los grupos establecidos por la variable
independiente.
En este sentido se sugiere aplicar la prueba de Levene, y en el caso de que

el resultado arroje presencia de heterogeneidad de varianzas, se someterá la
variable a una transformación.
Homocedasticidad

Las pruebas de homogeneidad de varianzas (homocedasticidad), son empleadas
para evaluar el nivel de ajuste del modelo y el análisis de residuos.
Una de las pruebas de homogeneidad de varianzas es la que se conoce como

contraste de homocedasticidad.
La prueba de homocedasticidad consiste en este caso en un cosciente de

varianzas, donde R=1; es decir:
12
H0 : =1
H0 : 12 = 22 22

Ha : 12  22 12
Ha : 1
22
Homocedasticidad

Generalmente, al estudiar la diferencia de medias en dos poblaciones con
distribución normal, se emplea la prueba de homogeneidad de varianzas,
partiendo de dos consideraciones:
1. Las dos varianzas son iguales, por lo que la prueba se basa en una
distribución t-Student, tomando como grados de libertad el tamaño de
la muestra.
2. Las dos varianzas son diferentes. En este caso el número de grados de

libertad es una v.a. (fórmula de Welch) y por tanto al realizar el
contraste se pierde cierta precisión.
Homocedasticidad

Si la hipótesis de igualdad de varianzas no puede ser rechazada de modo
significativo, se emplea un análisis de diferencia de medias, bajo el
supuesto de que las varianzas son desconocidas pero iguales, con base en
la estimación del estadístico T distribuido bajo un modelo probabilístico t de
Student, cambiando los grados de libertad, por lo que se sugiere emplear la
aproximación de Welch.
Homocedasticidad
La aproximación de Welch se emplea para la evaluación de contrastes paramétricos

alternativos, mediante la revaloración de los grados de libertad:
gl =
[S2n1-1
n1 ] +
S2n2-1
n2
2 2
( n ) +( n )
S2
n1-1
1
S 2
n2-1
2
n1-1 n2-1
Homocedasticidad
Prueba de Levene
La prueba de Levene contrasta la H0 de homogeneidad de varianzas de

la variable dependiente en los grupos o subpoblaciones de la variable
independiente.
Si el p-valor asociado al estadístico de contraste es menor que el nivel de

significancia fijado (normalmente, 0.05) rechazaríamos la H0 de igualdad
de varianzas ya que no se cumpliría uno de los supuestos planteados.
Homocedasticidad
Prueba de Levene
El primer paso en la prueba de diferencia de medias es comprobar si las

varianzas de las muestras bajo estudio son iguales; ya que de esto depende
la metodología estadística para la comparación de medias.
Para llevar a cabo la comprobación de la igualdad de varianzas se pueden

emplear diferentes técnicas, tales como F de Fisher, Fmax de Hartley,
prueba de Bartlett, entre otras; sin embargo, en este caso nos apoyaremos
con la prueba de Levene .
Homocedasticidad
Prueba de Levene
En primer lugar estimaremos la diferencia (en valor absoluto) entre cada valor y la
media de su grupo:
Dij = |Yij – Ӯj|
donde:
Yij es la puntuación del sujeto i perteneciente al grupo j.
Ӯj es la media del grupo j.

Homocedasticidad
Prueba de Levene
Seguido, estimaremos la media de las diferencias de cada grupo:

__ ∑Dij
Dj =
nj
donde:
∑Dij es la suma de las puntuaciones D en el grupo j
nj es el tamaño del grupo j

Homocedasticidad
Prueba de Levene
El paso siguiente consiste en estimar la media total de las diferencias
n m
∑ ∑ Dij
__ i=1 j=1
Dt =
N
donde:
n m
∑ ∑ Dij es la suma de las puntuaciones D de todos los sujetos
i=1 j=1
N es la suma de todos los sujetos

Homocedasticidad
Prueba de Levene
Seguido estimaremos la suma de cuadrados intragrupo e intergrupo
n m _
Suma de cuadrados intragrupo (SCintra): ∑ ∑ (Dij - Dj)2
i=1 j=1
m _ _
Suma de cuadrados intergrupo (SCinter): ∑ nj(Dj - Dt)2
j=1
Homocedasticidad
Prueba de Levene
Así también se estimarán los grados de libertad:
glinter = m – 1
donde m el número de grupos.
m
glintra = ∑ (nj – 1)
j=1
donde: nj es el tamaño muestral del grupo j.

Homocedasticidad
Prueba de Levene
Las últimas estimaciones corresponden a las medias cuadráticas y el valor Fc:
Media cuadrática intergrupos (MCinter) = SCinter / glinter
Media cuadrática intragrupos (MCintra) = SCintra / glintra
Valor Fc = MCinter / MCintra

Homocedasticidad
Práctica 3 Prueba de Levene
Los datos corresponden a una terapia para el tratamiento del insomnio.

Se ha observado que el insomnio es uno de los síntomas asociados a
determinados trastornos de ansiedad. Para aliviarlo, en un consultorio médico
de psicología se propone una terapia para aumentar el número de horas
dormidas. Se forman dos grupos de sujetos: al primer grupo se le aplica la
terapia y al segundo no, y se observa el número de horas dormidas por los
sujetos en tres noches consecutivas (15 minutos)
Homocedasticidad
Prueba de Levene
Los datos obtenidos se registran en las variables Noche1, Noche2 y
Noche3, que indican el número de horas dormidas en las tres noches.
Conjuntamente, se estimaron otras dos variables:

Sexo, que toma los valores 0 para las mujeres y 1 para los hombres.
Edad, con los valores 1 para los sujetos menores de 20 años, 2 para los
sujetos entre 20 y 25 años, y 3 para los sujetos con mas de 25 años.
Homocedasticidad
Prueba de Levene
Así mismo, se agregaron tres variables más relacionadas con las terapias
que han recibido los pacientes. Todas ellas toman los valores 1, si el
sujeto ha recibido la terapia, y 0 en caso contrario.
Las variables son:

Terapia1, que se refiere a la terapia contra el insomnio. Terapia2, que
indica si el sujeto ha recibido terapia contra estados de ansiedad
generalizada
Terapia3, que indica si ha recibido terapia contra algún tipo de fobia.
Homocedasticidad Prueba de Levene (Ejemplo)
No Noche1 Noche2 Noche3 Horas (Yi) Sexo Gpo_Edad Terapia1 Terapia2 Terapia3 Dij
1 4 4.5 5 13.5 0 1 0 1 0 1.9
2 5.8 6.4 7 19.2 1 2 0 1 0 3.0
3 4.1 4.9 5.1 14.1 0 3 0 0 0 4.4
4 4.3 5 5.6 14.9 1 1 0 1 1 0.5
5 5.4 6.1 6.3 17.8 0 2 0 0 1 4.4
6 5.7 6.3 6.8 18.8 1 3 1 0 0 0.3
7 4.3 4.8 5.4 14.5 0 1 0 1 1 0.9
8 7.6 7.9 8.6 24.1 1 2 1 0 1 1.9
9 5.7 6 6.7 18.4 0 3 1 1 0 0.1
10 3.8 4.6 4.9 13.3 1 1 0 1 1 2.1
11 7.5 8 8.5 24 0 2 1 0 0 1.8
12 6.4 7 7.3 20.7 1 3 1 1 0 2.2
13 4 4.5 5 13.5 0 1 0 1 1 1.9
14 7.7 8.1 8.5 24.3 1 2 1 1 1 2.1
15 6.4 6.9 7.3 20.6 0 3 1 0 1 2.1
16 5.9 6.6 7 19.5 1 1 1 0 1 4.1
17 7.2 7.8 8.1 23.1 0 2 1 1 1 0.9
18 5.6 6.2 6.8 18.6 1 3 1 1 0 0.1
19 5.7 6.1 6.8 18.6 0 1 1 0 0 3.2
20 7.4 7.6 8.2 23.2 1 2 1 1 1 1.0
Homocedasticidad Prueba de Levene (Ejemplo) 2
Noche1 Noche2 Noche3 Horas (Yi) Sexo Gpo_Edad Terapia1 Terapia2 Terapia3 Horas Dij Dij
No (Yi) - j
1 4 4.5 5 13.5 0 1 0 1 0 1.90 -0.19 0.034
4 4.3 5 5.6 14.9 1 1 0 1 1 0.50 -1.59 2.514
7 4.3 4.8 5.4 14.5 0 1 0 1 1 0.90 -1.19 1.406
10 3.8 4.6 4.9 13.3 1 1 0 1 1 2.10 0.01 0.000
13 4 4.5 5 13.5 0 1 0 1 1 1.90 -0.19 0.034
16 5.9 6.6 7 19.5 1 1 1 0 1 4.10 2.01 4.057
19 5.7 6.1 6.8 18.6 0 1 1 0 0 3.20 1.11 1.242
2 5.8 6.4 7 19.2 1 2 0 1 0 3.04 0.90 0.817
5 5.4 6.1 6.3 17.8 0 2 0 0 1 4.44 2.30 5.309
8 7.6 7.9 8.6 24.1 1 2 1 0 1 1.86 -0.28 0.079
11 7.5 8 8.5 24 0 2 1 0 0 1.76 -0.38 0.146
14 7.7 8.1 8.5 24.3 1 2 1 1 1 2.06 -0.08 0.007
17 7.2 7.8 8.1 23.1 0 2 1 1 1 0.86 -1.28 1.643
20 7.4 7.6 8.2 23.2 1 2 1 1 1 0.96 -1.18 1.396
3 4.1 4.9 5.1 14.1 0 3 0 0 0 4.43 2.91 8.475
6 5.7 6.3 6.8 18.8 1 3 1 0 0 0.27 -1.26 1.576
9 5.7 6 6.7 18.4 0 3 1 1 0 0.13 -1.39 1.929
12 6.4 7 7.3 20.7 1 3 1 1 0 2.17 0.64 0.415
15 6.4 6.9 7.3 20.6 0 3 1 0 1 2.07 0.54 0.296
18 5.6 6.2 6.8 18.6 1 3 1 1 0 0.07 -1.46 2.119
Homocedasticidad Prueba de Levene
Suma de cuadrados intergrupo (SCinter):

Dij = |Yij – Ӯj| m _ _
∑ nj(Dj - Dt)2
__ j=1
∑Dij m
Dj = glinter = m – 1 glintra = ∑ (nj – 1)
nj j=1
n m
∑ ∑ Dij Media cuadrática intergrupos (MCinter) =
__ i=1 j=1 SCinter / glinter
Dt =
N Media cuadrática intragrupos (MCintra) =
SCintra / glintra
Suma de cuadrados intragrupo (SCintra):
n m _
∑ ∑ (Dij - Dj)2 Valor Fc = MCinter / MCintra
i=1 j=1
Homocedasticidad
Prueba de Levene
Suma de cuadrados
Media1 (Yi) 15.40
intragrupo (SCintra): 33.50
Media2 (Yi) 22.24
Media3 (Yi) 18.53
Media (Yi) 18.735 suma de cuadrados
intergrupo (SCinter) 1.47
n1 7 Media cuadrática
n2 7 intragrupos (MCintra) 1.97
n3 6
Media1 (Dj) 2.09 Media cuadrática

Media2 (Dj) 2.14 intergrupos (MCinter) 0.736
Media3 (Dj) 1.52
Dt Media (Dj) 1.94
Fc 0.374
Retomando nuestro cuadro de ANOVA

Regresión 1
Error 18
SCE = SCT – SCR
Total 19
Estimación del Valor Crítico p-value
Bajo la consideración de que estamos en un modelo de regresión que cumple la
condición de homocedasticidad, estimaremos el valor crítico para t (p-value).
En primer lugar estimaremos el error estándar de los coeficientes del modelo (β0 y
β1 ) para probar la confiabilidad de nuestra ecuación de regresión.
El error estándar generalmente se simboliza como “Se” y representa la desviación

estándar de los residuos o errores; es decir, mide el grado de variabilidad o
dispersión de los valores observados con respecto a la línea de regresión.
En primer lugar estimaremos el error estándar del estimador de la pendiente:
Recordemos que la suma de cuadrados de los residuos se estima:

n
SCE = ∑ (Yi – Ŷ)2
i=1
Por lo tanto la Varianza de los residuos es:

n
∑ (Yi – Ŷ)2
S2e = i=1
= SCE
(n-2) (n-2)
De tal forma que la Desviación Estándar de los residuos queda como:
n
∑ (Yi – Ŷ)2
Se = S2e = i=1
= SCE
(n-2) (n-2)
Nota:
Una propiedad de este indicador es que con base en los supuestos del
modelo la varianza residual al S2e se le considera un estimador insesgado
de σ2
Empleando el estadístico T se aplicará la prueba de hipótesis para la pendiente.
La prueba de hipótesis para Ho: β1 = 0 también se le conoce como la prueba de

independencia o de no asociación ya que se emplea para indicar la existencia de
asociación entre las variables.
La prueba se basa en los supuestos de normalidad, homogeneidad de varianzas,

linealidad e independencia, donde β1 se distribuye como una normal con media
cero y varianza constante.
De tal forma que:
β1 - µ
T=
SE( β1) ˜ tTα/2, n-2
Donde SE( β1) es el error estándar del estimador de la pendiente

S2e S2e
SE2( β1) = n
=
∑ (Xi – )2 (n – 1)S2x
i=1
SE( β1) = SE2( β1)

De tal forma que:
β0 - µ
T=
SE( β0) ˜ Tα/2, n-2
Donde SE( β0) es el error estándar del estimador del intercepto

2
SE2( β0) = CME *
1 *
n S2x
SE( β0) = SE2( β0)

Es importante resaltar que SE(β1) es considerado como un estimador de la

desviación estándar de la distribución de muestreo de la pendiente β1.
Por lo tanto, la varianza de β1 disminuye (o también se puede decir que la

estimación es más precisa) siempre y cuando se cumpla lo siguiente:
• La varianza σ2 disminuye.
• La varianza de la variable regresora aumenta, entonces mientras mayor
sea el rango de valores de la covariable, mayor será la precisión en la
estimación.
• El tamaño de muestra aumenta.
Entonces, rechazaremos Ho siempre y cuando el valor del estadístico observado
(T) en la muestra sea grande y positivo o grande y negativo, es decir, el p-valor da
menor que el nivel α.
Así para estimar el p-valor, tomaremos como base el resultado del estadístico T y
los buscaremos en la tabla de la distribución t a un nivel de α o de α/2, según sea el
caso de la hipótesis alterna.
Le asociaremos al p-valor el área a la derecha del valor T, si es de dos colas se

multiplicará por 2.
Ejemplo de la estimación del p-valor para un nivel de significancia α, donde el valor
T alcanzó un valor de 10.856, con 3 grados de libertad.
En este caso se buscará el valor en la tabla de la distribución t y se identificará el

área que se encuentra a la derecha del valor T.
Para el caso del intercepto, el error estándar del estimador corresponde a SE( β0)
1 2
2
SE2( β0) = Se +
n n
∑ (Xi – )2
i=1
Recordando que la Desviación Estándar de los residuos queda como:

n
∑ (Yi – Ŷ)2
Se = S2e = i=1
= SCE
(n-2) (n-2)
Adicionales de Modelación
En términos de regresión lineal, la selección de las variables que formarán
parte del estudio, determinarán el procedimiento más adecuado o que mejor
se ajuste en el modelamiento de los datos, dependiendo totalmente de la
estructura de las variables, de tal forma que podrían presentarse casos como
los siguientes:
VARIABLE DEPENDIENTE VARIABLES INDEPENDIENTES

Continua Todas son continuas: regresión normal
Todas son categóricas: análisis de la varianza
Ambos tipos: análisis de la covarianza
Proporción Regresión logística
Conteo Modelos log-lineales
Binarias Regresión logística binaria
Tiempo de muerte Análisis de supervivencia
Transformaciones
En el caso de contar con elementos que denotan la existencia de una

relación entre dos o más variables, como ya se mencionó
anteriormente, se plantea un modelo mental que explique dicha
relación pero que al mismo tiempo permita hacer predicciones.
Ahora bien, la explicación, de la relación de las variables es

responsabilidad y/o atribución estricta del investigador, con base en el
planteamiento del problema y su formalización.
Transformaciones
Cuando el comportamiento de la variable dependiente frente a la

variable independiente no refleja una asociación lineal del tipo:
Y = β0 + β1x1
Puede darse el caso, que aún así, el modelo siga siendo correcto, ya que
al realizar una transformación en cualquiera de las dos o en ambas
variables X e Y (por ejemplo: lg, 1/x, 1/y, y2), la relación se vuelva lineal.
Transformaciones
Casos de transformaciones son:
Modelo Transformación X Transformación Y
Simple Ŷ = β0 + β1X1 t(x)= x t(y)= Ŷ
Exponencial Ŷ = exp (β0 + β1X1) t(x)= x t(y)= log10(Ŷ)
1
Recíproca Y Ŷ = β0 + β1X1 t(x)= x t(y)= 1/Ŷ
Recíproca X Ŷ = β0 + β1(1/X1) t(x)= 1/x t(y)= Ŷ

Recíproca Doble 1
t(x)= 1/x t(y)= 1/Ŷ
Ŷ = β0 + β1(1/X1)
Logarítmica Ŷ = β0 + β1ln(X1) t(x)= ln(x) t(y)= Ŷ
Múltiple Ŷ = β0 X1β1 t(x)= ln(x) t(y)= ln(y)
Raíz C. de X Y = β0 + β1 X1 t(x)= x t(y)= Ŷ
Raíz C. de Y  Ŷ = β 0 + β 1 X1 t(x)= x t(y)=  Ŷ
Curva S Ŷ = exp (β0 + β1/X1) t(x)= 1/x t(y)= ln(Ŷ)
Gráfico de dispersión de cada grupo de variables observadas, Recta de Regresión,
Modelo y R2
Y1 Y2
Num X1 Y1 X2 Y2 X3 Y3 X4 Y4 12 12
1 10 8.04 10 9.14 10 7.46 8 6.58 10 y = 0.5001x + 3.0001 10 y = 0.5x + 3.0009

8 8
2 8 6.95 8 8.14 8 6.77 8 5.76 6 6
3 13 7.58 13 8.74 13 12.74 8 7.71 4

2
4
2
4 9 8.81 9 8.77 9 7.11 8 8.84 0 0
0 5 10 15 0 5 10 15
5 11 8.33 11 9.26 11 7.81 8 8.47
6 14 9.96 14 8.1 14 8.84 8 7.04
7 6 7.24 6 6.13 6 6.08 8 5.25 Y3 Y4
8 4 4.26 4 3.1 4 5.39 19 12.5 14
14
12 y = 0.4999x + 3.0017
9 12 10.84 12 9.13 12 8.15 8 5.56 12
10 y = 0.4997x + 3.0025
10
8
10 7 4.82 7 7.26 7 6.42 8 7.91 8
6
6
11 5 5.68 5 4.74 5 5.73 8 6.89 4
4
2
2
0
0
0 5 10 15 20
0 5 10 15
Gráfico de dispersión de las variables dependientes estimadas, Recta de Regresión y
Modelo Ŷ1 Ŷ2
12
12
Num X1 Ŷ1 Ŷ2 Ŷ3 X4 Ŷ4 y = 0.5001x + 3.0001 10 y = 0.5001x + 3.0001
10
1 10 8.001 8 8.001 8 7.0009 8
8
2 8 7.001 7 7.001 8 7.0009 6

6
3 13 9.501 9.5 9.501 8 7.0009 4

4
2
4 9 7.501 7.5 7.501 8 7.0009 2
0
0
5 11 8.501 8.5 8.501 8 7.0009 0 5 10 15
0 5 10 15
6 14 10 10 10 8 7.0009
7 6 6.001 6 6.001 8 7.0009
8 4 5.001 5 5.001 19 12.502 Ŷ3 Ŷ4
12 14
9 12 9.001 9 9.001 8 7.0009 12 y = 0.5001x + 3.0001
10 y = 0.5001x + 3.0001
10 7 6.501 6.5 6.501 8 7.0009 8
10
11 5 5.501 5.5 5.501 8 7.0009 6

8
6
4
4
2 2
0 0
0 5 10 15 0 5 10 15 20
Transformación de las variables observadas del grupo 2 por medio de una Recíproca de
X, Recíproca de Y, Exponencial de Y y Logarítmica de X.
Rx Ry Ex lnx Y2 Yt2
Num X2 Xt2 Y2 Yt2 Yt2 Yt2 10 0.4
1 10 0.1 9.14 0.11 0.960946196 2.3 8 0.3

6
2 8 0.13 8.14 0.12 0.910624405 2.08 4
0.2
3 13 0.08 8.74 0.11 0.941511433 2.56 2

0.1
4 9 0.11 8.77 0.11 0.942999593 2.2 0

0 0.05 0.1 0.15 0.2 0.25 0.3
0
0 5 10 15
5 11 0.09 9.26 0.11 0.966610987 2.4
6 14 0.07 8.1 0.12 0.908485019 2.64
Yt2 Yt2
7 6 0.17 6.13 0.16 0.787460475 1.79 1.2 3
8 4 0.25 3.1 0.32 0.491361694 1.39 1 2.5
0.8 2
9 12 0.08 9.13 0.11 0.960470778 2.48 0.6 1.5
10 7 0.14 7.26 0.14 0.860936621 1.95 0.4 1
0.2 0.5
11 5 0.2 4.74 0.21 0.675778342 1.61 0 0
0 5 10 15 0 5 10 15
Y3 Yt3
Rx Ry Ex lnx 15 0.2
Num X3 Xt3 Y3 Yt3 Yt3 Yt3 10

0.15
1 10 0.1 7.46 0.13 0.872738827 2.3 0.1

5
0.05
2 8 0.13 6.77 0.15 0.830588669 2.08
0 0
3 13 0.08 12.7 0.08 1.105169428 2.56 0 0.05 0.1 0.15 0.2 0.25 0.3 0 5 10 15
4 9 0.11 7.11 0.14 0.851869601 2.2

5 11 0.09 7.81 0.13 0.892651034 2.4 Yt3
Yt3
6 14 0.07 8.84 0.11 0.946452265 2.64 1.2 3
7 6 0.17 6.08 0.16 0.783903579 1.79 1 2.5
0.8 2
8 4 0.25 5.39 0.19 0.731588765 1.39 0.6 1.5
9 12 0.08 8.15 0.12 0.911157609 2.48 0.4 1

0.2 0.5
10 7 0.14 6.42 0.16 0.807535028 1.95 0 0
0 5 10 15 0 5 10 15
11 5 0.2 5.73 0.17 0.758154622 1.61
Y4 Yt4
15 1.2
Ry Rx Ex lnx 1
Num X4 Yt4 Xt4 Y4 Yt4 Yt4 10 0.8

0.6
1 8 0.818 0.13 6.58 0.82 1.884034745 5 0.4
0.2
2 8 0.76 0.13 5.76 0.76 1.750937475 0 0
3 8 0.887 0.13 7.71 0.89 2.042518188 0 0.05 0.1 0.15 0 5 10 15 20
4 8 0.946 0.13 8.84 0.95 2.179286877

5 8 0.928 0.13 8.47 0.93 2.136530509
6 8 0.848 0.13 7.04 0.85 1.95160817 Yt4 Yt4
1.2 3
7 8 0.72 0.13 5.25 0.72 1.658228077 1 2.5
8 19 1.097 0.05 12.5 1.1 2.525728644 0.8 2
0.6 1.5
9 8 0.745 0.13 5.56 0.75 1.715598108 0.4 1
10 8 0.898 0.13 7.91 0.9 2.068127782 0.2 0.5

0 0
11 8 0.838 0.13 6.89 0.84 1.930071085 0 5 10 15 20 0 5 10 15 20
Al transformar las variables de los grupos 2 y 3 por medio de una Recíproca de X,
Recíproca de Y, Exponencial de Y y Logarítmica de X.
Ŷt2 Ŷt2
3.14 0.25
Rx Ry Ex lnx 3.12 0.2
Num X2 Ŷt2,3 Ŷt2,3 Ŷt2,3 Ŷt2,3 3.1 0.15
3.08
1 10 3.05011 0.12 0.9 4.15 3.06
0.1
0.05
2 8 3.062613 0.14 0.85 4.04 3.04
3.02 0
3 13 3.038569 0.11 0.98 4.28 0 5 10 15 0 5 10 15
4 9 3.055667 0.13 0.88 4.1

5 11 3.045564 0.12 0.93 4.2
6 14 3.035821 0.1 1 4.32 Ŷt2 Ŷt2
7 6 3.08345 0.17 0.78 3.9 1.2 4.4
4.3
1
8 4 3.125125 0.2 0.7 3.69 0.8
4.2
4.1
9 12 3.041775 0.11 0.95 4.24 0.6 4
3.9
0.4
10 7 3.071543 0.15 0.81 3.97 0.2
3.8
3.7
11 5 3.10012 0.18 0.74 3.8 0
0 5 10 15
3.6
0 5 10 15
Transformación de la variable estimada del grupo 4 por medio de una Recíproca
de X, Recíproca de Y, Exponencial de Y y Logarítmica de X.
Ŷt4 Ŷt4
3.07 0.15
Ry Rx Ex lnx 3.06
Num X4 Ŷt4 Ŷt4 Ŷt4 Ŷt4 3.05
0.1
1 8 3.062613 0.14 0.85 4.04 3.04 0.05

3.03
2 8 3.062613 0.14 0.85 4.04 3.02 0
3 8 3.062613 0.14 0.85 4.04 0 5 10 15 20 0 5 10 15 20
4 8 3.062613 0.14 0.85 4.04

5 8 3.062613 0.14 0.85 4.04
6 8 3.062613 0.14 0.85 4.04 Ŷt4 Ŷt4
7 8 3.062613 0.14 0.85 4.04 1.2 4.5
1 4.4
8 19 3.026421 0.08 1.1 4.47 0.8
4.3
9 8 3.062613 0.14 0.85 4.04 0.6
4.2
0.4
10 8 3.062613 0.14 0.85 4.04 0.2 4.1
11 8 3.062613 0.14 0.85 4.04 0

0 5 10 15 20
4
0 5 10 15 20
Consideraciones
Si se desconoce σi2: Bajo el supuesto de que σi2 es proporcional a Xi. Si los residuos frente a X
muestran un patrón como en la figura, es decir, cuando hay una relación lineal, o proporcional
entre σi2 y X, la transformación adecuada es dividir por la raíz cuadrada de Xi.
Si se desconoce σi2: Bajo el supuesto de que σi2 es proporcional a Xi. Si hay más de un X en el
modelo, utilizamos el X más adecuado. Si hay más de uno adecuado, utilizamos el valor medio
estimado de Y.
Si se desconoce σi2: Bajo el supuesto de que σi2 es proporcional a Xi2. Si los residuos muestran un
patrón como en la figura, es decir aumentan proporcionalmente al cuadrado de X , la
transformación adecuada es dividir ambos lados del modelo por X.
En algunos casos se podría sugerir cambiar de modelo mediante una transformación logarítmica,
a través de la cual se reduce la escala en que se estimó cada variable, reduciendo así la
variabilidad.
Transformaciones
Algunos tipos de comportamiento de los modelos transformados son:
Simple Y = β0 + β1X1
Transformaciones
1
Recíproca Y Y = β0 + β1X1
Transformaciones
Logarítmica Y = β0 + β1ln(X1)
Transformaciones
Múltiple Y = β0 X1β1
Transformaciones
La transformación de las variables es empleada en la solución de problemas de

heterocedasticidad o ausencia de normalidad.
De esta forma, cuando el análisis de residuos no aporta elementos suficientes para

detectar estos problemas, se sugiere emplear una transformación de la variable
independiente para lograr la linealidad del modelo; sin embargo, también se pueden
transformar las dos variables.
Para solucionar los problemas de heterocedasticidad o ausencia de normalidad,

también son muy empleadas las transformaciones de Box-Cox.
Transformaciones
Identificación de Heterocedasticidad
Dada la siguiente base de datos con dos variables cualesquiera, generar el modelo lineal.
Estimar los residuos.
Graficar los residuos al cuadrado contra el modelo para identificar si existe o no

heterocedasticidad como se muestra en el gráfico siguiente.
Num Y (V1) X (V2)
1 13.2 61
2 15.0 78
3 22.2 158
4 15.2 110
5 16.1 85
6 18.5 150
7 15.5 140
8 15.0 70
9 20.0 122
10 15.0 70
11 11.0 21
12 21.0 140
13 16.2 91
14 18.5 105
15 17.0 115
16 17.5 115
17 22.0 160
18 18.0 165
19 23.0 170
20 17.0 130
21 17.0 90
Casos de comportamientos hipotéticos de los residuos que
permiten identificar Heterocedasticidad
ê2 ê2 ê2
0 Ŷ 0 Ŷ Ŷ
a) 0
b) c)
ê2 ê2
0 Ŷ 0 Ŷ
d) e)
ê2
0 Ŷ
ê2
0 Ŷ
Transformaciones
Definición de Box-Cox:
Es la transformación de la variable dependiente Y, cuando sus valores se suponen

positivos, pero cuando es negativa se le sumará una cantidad fija M tal que Y + M > 0.
En este caso, para realizar la transformación de Box-Cox dependerá de un parámetro 

por determinarse, que está dado por:
y -1
Si   0

Z() =
lg(y) Si  = 0
Transformaciones
La transformación de los datos, mediante Box-Cox, para ser normalizados, emplean el
método de máxima verosimilitud y se estima bajo el siguiente procedimiento, en el caso
particular de diferentes valores de :
y - 1
K1*y - 1 Si   0 Si   0
K2 (-1)
U() = U() =
K2*lg(y) Si  = 0 K2 lg(y) Si  = 0
Recordemos que el método de máxima verosimilitud se emplea para ajustar un modelo y encontrar sus
parámetros, donde las observaciones de una muestra son independientes y provienen de una función de
distribución desconocida.
De esta forma, el estimador de máxima verosimilitud es el resultado de aplicar el método de máxima
verosimilitud que estima el valor de un parámetro específico siempre y cuando se acerque al valor real del
parámetro, buscando maximizar la función de verosimilitud.
Transformaciones
Donde:
K2 = (y1·y2·…·yn)1/n es la media geométrica de la variable Y.
Para cada , se obtiene el conjunto de valores {Ui()}i = 1-n
Y 1
K1=
K2(-1)
La función de verosimilitud es:

-n n
L() = ln(∑ (Ui() - Ū())2
2 i=1
Transformaciones
¿Cómo se determina el mejor valor de ?

y−1
Para encontrar el mejor valor de  se debe aplicar la fórmula K (−1) a cada valor de yi y crear el vector
2
Ui() y ajustar el modelo lineal Ûi = β0 + β1x por mínimos cuadrados para un valor específico de . Se debe
estimar tanto a  como a β0.
Esto se hace aplicando el método de máxima verosimilitud bajo el supuesto que β0 ~ N(0, Iσ2) para el valor
seleccionado de . Una vez obtenido el valor de  adecuado, se puede ajustar un nuevo modelo con
error normalmente distribuido, independiente y varianza homogénea, empleando el método de máxima
verosimilitud.
Sin embargo, no es necesario ejecutar el método de máxima verosimilitud, sino ejecutar los siguientes
pasos:
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_17_78.html
Transformaciones
1. Seleccionar un rango determinado para los posibles valores de , generalmente es (-1, 1), sin
embargo, algunos autores también sugieren (-2, 2) o incluso ampliar éste último rango, de ahí
generar entre 11 y 21 posibles valores para .
2. Estimar el vector de respuestas Ui() para cada valor de .
3. Ajustar el modelo lineal Ûi = β0 + β1x1 y estimar la suma de Cuadrados del Error SCE con base en el
método de mínimos cuadrados.
4. Graficar los valores de la suma de cuadrados del error contra los valores de .
5. Identificar y seleccionar el valor de  que registró el valor más bajo de la suma de cuadrados del
error, el cual representará el valor estimado de máxima verosimilitud de . Se pueden hacer
aproximaciones en caso de ser valores cercanos a 0, 0.5 o 1.
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_17_78.html
Transformaciones
La transformación de los datos, mediante Box-Cox, para ser normalizados, emplean
el método de máxima verosimilitud y se estima bajo el siguiente procedimiento, en
el caso particular de diferentes valores de :
y - 1
Si   0
ŷ(-1)
U() =
ŷ lg(y) Si  = 0
Donde
ŷ = (y1 y2 … yn)1/n es la media geométrica de la variable Y.
Para cada , se obtiene el conjunto de valores {Ui()}i = 1-n
La función de verosimilitud es:
-n n
L() = ln(∑ (Ui() - Ū())2
2 i=1
Transformaciones
Determinar el parámetro ^ que maximiza L().
Para el caso práctico L() se estima mediante un enrejado (grid) de valores de  que a su
vez facilita la aproximación gráfica de la función L(), obteniéndose su máximo mediante:
^
MV = 0 | L(0) ≥ L(), 
Los valores más empleados para el parámetro  son:
Valor  Transformación
-1 Z() = 1/Y
-½ Z() = 1/ Y
0 Z() = ln(y)
½ Z() =  Y
1 Z() = Y
Transformaciones
Un método gráfico sencillo de estimar  es el siguiente:
Dada la variable Y, donde para cada grupo de residuos, según el tratamiento, se

calcula la media de la respuesta, i., y la desviación típica de los residuos, Ŝi(e).
Al dibujar el gráfico de los pares de puntos ( i, Ŝi) se realiza un ajuste con base en
los logaritmos de ambas componentes del modelo.

Ŝi = K i  lg Ŝi = lg K +  lg i
Transformaciones
Un método gráfico sencillo de estimar  es el siguiente:
1. Dada la variable Y, donde para cada grupo de residuos, según el tratamiento, se calcula
la media de la respuesta, i., y la desviación típica de los residuos, Ŝi(e).
2. Al dibujar el gráfico de los pares de puntos ( i, Ŝi) se realiza un ajuste con base en los
logaritmos de ambas componentes del modelo.

Ŝi = K i  lg Ŝi = lg K +  lg i
3. Conclusión:
Si  = 0 los residuos son homocedásticos.
Si  = 1 hay heterocedasticidad y la transformación a realizar es tomar logaritmos.
En otro caso, hay heterocedasticidad y se deben transformar los datos según la
transformación de Box-Cox con  = 1 -  .
RLS - STATISTICA
RLS - STATISTICA
RLS - STATISTICA
RLS - STATISTICA
RLS - STATISTICA
RLS - STATISTICA
Recordar que la
y -1
transformación de Box-Cox Si   0
dependerá de un 
Z() =
parámetro  por
determinarse, que está
lg(y) Si  = 0
dado por:
RLS-MINITAB
RLS-MINITAB
RLS-MINITAB
RLS-MINITAB
RLS-MINITAB
RLS-MINITAB
RLS-SPSS
RLS-SPSS
RLS-SPSS
RLS-SPSS
RLS-SPSS
RLS-SPSS
RLS-SPSS
Práctica 4
Con base en los siguientes datos, estimar el R2 y determinar su nivel de

explicación del modelo, tomando como variables de estudio la edad y el
colesterol, en caso de ser necesario realizar una transformación y determinar
el resultado.
Estudio de Casos
Al tomar la medida de la tensión arterial diastólica en treinta y cinco individuos de los que
se conoce además, su edad, colesterol e índice de masa corporal. Se tiene conocimiento de
que el valor de la tensión arterial diastólica varía en función del colesterol e índice de masa
corporal de cada sujeto.
Estimar para el siguiente caso el R2, y determinar su nivel de explicación del modelo, entre
las variables de edad y colesterol, en caso de ser necesario realizar una transformación y
determinar el resultado.
Estudio de Casos
No. EDAD (X) COLESTEROL (Y) No. EDAD (X) COLESTEROL (Y)
1 42 292 19 53 198
2 64 235 20 59 218
3 47 200 21 65 215
4 56 200 22 67 254
5 54 300 23 49 218
6 48 215 24 53 221
7 57 216 25 57 237
8 52 254 26 47 244
9 67 310 27 58 223
10 46 237 28 48 198
11 58 220 29 51 234
12 62 233 30 49 175
13 49 240 31 68 230
14 56 295 32 58 248
15 63 310 33 54 218
16 64 268 34 59 285
17 67 243 35 45 253
18 49 239
Num x y Num x y
1 77 84 13 87 79 Ejemplo
14 116 155 “El siguiente conjunto de datos fue tomado sobre
2 137 116
15 102 101 grupos de trabajadoras de Inglaterra y Galés en el
3 117 123 período de 1970-72. Cada grupo estaba formado por
4 94 128 16 111 118
trabajadoras de la misma profesión (médicos,
5 88 104 17 93 113 decoradores, trabajadores textiles,...etc.), en cada
6 102 88 18 112 96 uno de los veinticinco grupos muestreados se
7 91 104 19 113 144 observaron dos variables: el índice estandarizado de
8 104 129 20 110 139 consumo de cigarrillos (variable regresora, x) y el
107 86 21 125 113 índice de muertes por cáncer de pulmón (variable
9
22 91 85 dependiente, y). Se desea estudiar la relación entre
10 133 146
100 120 estas dos variables.”
11 115 128 23
12 105 115 24 76 60
25 66 51
∑x ∑y β0 = - β1
∑xy -
β1 = m = n
(∑x)2
∑x2 - Y = Ŷ = β0 + β1x1
n
SCR =
[ ∑xy -
n ]
∑x ∑y 2
SCT = ∑y2 -
(∑y)2
(∑x)2 n
∑x2 -
n
SCR
R2 =
SCT
n-1
R2A = 1- (1-R2)
n-p
Grados de libertad para la regresión: glr = 1

Cuadrado medio del

Suma de cuadrados para el error (CME)
error (SSE) SCE
CME =
SCE = SCT – SCR
gle
Cuadrado medio de la
CMR regresión (CMR)
FC = SCR
CME CMR =
glr
Transformaciones
Casos de transformaciones son:
Modelo Transformación X Transformación Y
Simple Ŷ = β0 + β1X1 t(x)= x t(y)= Ŷ
Exponencial Ŷ = exp (β0 + β1X1) t(x)= x t(y)= log10(Ŷ)
1
Recíproca Y Ŷ = β0 + β1X1 t(x)= x t(y)= 1/Ŷ
Recíproca X Ŷ = β0 + β1(1/X1) t(x)= 1/x t(y)= Ŷ

Recíproca Doble 1
t(x)= 1/x t(y)= 1/Ŷ
Ŷ = β0 + β1(1/X1)
Logarítmica Ŷ = β0 + β1ln(X1) t(x)= ln(x) t(y)= Ŷ
Múltiple Ŷ = β0 X1β1 t(x)= ln(x) t(y)= ln(y)
Raíz C. de X Y = β0 + β1 X1 t(x)= x t(y)= Ŷ
Raíz C. de Y  Ŷ = β 0 + β 1 X1 t(x)= x t(y)=  Ŷ
Curva S Ŷ = exp (β0 + β1/X1) t(x)= 1/x t(y)= ln(Ŷ)
Regresión Lineal Múltiple
Regresión Lineal Múltiple1
El modelo de regresión lineal múltiple es una generalización del modelo de regresión
lineal simple, en el que relacionamos la variable que queremos explicar, Y, con las k
variables explicativas X1, X2, ..., Xk. Lo encontraremos a partir de los valores (xi, yi) que
toman estas variables sobre los elementos de una muestra y mediante la expresión
siguiente:
Y = β0 + β1x1 + β2x2 + . . . + βkxk + e
Gibergans Bàguena, Josep; Regresión Lineal Múltiple; P03/75057/01014; Universitat Oberta de Catalunya, España.
La ecuación para cada elemento de la muestra se expresaría mediante el siguiente sistema

de ecuaciones:
Y1 = β0 + β1x11 + β2x21 + . . . + βkxk1 + e1
Y2 = β0 + β1x12 + β2x22 + . . . + βkxk2 + e2

… … … … … … … … …
Yn = β0 + β1x1n + β2x2n + . . . + βkxkn + en

En términos matriciales expresamos el modelo como Y= Xβ + e
Y1 1 x11 x21 . . . xk1 β0 e1
Y2 = 1 x12 x22 . . . xk2 β1 + e2

… … … … … … …
Yn 1 x1n x2n . . . xkn βk en
donde:
Y: es el vector columna de tamaño n correspondiente a la variable Y.
X: es la matriz de tamaño (n, k+1) observaciones. Siendo la primera columna de valor uno; cada columna Xi
tiene las observaciones correspondientes a cada una de las variables involucradas en el análisis.
β: es el vector columna de tamaño k que contiene los coeficientes de la regresión.
e: es el vector columna de tamaño n que contiene los residuos o errores.
Derivado del modelo:
Xβ explica el nivel de variación de la variable Y con respecto a las variables Xi.
e son los errores o residuos que explican el impacto de las variables externas (no
incluidas en el modelo) pero que también influyen en la variable Y.
Con relación a los residuos hay dos supuestos importantes:

1. Los errores se distribuyen como una normal con media cero y una varianza 2.
2. Los errores son independientes.
Estos dos supuestos también tienen asociadas dos suposiciones
relacionadas con el modelo:
1. El número de parámetros a estimar (k+1) no puede ser mayor

que el tamaño de la muestra; por lo que n > k + 1.
2. Todas las variables Xi deben ser linealmente independientes,

para prevenir casos de multicolinealidad, ya que de otro modo
se obtendría un modelo de k-1 variables, en lugar de k+1.
Ajuste del modelo
Para el caso del análisis de regresión lineal múltiple, se emplea el mismo criterio del
modelo de regresión lineal simple, para estimación de la recta que mejor se ajuste bajo el
procedimiento delos mínimos cuadrados; en este sentido, se emplea un procedimiento
similar mediante la suma de los errores o residuos al cuadrado y la determinación de los
parámetros del modelo que conjuntamente explicarán la suma con el menor valor.
De esta forma, y como ya se comentó anteriormente, los residuos o errores, resultan de la

diferencia entre los valores observados (Yi) y los valores estimados del modelo (Ŷi).
Ŷi = β0 + β1x1i + β2x2i + . . . + βkxki + ei

Ajuste del modelo
Con base en esto, los residuos o errores en el modelo de regresión múltiple, se estiman de
la siguiente manera:
ei = Yi - Ŷi = Yi – (β0 + β1x1i + β2x2i + . . . + βkxki)
En términos matriciales, lo denotamos de la siguiente manera:

e1 Y1 Ŷ1 Y1 1 x11 x21 . . . xk1 β0
e2 = Y2 - Ŷ2 = Y2 - 1 x12 x22 . . . xk2 β1

… … … … … … … … …
en Yn Ŷn Yn 1 x1n x2n . . . xkn βk
ei = Yi - Ŷi = Yi – Xβ
Ajuste del modelo
Para encontrar los valores de los parámetros que hacen mínima esta suma, se aplica la
derivada parcial de la SCE con respecto de β, quedando:
– 2XtY + 2XtXβ
Para encontrar los valores que hacen nulas las derivadas parciales igualamos –2XtY + 2XtXβ
=0 sí la derivada parcial de la SCE con respecto de β es igual a cero.
Simplificando quedaría:
XtXβ = XtY
Ajuste del modelo
Donde:
ei es el vector de los residuos
Ŷ es el vector de las estimaciones de Y
X es la matriz de observaciones
β es el vector de los parámetros de la regresión
Ajuste del modelo
Para calcular la suma de los cuadrados de los elementos de un vector, se realiza el producto
escalar del vector por sí mismo; es decir, el producto matricial del vector transpuesto por el
mismo vector.
n n
SCE = ∑ ei2 = ∑ (Yi – Ŷi)2 = (Y – Xβ)t (Y – Xβ)
i=1 i=1
Aplicando los productos señalados y con referencia a las propiedades del cálculo matricial,
la suma de los cuadrados de los residuos queda como:
n
SCE = ∑ ei2 = (Y – Xβ)t (Y – Xβ) = YtY – 2βXtY + βtXtXβ
i=1
Ajuste del modelo
Estimando el vector de parámetros quedaría:
^ = (XtX)-1 XtY
β
Donde:
^β es el vector de los estimadores mínimos cuadráticos de los parámetros.
Ajuste del modelo
Finalmente, al realizar las operaciones matriciales, en la ecuación XtXβ^ = XtY, se obtiene el
siguiente sistema de ecuaciones, conocido como sistema de ecuaciones normales de la
regresión:
n n n n
n ∑ xi1 ∑ xi2 … ∑ xik ^ ∑ yi
i=1 i=1 i=1 β0 i=1
n n n n n
∑ xi1 ∑ xi1 2 ∑ xi1 xi2 … ∑ xik xi1 ^β ∑ xi1yi
i=1 i=1 i=1 i=1 i=1
1
n n
∑ xi2 ∑ xi1 xi2
n
∑ x2i2
n
… ∑ xik xi2
= n
∑ xi2 yi
i=1 i=1 i=1 i=1
^Β i=1
2
… … … … … … …
n n n n n
∑ xik ∑ xik xi1 ∑ xik xi2 … ∑ xik
2 ^ ∑ xik yi
βk
i=1 i=1 i=1 i=1 i=1
Interpretando los β
Derivado del modelo de regresión lineal múltiple, la interpretación de los parámetros es
determinante, por lo que se debe considerar lo siguiente:
1. Conocer el fenómeno o problema bajo estudio.

2. Interpretar β0. Representa la estimación del valor de Y cuando todas las Xi toman valor
cero. Y para lograr mayor precisión en la interpretación es importante:
• Que sea realmente posible que las Xi sean igual a cero.
• Contar con suficientes registros cercanos a los valores Xi, cuando Xi es igual a
cero
3. Interpretación de βk. Estos parámetros, representan la estimación del incremento que
experimenta la variable Y cuando Xi aumenta su valor en una unidad y las demás
variables se mantienen constantes.
Coeficiente de determinación múltiple
Se interpreta como el porcentaje de variabilidad de Y explicada en términos del modelo de
regresión ajustado, en tanto que puede comprobarse que:
n
SCE = ∑ ei2
i=1
1- R2 = n
∑(Yi – ӯ)2
i=1
Cuando todos los puntos se encuentran sobre la recta de regresión estimada, es decir, se
logra "el ajuste es perfecto", la suma de cuadrados de residuos, SCE, toma el valor cero y ,
por tanto, R2 = 1. El denominador en este caso es una medida de la variabilidad total de las
n observaciones de la variable respuesta.
Caso práctico:
Gastos de los empleados según su antigüedad y las horas diarias de trabajo
Se desea encontrar una explicación de los gastos (en miles de pesos/año) que generan los
empleados de un departamento comercial a partir de su antigüedad (en años) y del
número de horas diarias que trabajan (horas/día).
Se tomó a cinco empleados como muestra y se obtuvieron los siguientes resultados:
Gastos (Y) miles Antigüedad (X1) Horas de trabajo

de pesos/año) (años) (X2) (horas/día)
24.6 1 11
33.0 3 13
36.6 4 13
39.8 4 14
28.6 2 12
Se desea identificar un modelo de regresión de la forma:
Y = β 0 + β 1 x1 + β 2 x2 + e
Bajo el esquema del sistema de ecuaciones los datos de los empleados, se representan de
la siguiente manera:
Y1 = β0 + β1 + 11 β2 + e1
Y2 = β0 + 3 β1 + 13 β2 + e2
Y3 = β0 + 4 β1 + 13 β2 + e3
Y4 = β0 + 4 β1 + 14 β2 + e4
Y5 = β0 + 2 β1 + 12 β2 + e5
24.6 1 1 11 e1
33.0 1 3 13 β0 e2
Y= 36.6 X= 1 4 13 β = β1 e = e3
39.8 1 4 14 β2 e4
28.6 1 2 12 e5
Quedando el modelo de regresión lineal múltiple, en notación matricial:
Y = Xβ + ei
Siguiendo las operaciones correspondientes, la matriz transpuesta de la matriz X es:
1 1 1 1 1
Xt = 1 3 4 4 2
11 13 13 14 12
Seguido:
1 1 1 1 1 1 1 11 5 14 63
XtX = 1 3 4 4 2 1 3 13 = 14 46 182
11 13 13 14 12 1 4 13 63 182 799
1 4 14
1 2 12
Estimando la matriz inversa de XtX, se obtiene:
5 14 63 -1 181.5 14 -17, 5
(XtX)-1 = 14 46 182 = 14 1.3 –1.4
63 182 799 –17. 5 –1.4 1.7
Por otro lado:
1 1 1 1 1 24.6 162.60
XtY = 1 3 4 4 2 33.0 = 486.40
11 13 13 14 12 36.6 2075.80
39.8
28.6
De esta forma, el vector parámetros estimados de la regresión es:

β0
β = β1 = (XtX)-1 XtY
β2
181.5 14 -17, 5 162.60

(XtX)-1 XtY = 14 1.3 –1.4 486.40
–17. 5 –1.4 1.7 2075.80
–5
β = (XtX)-1 XtY = 2.6
2.4
Quedando nuestro modelo de regresión como: Y = -5.0 + 2.6x1 + 2.4x2
Predicciones
Como ya se ha comentado la utilidad del análisis de regresión radica en la predicción
(estimación) del valor que puede tomar la variable Y, con base en los posibles valores que
tomarían las variables Xi.
En este sentido, se reemplazan los Xi en el modelo de regresión:
Y = -5.0 + 2.6x1 + 2.4x2
Por ejemplo, cuando x1 = 2 y x2 = 14, el valor de Y quedaría como:

Y = -5.0 + 2.6(2) + 2.4(14) = 34
Correlaciones
Para identificar el grado de asociación entre las variables se emplea la matriz de
correlaciones, buscando la relación de dependencia entre ellas.
Esta relación de dependencia se analiza:

• Entre pares de variables
• Entre una variable y las demás
• Entre pares de variables pero eliminando el efecto de las demás (análisis de
correlación parcial)
• Entre todas las variables.
Correlaciones
Al determinar la dependencia lineal entre dos variables nos permite conocer si estas están
relacionadas; es decir si una de ellas se puede expresar en función de la otra, lo cual
implicaría que una de ellas aporta la misma información que la otra.
Por tanto si la dos variables están presentes en el modelo se deberá excluir la que menor
información aporte.
Esta relación de dependencia entre dos variables Xi y Xj también puede identificarse de

manera visual mediante el gráfico de Matrix Plot, que estima el coeficiente de correlación
lineal de Pearson.
Cov(Xi, Xj)
r=
 Var(Xi)  Var(Xj)
Correlaciones
Donde: Cov(Xi, Xj) es la covarianza muestral entre Xi y Xj, determinada por:
1 n
Cov(Xi, Xj) = ∑(Xij – j) (Xik – k)
n i=1
• Gujarati, Damodar. Econometría , Segunda edición. Editorial Mc Graw Hill. Bogotá, 1990.
• Lomax W. R., Saul A.J. Laboratory Work in Hydraulics. Bolton Institute of Technology. Great Britain 1979.
• Laboratory Work in Hydraulics
• Ang Alkfredo H-S, Teng Wilson H. Probability Concepts in engineering Planning and Design. Volumen I. Basic Principles.
John Wiley & Sons
• Jornadas de Educación Matemática de la Comunidad Valenciana

01 Regresion Lineal

Uploaded by

Document Information

Copyright

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

01 Regresion Lineal

Uploaded by

Copyright:

Angel Fernando Argüello Ortiz

16 años como Catedrático

Experiencia laboral: SEV, INEGI, COESPO,

Consejo Estatal de Población

1. Inferencia para los coeficientes de regresión

Aplicando los métodos más idóneos para el correcto análisis de datos

Por ello los modelos estadísticos lineales se han convertido en un valioso

Conclusión del curso: 11 de Noviembre de 2016

Con la modelación representamos nuestra concepción mental de la

Demostraremos que las técnicas de regresión son de gran apoyo para el

El análisis de regresión permite identificar y modelar las relación entre dos

Una manera rápida y visual de identificar el nivel y tipo de correlación es

1. Identificar si existe o no un nivel de asociación entre las variables.

Con base en esto, se identifican dos conceptos importantes del análisis

El Coeficiente de Correlación estará definido por el nivel de asociación

El Coeficiente de Regresión, mide el nivel de intensidad del cambio de la

En este sentido, una vez trazada la línea de regresión se identificará la

A esto se le clasifica como error o residuo y corresponde a la distancia de:

También, Ŷ - Ӯ, representa la distancia entre el valor estimado por la línea de

Con base en estas distancias, la suma de cuadrados de los errores o residuos se

En este mismo enfoque, si se estima el cuadrado de las distancias Ŷ - Ӯ, y

Mientras que en el caso de elevar al cuadrado la distancia Yi – Ӯ, y

Para obtener la mejor respuesta a estas preguntas basta con reducir al

Son 6 los supuestos a considerar en el modelo del regresión lineal:

2. Las variables empleadas no son aleatorias, ya que son obtenidas del

3. Para el caso de la regresión lineal múltiple, todas las variables

4. Cada una de las variables Xi es linealmente independiente. En caso de

5. Debe existir un comportamiento lineal entre la variable dependiente

6. Los errores o residuos se comportan como una distribución normal

Fuente de Grados de Suma de Cuadrado Fc

Regresión k-1 SCR CMR FC

Error n-2 SCE CME

Total n-1 SCT

Fuente de Grados de Suma de Cuadrado Fc

Destacando que para la suma de cuadrados totales se obtendrán por suma.

Grados de libertad para la regresión: glr = k – 1

Grados de libertad para el error: gle = n – 2

Grados de libertad para el total: glt = n – 1

La recta de regresión es la que mejor se ajusta a la nube de puntos y pasa por

La estimación de la pendiente corresponde al cociente entre la covarianza y la

Otro método empelado para estimar la pendiente es:

Esta metodología fue utilizada por Carl Gauss (1777-1855) y su objetivo

En el caso de que los puntos se concentren en los cuadrantes primero y

Por otro lado, si los puntos se concentran en los cuadrantes segundo y

En el caso de que los puntos se distribuyen en igual proporción

Variación explicada por la Variación total de las

Calcular el modelo y las SCR y SCT

β0 = - β1 = 34.5 – 12.89*(2) = 8.7

Y = Ŷ = β0 + β1x1 = 8.7 + 12.89*Xi

Como se mencionó anteriormente, la normalidad forma parte de uno de los

La violación o el incumplimiento de este supuesto no resta importancia al

CORRELACIÓN VALOR O RANGO

DETERMINACIÓN VALOR O RANGO

CORRELACIÓN VALOR O RANGO DETERMINACIÓN VALOR O RANGO

Esta es una etapa previa al análisis de varianza. Se emplea para determinar

• Revisión del cumplimiento de las suposiciones que hacen válido el

Como ya se mencionó anteriormente, el R2 representa el porcentaje de

Así también se ha destacado que el análisis de regresión explica el nivel de

Las propiedades teóricas de los residuos permiten que su utilización sea

Su notación matemática es:

El análisis de residuos aporta elementos significativos para identificar

Este tipo de gráfico muestra un comportamiento aleatorio, que es muestra de

Cuando la suposición de homogeneidad de varianza (homocedasticidad) no

Decimos que existe homocedasticidad cuando la varianza de los errores de la regresión

En el caso de que la varianza de los residuos no sea constante, estaremos frente a un

Algunas de las razones por las que se registra heteroscedasticidad:

Esto nos lleva a la elaboración del análisis de varianza (ANOVA), el cual