You are on page 1of 15

INSTITUTO TECNOLOGICO SUPERIOR DE FELIPE CARRILLO PUERTO

UNIDAD ACADMICA TULUM

ORGANISMO PBLICO DESCENTRALIZADO DEL GOBIERNO DEL ESTADO


DE QUINTANA ROO

CARRERA:

INGENIERIA EN GESTION EMPRESARIAL.

SEMESTRE:

5 GRUPO C.

NOMBRE DE LA ASIGNATURA:

ESTADISTICA INFERENCIAL II

NOMBRE DEL TRABAJO:

INVESTIGACION UNIDAD 1

REGRESIN LINEAL SIMPLE Y CORRELACION

NOMBRE DEL DOCENTE:

ING. DORIS SURISADAY PERAZA ROJAS

ELABORADO POR:

CAAMAL EK MINERVA YESSENIA


UNIDAD I
REGRESION LINEAL SIMPLE Y CORRELACION

1.1 EL MODELO DE REGRESIN SIMPLE.


La regresin y correlacin son las dos herramientas estadsticas ms poderosas y
verstiles que se pueden utilizar para solucionar problemas comunes en los
negocios

Tipos de variables
Variable dependiente.
Desea explicar o predecir. Variable de respuesta
Variable independiente.
Variable explicativa o regresor

El primero en desarrollar un anlisis de regresin fue del cientfico Sir


Francis Galton (1822-1911)
Se dice que Y est regresando por X

Diagrama de dispersin
Lineal. A medida que X cambia, Y cambia en una cantidad constante
Curvilnea. Y cambia en una cantidad diferente a medida de que X cambia

El modelo de regresin ms sencillo es el Modelo de Regresin Lineal Simple que


estudia la relacin lineal entre la variable respuesta y la variable regresora
, a partir de una muestra n
i=1 , que sigue el siguiente modelo:

Por tanto, es un modelo de regresin paramtrico de diseo fijo. En forma matricial

donde t = , t = , t = , t = .
Se supone que se verifican las siguientes hiptesis:
1. La funcin de regresin es lineal,
o, equivalentemente, E = 0, i = 1,...,n.
2. La varianza es constante (homocedasticidad),

O, equivalentemente, V ar = 2, i = 1,...,n.
3. La distribucin es normal,

o, equivalentemente, i ~N , i = 1,...,n.
4. Las observaciones Y i son independientes. Bajo las hiptesis de
normalidad, esto equivale a que la Cov(Y i,Y j) = 0,si i j.
Esta hiptesis en funcin de los errores sera los i son independientes,
que bajo normalidad, equivale a que Cov = 0, si i j.

1.2 SUPUESTOS
Supuesto 1
El termino error en una variable aleatoria distribuida normalmente
Supuesto 2
Varianzas iguales de los valores Y (homocedasticidad)
Supuesto 3
Los trminos de error son independientes uno de otro
Supuesto 4
Supuesto de linealidad

i Yi Yi
Y b0 b1 X 0

1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de


especificacin.
En el caso de que sean varias variables independientes, la opcin Analizar-
Regresin Lineal-Grficos-Generar todos los grficos parciales nos da los
diagramas de dispersin parcial para cada variable independiente. En ellos se ha
eliminado el efecto proveniente de las otras variables y as la relacin que
muestran es la relacin neta entre las variables representadas.
2. Independencia de la variable aleatoria residuos (especialmente importante si
los datos se han obtenidos siguiendo una secuencia temporal).
Independencia entre los residuos mediante el estadstico de Durbin-Watson que
toma valor 2 cuando los residuos son completamente independientes (entre 1.5 y
2.5 se considera que existe independencia), DW<2 indica auto correlacin positiva
y DW>2 auto correlacin negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronsticos.


Esta condicin se estudia utilizando las variables: ZPRED=pronsticos tipificados y
ZRESID=residuos tipificados mediante:
El estadstico de Levene (ver explorar)
un grfico de dispersin .Que se obtiene en Analizar-Regresin-Lineal-Grficos.
El supuesto de homocedasticidad implica que la variacin de los residuos sea
uniforme en todo el rango de valores de los pronsticos (grfico sin pautas de
asociacin).
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:
La prueba de Kolmogorff-Smirnov, con grficos de normalidad de tipo Q-Q
(Cuantiles) o P-P (proporciones) (ver explorar)
Grficamente en Analizar-Regresin-Lineal-Grficos. La opcin
Histograma: aade una curva N(0,1)
Grfico de Probabilidad Normal de tipo P-P: Representa las proporciones
acumuladas de la variable esperada respecto a las proporciones acumuladas de la
variable observada.
5. No-linealidad, es decir la inexistencia de colinealidad. Esta puede ser:
colinealidad perfecta si una de las variables independientes tiene una relacin
lineal con otra/as independientes, colinealidad parcial si entre las variables
independientes existen altas correlaciones

1.3 DETERMINACIN DE LA ECUACIN DE REGRESIN


Ecuacin de regresin (con MCO*)

XY
Y b0 b1 X X Y __ __
b0 Y b1 X
Donde : b1 n
X
2
b0 : Intercepto
X n
2

b1 : Pendiente de la recta

Ejemplo
Se asume que Vita + Plus, Inc., recolecta datos sobre los gastos
publicitarios y los ingresos por venta de 5 meses, como se muestra
en la tabla
Realice un anlisis de regresin
Ejecicio
La gerencia de Hop Scotch Airlines, la empresa transportadora ms
pequea del mundo, considera que existe una relacin directa entre
los gastos publicitarios y el nmero de pasajeros que escoge viajar
con ellos. Para determinar si la relacin existe, y si es as cul
podra ser la naturaleza exacta, los estadsticos empleados por la
aerolnea decidieron utilizar los procedimientos MCO para determinar
el modelo de regresin lineal.
Se recolectaron los valores mensuales por los gastos de publicidad y
el nmero de pasajeros para los n=15 meses ms recientes
1.4 MEDIDAS DE VARIACIN
La medida de dispersin es el grado de alejamiento de un dato cualquiera de la
muestra de su media.
Con el propsito de medir la dispersin o variabilidad, se discutirn las medidas
de:
Rango
Desviacin media
Varianza
Desviacin Estndar (tambin llamada desviacin tpica)
Coeficiente de Variacin.
Rango

Sirve para tener una idea de lo extenso de una muestra.


Se calcula retndole el dato menor al dato mayor, con lo que nos damos una idea
general de lo aproximados o distantes que estn los datos de la muestra.

Rango
R = XM xm Donde= xm = Dato mayor xm = Dato menor

Ejemplo 1.5
Clasificacin por grupos.
Determina el rango del Grupo A, respecto a los partidos ganados. (PG)

EQUIPO
MONTERREY
SAN LUIS
TIGRES
JAGUARES
NECAXA
ESTUDIANTES
PG
9
9
6
4
4
4
R=9-4 = 5
Esto significa que en el Grupo A los datos no se separan por ms de 5 unidades.

Desviacin media
La desviacin media es un primer intento por buscar una medida de dispersin
ms eficiente que el rango.

Es abreviada por Dm y se define como:

X = media aritmtica Xi = Datos de la muestra N= Nmeros de datos

Ejemplo 1.6
Hallar la desviacin media de un conjunto 2, 3, 6, 8,11.
Al determinar la diferencia de cada dato dela muestra con su media nos dara
como resultado un cero, porque hay diferencias negativas y positivas y todas se
contrarrestan entre si. As que para evitar que se equilibren estas diferencias,
usaremos en cada una su valor absoluto para que todas ellas sean positivas.

2 + 3 + 6 + 8 + 11 / 5 = 6
Dm = 2 6 + 3 6 +6 6 + 8 6 + 11 6 / 5 = 2.8

Varianza

Procura dar el grado con que puede variar un dato de la muestra; el problema
es que sus unidades son cuadradas y es poco compresible para efectos
prcticos.
Recordemos la dificultad de sumar las diferencias entre cada dato de la muestra
y su media; por lo que otra manera de hacer positivas las diferencias es elevando
cada diferencia al cuadrado, de tal manera que cada cantidad encontrada ser
positiva.

Es abreviada por S y se define como:

X = media aritmtica Xi = Datos de la muestra N= Nmeros de datos

Ejemplo 1.7

Clasificacin por grupos

Determina la varianza del grupo A en partidos ganados (PG).

EQUIPO
ESTUDIANTES
JAGUARES
NECAXA
TIGRES
MONTERREY
SAN LUIS
PG
4
4
4
6
9
9

Varianza = S = (4 6) + (4 6) + (4 6) + (6 6) + (9 6 ) + (9 6) / 5
S = ( - 2 ) + (-2) + (-2) + (0) + (3) + (3) / 5
S= 4 + 4 + 0 + 9 + 9 / 5
S= 30 / 5
S= 6

Desviacin Tpica
Medida de dispersin optima, que se utiliza para calcular los lmites de control en
procesos productivos, puesto que determinan la variabilidad aceptable.
Consiste en quitarle el elemento cuadrtico a las unidades de la varianza
mediante la extraccin de la raz cuadrada de la misma; definitivamente la
desviacin tpica es la mejor medida de dispersin con que cuenta la estadstica, y
cuanto mayor sea la concentracin de los datos de una muestra, el valor de la
desviacin tpica ser menor.

Ejemplo (Nos basaremos en el ejercicio 1.7 y en la tabla del tema de "Varianza"

Varianza = S = (4 6) + (4 6) + (4 6) + (6 6) + (9 6 ) + (9 6) / 5
S = ( - 2 ) + (-2) + (-2) + (0) + (3) + (3) / 5
S = 4 + 4 + 0 + 9 + 9 / 5
S = 30 / 5
S = 6
S =1.7

1.5 CALCULO DE LOS COEFICIENTES DE CORRELACIN Y


DETERMINACIN
Coeficiente de correlacin
Carl Pearson
Coeficiente de correlacin producto-momento
Se representa con r
Valores entre -1 y 1

r XY
X
n
Y

r
2 XY
X
n
Y
2

X Y Y 2
n X 2 X Y 2 Y
2


X 2
2 2


n


n n

Coeficiente de determinacin
Medida de bondad de ajuste
Que porcentaje de cambio en Y se explica por un cambio en X
Se representa con r2

1.6 ANLISIS RESIDUAL


Error estndar de estimacin
Medida de bondad de ajuste
Grado de dispersin de los valores Y alrededor de la recta de
regresin
El error estndar siempre se representa en las mismas unidades que
la variable dependiente Y

Y 2 Y
2


XY n
X Y
2

n X 2

2
X
Se
n

n2

Y Se

Tipos de variables
Variable dependiente.
Desea explicar o predecir. Variable de respuesta
Variable independiente.
Variable explicativa o regresor

1.7 INFERENCIAS ACERCA DE LA PENDIENTE

1.8 APLICACIONES
Bibliografa
ACADEMIA. (s.f.). Obtenido de
https://www.academia.edu/8137314/Estad%C3%ADstica_Inferencial_II

blogspot. (s.f.). Recuperado el 26 de agosto de 2017, de


http://electroonica.blogspot.mx/2013/02/1.html

cmap.upb.edu. (s.f.). Obtenido de


http://cmap.upb.edu.co/rid=1236389324046_914980216_2868/Tema1.Analisis.Regresion
.Lineal1.pdf

You might also like