You are on page 1of 25

INSTITUTO TECNOLOGICO SUPERIOR DE FELIPE CARRILLO

PUERTO
Unidad Acadmica Tulum
Organismo Pblico Descentralizado del Gobierno del Estado de
Quintana Roo

CARRERA:

INGENIERIA EN GESTION EMPRESARIAL.

SEMESTRE:

5 GRUPO C.

NOMBRE DE LA ASIGNATURA:

ESTADSTICA INFERENCIAL II

NOMBRE DEL TRABAJO:

ACT. 1 INV. UNIDAD 2 REGRESIN LINEAL MLTIPLE Y


CORRELACIN

NOMBRE DEL DOCENTE:

ING. DORIS SURISADAY PERAZA ROJAS

ELABORADO POR:

MUKUL URIBE MARGIE YESSENIA


GUTIERREZ ARJONA SINDY GUADALUPE
CAAMAL EK MINERVA YESSENIA

TULUM, QUINTANA ROO, A VIERNES 29 DE SEPTIEMBRE DEL 2017


NDICE

INTRODUCCIN .................................................................................................... 3

TEMA: 2.1 MODELO DE REGRESIN MLTIPLE ................................................ 4

TEMA: 2.2 ESTIMACIN DE LA ECUACIN DE REGRESIN MLTIPLE .......... 7

TEMA: 2.3 MATRIZ DE VARIANZA Y COVARIANZA ........................................... 13

TEMA: 2.4 PRUEBAS DE HIPTESIS PARA LOS COEFICIENTES DE


REGRESIN ......................................................................................................... 15

TEMA: 2.5 CORRELACIN LINEAL MLTIPLE .................................................. 16

TEMA: 2.6 APLICACIONES .................................................................................. 20

CONCLUSIN ...................................................................................................... 24

BIBLIOGRAFA ..................................................................................................... 25

2
INTRODUCCIN

En el siguiente documento se presenta la investigacin de la unidad 2 denominado


Regresin Lineal Mltiple Y Correlacin, en la cual sus temas van derivados de la
primera unidad donde se observ el estudiado el modelo de regresin lineal simple,
donde se analizaba la influencia de una variable explicativa X en los valores que
toma otra variable denominada dependiente (Y). En una unidad se conocer la
regresin lineal mltiple donde se utilizara ms de una variable explicativa. El
modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple,
con la nica diferencia de que aparecen ms variables explicativas. Para realizar un
anlisis de regresin lineal mltiple se toman en cuenta ciertos puntos de gran
importancia que sern presentados a continuacin. As mismo se presentan sus
subtemas vistos en el ndice, en la cual se utilizaran ciertas herramientas como una
computadora ya que las estimacin de los coeficientes de una regresin mltiple es
un clculo bastante complicado y laborioso, por lo que se requiere del empleo de
programas de computacin especializados. A continuacin se presentara la unidad
2 y sus subtemas.

3
TEMA: 2.1 MODELO DE REGRESIN MLTIPLE

En la Regresin lineal mltiple modelizamos la relacin entre una variable


dependiente y dos o ms variables independientes mediante una funcin lineal, una
funcin que ser, ahora, no una recta, como suceda con la Regresin lineal simple,
sino un plano (si tenemos dos variables independientes) o un hiperplano (si tenemos
ms de dos variables independientes).

2. En la Regresin lineal mltiple el punto de partida es el mismo que en la


Regresin lineal simple. Se pretende modelizar la relacin entre unas variables con
la finalidad ltima de poder pronosticar una de ellas: la variable dependiente, a partir
del conocimientos de las otras: las variables independientes. En la Regresin lineal
mltiple se introducen nuevas variables independientes con la finalidad de reducir
la dispersin de la prediccin, con la finalidad de disminuir el residuo.

3. El modelo matemtico es, ahora:

y=a1x1+a2x2++adxd+b+e

Donde a1, a2,, ad y b son los coeficientes del modelo y donde e es el residuo,
que, como en la Regresin lineal simple, supondremos que sigue una distribucin
normal N(0, DE).

4. Aunque la Regresin lineal mltiple es, en buena parte, una generalizacin de la


Regresin lineal simple, tiene unas particularidades que conviene precisar.

5. Una de sus peculiaridades es la tendencia a llenar excesivamente el modelo. Hay


la tendencia a ir introduciendo variables, hinchando el modelo y esto es muy
perjudicial. Para que las cosas funcionen lo mejor posible conviene trabajar con
variables que sean independientes entre ellas.

4
Anlisis de Regresin Mltiple

Dispone de una ecuacin con dos variables independientes adicionales:

Se puede ampliar para cualquier nmero "m" de variables independientes:

Para poder resolver y obtener y en una ecuacin de regresin mltiple


el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se
generan por el mtodo de mnimo de cuadrados:

Para poder resolver se puede utilizar programas informticos como AD+, SPSS y
Minitab y Excel.

El error estndar de la regresin mltiple

Es una medida de dispersin la estimacin se hace ms precisa conforme el grado


de dispersin alrededor del plano de regresin se hace mas pequeo.

5
Para medirla se utiliza la frmula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuacin de regresin

n : Nmero de datos

m : Nmero de variables independientes

El coeficiente de determinacin mltiple

6
TEMA: 2.2 ESTIMACIN DE LA ECUACIN DE REGRESIN
MLTIPLE

La estimacin de los coeficientes de una regresin mltiple es un clculo bastante


complicado y laborioso, por lo que se requiere del empleo de programas de
computacin especializados. Sin embargo, la interpretacin de los coeficientes es
similar al caso de la regresin simple: el coeficiente de cada variable independiente
mide el efecto separado que esta variable tiene sobre la variable dependiente. El
coeficiente de determinacin, por otro lado, mide el porcentaje de la variacin total
en Y que es explicado por la variacin conjunta de las variables independientes.

El ejemplo numrico que se desarrolla a continuacin est basado en un estudio


estadstico de los costos administrativos en los bancos comerciales en Guatemala.
(Los datos bsicos se muestran en el Cuadro 2.) La variable dependiente para el
anlisis ser el nivel anual de los "Gastos Generales y de Administracin" en los
diferentes bancos del sistema. Si se examina el Cuadro 2, se podr apreciar que
estos costos (que en lo sucesivo llamaremos simplemente "costos administrativos")
varan enormemente de un banco a otro. Nuestro problema consistir, por tanto, en
encontrar una lista de variables que nos permitan explicar esta variacin observada.

7
Cuadro 2
Bancos Comerciales Privados en Guatemala
(1991).

Gastos Total Agencias


Generales Activo
y de Promedio
Admin.

G&T 48.8 831.5 30

INDUSTRIAL 43.2 1204.0 18

OCCIDENTE 39.4 1153.5 20

del CAFE 29.8 499.6 25

del AGRO 26.2 466.6 30

AGRICOLA MERC. 24.8 522.3 12

INTERNACIONAL 24.0 376.6 12

INMOBILIARIO 21.5 431.3 20

CONSTRUBANCO 18.3 282.2 10

del EJERCITO 15.6 311.8 13

LLOYD'S 14.3 284.5 7

METROPOLITANO 12.9 339.0 8

BANEX 12.5 462.8 3

8
A un nivel muy elemental, por del QUETZAL 8.8 205.0 12
supuesto, dicha variacin no
PROMOTOR 6.0 162.4 3
tiene realmente ningn
misterio, ya que los bancos CITIBANK 5.9 45.8 1
varan mucho en cuanto a su
CONTINENTAL 3.6 113.7 4
tamao, y es ms bien de
esperarse que los bancos REFORMADOR 1.7 237.3 7
ms "grandes" tengan
UNO 1.0 170.8 5
tambin costos
administrativos ms altos por Fuente: Superintendencia de Bancos, Boletn de
el slo hecho de ser ms Estadsticas Bancarias (Guatemala, 4 Trimestre,
grandes. Nuestra tarea ser 1992).
traducir esta nocin intuitiva
en un concepto operativo, y para esto debemos tratar de expresar el "tamao" de
un banco en trminos de alguna variable numrica. La variable escogida para este
propsito fue el Total de Activos del banco. Con esto, y como una primera
aproximacin para el anlisis, la recta de regresin sera la siguiente:

= b0 + b1X

Donde Y = Costos Administrativos del banco, y X = Activos Totales del banco.

Los Activos Totales de un banco son una buena medida de su "tamao," aunque no
es la nica medida posible, por lo que la decisin de adoptar esta medida especfica
es en cierto modo arbitraria. Por otro lado, el empleo de los Activos Totales como
variable independiente en la regresin facilita en cierto modo la interpretacin
econmica de los coeficientes:

(a) El coeficiente b1 nos indica en cunto incrementa el costo administrativo anual


por cada quetzal adicional de activos que maneja el banco. En otras palabras, este

9
coeficiente nos mide el "costo marginal" de administrar un quetzal adicional de
activos. Obviamente, este es un dato sumamente interesante para los tomadores
de decisiones en el sector bancario. Esperamos naturalmente que este coeficiente
sea positivo.

(b) Por otro lado, el coeficiente b0 nos estara indicando la parte del costo
administrativo que no vara directamente con el nivel de los activos del banco. En
otras palabras, esta sera la parte del costo administrativo que podra interpretarse
como un "costo fijo". Esperamos tambin que este coeficiente sea positivo.

Un posible defecto de esta ecuacin es la suposicin de que todos los bancos tienen
los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 2 que los
bancos comerciales varan mucho en cuanto al nmero de sucursales o agencias
que operan, y este es un factor que seguramente debe afectar el nivel de los costos
administrativos. Por esto, para una mejor aproximacin se estimar ms bien la
siguiente regresin mltiple:

= b0 + b1X1 + b2X2

Donde X1 = Activos Totales del banco, y X2 = Nmero de Agencias del banco.

En esta segunda regresin, el coeficiente b2 nos est midiendo el incremento en el


costo administrativo anual que resulta de manejar una agencia adicional.
Esperamos, por tanto, que este coeficiente sea positivo. (Naturalmente que este
coeficiente tendra que interpretarse como un costo "promedio" por agencia, ya que
ninguna agencia es exactamente igual que otra, por lo que difcilmente pueden tener
todas el mismo costo.) Los otros coeficientes tienen la misma interpretacin que en
la ecuacin anterior. Los resultados estimados fueron los siguientes:

10
= -1.22 + 0.0275X1 + 0.661X2

R2 = 0.9018

Se puede apreciar en primer lugar que esta regresin tiene un alto grado de poder
explicativo: la variacin conjunta de estas dos variables explica poco ms de 90 por
ciento de la variacin en los Costos Administrativos.

Por otro lado, se aprecia que el valor estimado para b0 es negativo, lo cual en
principio carece de sentido econmico. En vista de esto, conviene en este caso
volver a estimar la regresin "por el origen," es decir, sin esta constante. Los
resultados son los siguientes:

= 0.0266X1 + 0.621X2

R2 = 0.8995

Aqu se aprecia que el poder explicativo es bsicamente igual que en la regresin


anterior, aunque al haber eliminado un coeficiente posiblemente redundante, esta
segunda regresin nos proporciona en principio estimaciones ms eficientes de los
otros coeficientes:

(a) El coeficiente b1, se recordar, nos mide el costo "marginal" de administrar un


quetzal adicional de activos. Segn estas estimaciones, por tanto, se podra concluir
que en nmeros redondos el costo administrativo de un banco "tpico" aumentar
entre 2 y 3 centavos por ao por cada quetzal adicional de activos que administre.

11
(b) El coeficiente b2, se recordar, nos mide el incremento en el costo administrativo
anual que resulta de manejar una agencia adicional. Segn estas estimaciones, por
tanto, se podra concluir en nmeros redondos, y tomando en cuenta que los datos
se expresan en trminos de millones de quetzales, que el costo administrativo de
un banco "tpico" aumentar alrededor de 620,000 quetzales por ao por cada
agencia adicional.

Los resultados de este anlisis pueden proporcionar una buena indicacin sobre el
comportamiento de los costos para el banco "tpico" en Guatemala, aunque la
naturaleza misma de un estudio de este tipo no puede arrojar resultados
estrictamente aplicables a cada uno de los bancos considerados individualmente.
No obstante, a pesar de esto, un estudio de este tipo de todas maneras puede ser
muy til, porque los resultados pueden proporcionar una "norma" o "estndar"
contra el cual se pueden comparar los costos administrativos en un banco particular.
En ausencia de un estudio de este tipo, un banco no tiene realmente un criterio para
determinar si sus costos son "muy elevados," "aceptables," o "normales," ya que los
bancos difieren enormemente en cuanto a cantidad de activos, nmero de
sucursales, etc., de modo que el nico criterio objetivo sera el de compararse con
un banco de similar tamao y caractersticas. Sin embargo, si se pudiera obtener
una frmula emprica que permita calcular un valor "normal" o "promedio" para los
costos administrativos en funcin de unas pocas variables que permitan una
medicin numrica, entonces se podra fcilmente determinar si el banco en
cuestin est "mejor" o "peor" que el banco "tpico" a ese respecto.

12
TEMA: 2.3 MATRIZ DE VARIANZA Y COVARIANZA

Una matriz de varianzas-covarianzas es una matriz cuadrada que contiene las


varianzas y covarianzas asociadas con diferentes variables. Los elementos de la
diagonal de la matriz contienen las varianzas de las variables, mientras que los
elementos que se encuentran fuera de la diagonal contienen las covarianzas entre
todos los pares posibles de variables.

Por ejemplo, usted crea una matriz de varianzas-covarianzas para tres variables X,
Y y Z. En la siguiente tabla, las varianzas se muestran en negrita a lo largo de la
diagonal; las varianzas de X, Y y Z son 2.0, 3.4 y 0.82 respectivamente. La
covarianza entre X y Y es -0.86.

X Y Z

X 2.0 -0.86 -0.15

Y -0.86 3.4 0.48

Z -0.15 0.48 0.82

La matriz de varianzas y covarianzas es sim

trica, porque la covarianza entre X y Y es igual a la covarianza entre Y y X. Por lo


tanto, la covarianza para cada par de variables se muestra dos veces en la matriz:
la covarianza entre las variables i-sima y j-sima se muestra en las posiciones (i,
j) y (j, i).

Muchas aplicaciones estadsticas calculan la matriz de varianzas-covarianzas para


los estimadores de los parmetros en un modelo estadstico. Suele utilizarse para

13
calcular los errores estndar de los estimadores o las funciones de los estimadores.
Por ejemplo, la regresin logstica crea esta matriz para los coeficientes estimados,
lo que permite ver las varianzas de los coeficientes y las covarianzas entre todos
los pares posibles de coeficientes.

NOTA

Para la mayora de los anlisis estadsticos, si existe un valor faltante en cualquier


columna, Minitab ignora toda la fila cuando calcula la matriz de correlaciones o
covarianzas. Sin embargo, cuando se calcula la matriz de covarianzas solamente,
Minitab no ignora las filas enteras en sus clculos cuando hay valores faltantes.
Para obtener solamente la matriz de covarianza, elija Estadsticas > Estadsticas
bsicas > Covarianza.

14
TEMA: 2.4 PRUEBAS DE HIPTESIS PARA LOS COEFICIENTES
DE REGRESIN

HO : = 0 (equivale a plantear que no hay relacin entre Y y Xi)

H1 : 0 (equivale a plantear que s hay relacin entre Y y Xi)

Si se acepta la hiptesis nula, se est aceptando que no hay relacin Y y Xi, por lo
tanto, est variable se debe sacar del modelo.

La estadstica de trabajo se resuelve poniendo la hiptesis nula (HO) es verdadera.


Dicha estadstica de trabajo es:

Regala de decisin. Si el nmero de observaciones es mayor que 30, los valores de


Z se hayan en la distribucin normal. Si el nmero de observaciones es menor o
igual a 30, los valores de Z se hayan en la distribucin de N_K_1 grados de libertad
siendo que el nmero de variables independientes en el modelo.

15
TEMA: 2.5 CORRELACIN LINEAL MLTIPLE

Como se ha visto anteriormente, el coeficiente de correlacin simple est basado


en la suposicin de la aproximacin a la distribucin normal bivariante. Si se tiene
ms de dos variables, el modelo bsico para la correlacin mltiple, sera una
ampliacin de esta distribucin, denominada distribucin normal multivalente.

Si hay tres variables, habr tres correlaciones simples entre ellas, 12, 13 y 23.
Estos coeficientes miden la relacin lineal que existen entre estas variables, dos a
dos, sin tener en cuenta la posible influencia de la tercera.

La correlacin parcial se define como la correlacin entre dos variables si las dems
variable no varan, es decir, el valor de las dems variables son fijos. Por ejemplo,
el coeficiente de correlacin parcial 12.3, es la correlacin entre la variable 1 y 2
siendo constante el valor de la variable 3; o el coeficiente de correlacin parcial
23.1 es la correlacin entre la variable 2 y 3 siendo constante el valor de la variable
1.

El mantener constante una variable puede hacerse experimentalmente o


estadsticamente, debiendo dar en ambos casos resultados equivalentes. Para ver
claro por qu se necesita hallar una correlacin haciendo constante el valor de otra
u otras variables supngase que se est interesado en conocer la correlacin entre
la longitud del brazo y de la pierna cuando el tamao total del organismo permanece
constante. Est claro que la longitud del brazo y de la pierna estarn altamente
correlacionados debido al tamao general; as, un individuo alto tendr brazos y
piernas largos, mientras que un individuo bajo tendr extremidades cortas. Sin
embargo, si este estudio se seleccionan individuos del mismo tamao se puede
esperar que exista alguna correlacin residual entre la longitud del brazo y de la
pierna. Esto es muy probable en vertebrados, debido a que ambas extremidades
estn determinadas embriolgicamente con mecanismos homlogos responsables

16
de la diferenciacin y determinacin. Por tanto existir alguna correlacin entre
stas dos longitudes, incluso en ausencia de una causa comn como es el tamao
del individuo. Si una correlacin significativa entre dos variables se convierte en
correlacin parcial no significativa cuando una tercera variable permanece
constante, esto sugiere, aunque no prueba, que la variable que permanece
constante es la causa comn de la correlacin de las otras dos.

En el estudio de la recta de regresin se ha definido el coeficiente de correlacin


lineal simple (o de Pearson) entre dos variables X e Y , como

(8.25)

Donde s es la covarianza muestral entre las variables X e Y ; sX y sY son las


desviaciones tpicas muestrales de X e Y , respectivamente.

El coeficiente de correlacin lineal simple es una medida de la relacin lineal


existente entre las variables X e Y.

En general cuando se ajusta un modelo estadstico a una nube de puntos, una


medida de la bondad del ajuste es el coeficiente de determinacin, definido por

(8.26)

Si el modelo que se ajusta es un modelo de regresin lineal mltiple, a R se le


denomina coeficiente de correlacin mltiple y representa el porcentaje de
variabilidad de la Y que explica el modelo de regresin.

17
Como scE < scG, se verifica que 0 < R2 < 1. Si R2 = 1 la relacin lineal es exacta y
si R2 = 0 no existe relacin lineal entre la variable respuesta y las variables
regresoras.

El coeficiente de correlacin mltiple R es igual al coeficiente de correlacin lineal


simple entre el vector variable respuesta y el vector de predicciones ,

El coeficiente de correlacin mltiple R presenta el inconveniente de aumentar


siempre que aumenta el nmero de variables regresoras, ya que al
aumentar k (nmero de variables regresoras) disminuye la variabilidad no
explicada, algunas veces de forma artificial lo que puede ocasionar problemas
de multicolinealidad. Si el nmero de observaciones n es pequeo, el
coeficiente R2 es muy sensible a los valores de n y k. En particular, si n = k + 1 el
modelo se ajusta exactamente a las observaciones. Por ello y con el fin de penalizar
el nmero de variables regresoras que se incluyen en el modelo de regresin, es
conveniente utilizar el coeficiente de determinacin corregido por el nmero
de grados de libertad, 2. Este coeficiente es similar al anterior, pero utiliza el
cociente de varianzas en lugar del cociente de sumas de cuadrados. Para su
definicin se tiene en cuenta que

Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de


determinacin corregido por el nmero de grados de libertad, 2, definido como
sigue

18
(8.27)

Ahora es fcil deducir la siguiente relacin entre los dos coeficientes de


determinacin

(8.28)

Tambin es fcil relacionar el estadstico del contraste de regresin mltiple con el


coeficiente de determinacin, obteniendo

(8.29)

19
TEMA: 2.6 APLICACIONES

Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin


Mltiple:

En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca


Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos
que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15
alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base
de Datos y Programacin como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programacin

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

20
10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que


exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo
las notas de las asignaturas Algoritmos, Base de Datos y Programacin.

Se presentara la siguiente ecuacin a resolver:

Utilizando las frmulas de las ecuaciones normales a los datos obtendremos los
coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de
Clculo de Excel podemos calcular tambin los coeficientes de regresin:

Por lo tanto podemos construir la ecuacin de regresin que buscamos:

21
El Error Estndar de Regresin Mltiple

Mediante esta medida de dispersin se hace ms preciso el grado de dispersin


alrededor del plano de regresin, se hace ms pequeo.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error tpico y para explicar la relacin del
aprendizaje de PHP que se viene desarrollando es de 0.861

El coeficiente de determinacin mltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las


variables mltiples, utilizando la si siguiente formula:

22
23
CONCLUSIN

Podemos concluir que la regresin y la correlacin son dos herramientas para


investigar la dependencia de una variable y es necesario realizar el proceso de
regresin simple porque esta permite realizar las predicciones de una variable por
ejemplo la falta de inters de los alumnos en la lectura la variable seria el desinters,
claro que es algo complejo aunque puede parecer simple para esto se usan tcnicas
que cuantifican la mezcla entre dos o ms mezclas. y su finalidad es expresar la
relacin entre una variable dependiente Y y una variable independiente que viene
siendo la X y la correlacin expresa el grado o la cercana de la relacin entre las
variables en termines de un coeficiente de correlacin que proporciona una media
indirecta de la variabilidad e los puntos alrededor de la mejor lnea ajuste, cabe
mencionar algo importante la correlacin y la regresin no dan pruebas de causa y
efecto sino que solamente la forma en cmo se unen las variables para una
probabilidad y con la conclusin del modelo bsico para la correlacin mltiple, sera
una ampliacin de esta distribucin, denominada distribucin normal multivalente.

24
BIBLIOGRAFA

google. (28 de septiembre de 2017). Obtenido de


https://estadisticaorquestainstrumento.wordpress.com/2012/12/16/tema-12-
regresion-multiple/

google. (28 de septiembre de 2017). Obtenido de


http://www.eumed.net/cursecon/medir/multiple.htm

google. (28 de septiembre de 2017). Obtenido de https://support.minitab.com/es-


mx/minitab/18/help-and-how-to/modeling-statistics/anova/supporting-
topics/anova-statistics/what-is-the-variance-covariance-matrix/

google. (28 de septiembre de 2017). Obtenido de


https://es.scribd.com/doc/111248898/REGRESION-MULTIPLE-UNIDAD-2

google. (28 de septiembre de 2017). Obtenido de


http://www.monografias.com/trabajos30/regresion-multiple/regresion-
multiple.shtml

25

You might also like