You are on page 1of 40
4 Anilisis descriptivos de datos bivariados Sa | 4 DESCRIPCION OBJETIVOS DEL CAPITULO 4.1 Dependencia lineal y En este capitulo estudiaremos covarianza > Qué es un diagrama de dispersién y cémo se usa. 4.2 Correlaci6n > Covarianza, 4.3 Regresion y prediccin —» Correlacién. —= > Como determinar el coeficiente de correlacién > El método de los minimos cuadrados para determinar la ecuacién de predicci6n, Cémo determinar la ecuaci6n de minimos cuadrados, que estima ccémo estén relacionadas dos variables. Cémo usar la ecuacién de regresién con propésitos de prediccién. Cémo se relacionan el coeficiente de correlacién y la pendiente de la recta de regresién > Qué es la suma de cuadrados para el error y cémo se calcula. E | clima parece afectar la ofensiva en beisbol. La tabla adjunta indica una relacién entre la temperatura y la ofensiva de 1987 a vy 7 1989.7 Porcentaje Carreras por Jonrones por _ Temperatura de bateo juego juego 0°-59° 0.248 8.0 1.40 60°-69° 0.253 85 1.65 70°-79° 0.259 8.6 1.69 80°-89° 0.263 OL 1.85 90° en adelante 0.263 91 1.83 Los datos sugieren que cuando ta temperatura aumenta, la ofensiva mejora; un estudio sobre la relaci6n entre la temperatura y la ofensiva, utiliza regresi6n y correlaci6n, que son los temas que veremos en este capitulo, Los anilisis estadisticos utilizan frecuentemente datos cuantitativos de Panorama del capitulo] __naturaleza bivariada; esto es, a cada elemento de la muestra le corres- onde un par de medidas. Los siguientes son ejemplos de datos bivaria- dos: I Salarios y edades de maestros del distrito A 1 Pulsaciones por minuto y presin sangutnea sistolica de estudiantes del grupo 209 de mateméticas i Estaturas y pesos de un grupo del club de Scouts 138 « Andlisis descriptivos de datos bivariados SECCION 4.1 Precipitacién pluvial diaria y temperatura diaria promedio en Frotsburg du- rante diez dias I Ingreso en la primavera y el verano de 1985 en 20 universidades Este capitulo tratard graficas de datos bivariados, midiendo la fuerza de una relacién lineal y describiendo relaciones lineales entre dos variables. En todo el capitulo trataremos Gnicamente relaciones lineales (linea recta). Dependencia lineal y covarianza EJEMPLO 4.1 Los datos bivariados pueden verse como una coleccién de pares ordenados (x,y), donde la medida x en el primer conjunto de datos es la pareja de la medida yenel segundo conjunto; el valor perteneciente al primer conjunto se escribe siempre primero en la pareja. Se acostumbra llamar variable independiente ala variable xy variable dependiente a la variable y, La aplicaci6n indicaré usualmente cudl conjunto de datos se asocia con la variable independiente: estos pares ordenados se pueden dibujar en un sistema coorditiado. La gréfica resultante se llama diagrama de dispersi6n, Considere la coleccién adjunta de datos pareados; representan el niimero de horas de estudio (2) y la calificacién recibida (y) en un examen para una muestra de seis estudiantes, (BC Dae ee oe 11 74 80 80 86 100 Horas FIGURA 4.1 Lineas rectas a través del origen Secciéa 41. Dependencia inealy covarianza = 139 Estamos interesados en determinar cudndo hay una dependencia lineal entre las dos variables, es decir, queremos determinar si la variable y tiene una tendencia a crecer o a decrecer, cuando la variable x aumenta. Si examinamos el diagrama de dispersién del ejemplo 4.1, parece que existe una tendencia de y a crecer cuando x lo hace. En este caso, decimos que hay algan grado de dependencia lineal entre x y y. Si la tendencia es que la variable y crezca cuandola variable x crece, la dependencia se llama positiva; encambio, si la tendencia es que y disminuya cuando x crece, la dependencia ¢s negativa; si no hay tendencia de y a crecer o decrecer cuando la variable x crece, entonces no hay dependencia lineal. Si los datos pareados tienen una relacién lineal perfecta, la pendiente —inclinacién—de la linea recta indica el tipo de relacién de dependencia para las variables utilizadas; si la linea tiene una pendiente positiva —si sube de izquierda aderecha—, entonces la dependencia es positiva, mientras que si tiene una pendiente negativa —si baja de izquierda a derecha—, la dependencia es negativa, Considere las dos ineas de la figura 4.1; ambas pasana través del origen; Ja linea etiquetada con J; tiene una pendiente positiva y la linea /; tiene una pendiente negativa. Note que todos los puntos, excepto el origen de la linea 1h, caen en los cuadrantes I y IT; para un punto en estos cuadrantes, ambas coordinadas son positivas 0 negativas Es posible asignarle un peso a cualquier punto contenido en una recta que pasa través del origen; este peso es un ntimero definido por el producto de sus coordenadas. Si el punto esté contenido en los cuadrantes I y TI, el peso asignado es positivo, mientras que si el punto esta contenido en los cuadrantes II y IV, el peso es negativo. En la figura 4.1, cada punto en la linea f,, excepto el origen, tiene un peso negativo y cada punto en la linea / (excepto el urigen) tiene peso positive; al origen se le asigua un peso de 0. Para resumir: 1. Cualquier linea a través de! origen con pendiente postiva tiene un producto de coordefadas que es no negativo. 2. Cualquier linea a través del origen con pendiente negativa tiene un producto de coordenadas que es no positive. 140 = Andlsis descriptivos de datos bivariados FIGURA 4.2 Diagrama de dispersién de desviaciones de valo- tes de los datos en el ejemplo 4.1 La desviacién de valores para.xy y puede usarse para crear una f6rmula para medir el grado de dependencia lineal. Recuerde los hechos siguientes relativos a desviacién de valores x-% 1, Una medida esta debajo de la media si la desviacién de su valor es negativa 2, Una medida esté arriba de la media si la desviacién de su valor es positiva 3. Una medida es igual a la media si la desviacién de su valor es cero, Si transformamos cada medida de una pareja (x, y) a su correspondiente desviacién de valor, resulta la pareja (x-¥, y -J); entonces el diagrama de dispersién de los pares de desviaciones de los valores tiene una interpretacién interesante. El punto (Z, 5) se llama el centroide del diagrama de dispersién y sirve como punto de referencia, Si dibujamos dos Ifneas a través del centroide, una paralelaal eje xy otra al eje y, entonces estas dos Ifneas pueden servir como Ifneas de referencia o ejes, para la desviacién de los valores; usamos ¥ para etiquetar al eje paralelo al eje y, y ¥ para el eje paralelo al eje x (véase la figura 4,2 para el estudio de los datos del ejemplo 4.1). y A 100 F i f c er of oe uw ie Horas Estas nuevas lineas de referencia establecen cuatro cuadrantes: I’, II’, Ml’ y IV’. Una pareja de desviaciones de valores se dibujaré en el cuadrante YT’ sila desviacién de sus valores x y y es positiva; en el cuadrante Il’, si la desviacién de su valor xes negativa y lade su valor y positiva; en el cuadrante TIP, sila desviaci6n de sus valores xes negativa y lade su valor yes negativa; yen el cuadrante IV’ sila desviaci6n de su valor x es positiva y la de su valor y negativa, Las distancias perpendiculares de los puntos medidos desde los jes ¥ y ¥ representan las desviaciones del centroide; los pares de desviaciones de valores (x-¥, y—J) se dibujan con respecto a los ejes Fy F de la misma forma en que los pares (x, y) se dibujan con respecto a los ejes x y y: TABIA 4.1 Coordenadas, desviacio- nes de valores, cuadran- tes y pesos para los datos enel ejemplo 4.1 Covarianza muestral Seccién 41. Dependencia inealy covarianza «141 El producto de las dos des viaciones de valores para una pareja determina tun peso; si todos los puntos en un diagrama de dispersién estén contenidos “en los cuadrantes I’ y III’, entonces los pesos son todos positivos y si los puntos estén contenidos en los cuadrantes II’ y IV’, todos los pesos son negativos. La suma de los pesos de todos los puntos de un diagrama de dispersi6n indica la fuerza de la dependencia lineal; sila suma de los pesos es positiva, la dependencia lineal también lo es, pero si esa sumaes negativa, la dependencia es negative; si la suma de los pesos es cero, no hay depend- encia lineal entre las variables x y y. La tabla 4.1 contiene informacién de las medidas pareadas usadas anteriormente. La media de las medidas x es ¥ = 5 y la media de las y es } = 77. Estudiante Coordenadas Coordenadas Cuadrante Peso - ¥ ey A am 4 6 (4-6) ao B 7) 3046 36) Tes c (4,74) 103 G3) 1 3 D (4,80) 103 (3) it E (7,80) eae ca) r 6 F (12,86) 7 9 @9% Teeaseas 0 0 iT Note las relaciones siguientes de la tabla 4.1: 1. Todos los estudiantes excepto D estn identificados con pares que tienen pesos positivos y dibujados en los cuadrantes I y III’. 2. Elestudiante D esté identificado con un par cuyo peso es negativo y dibujado en el cuadrante I’ ZE@-H=0 yZ(y-yp= 0. 4, El diagrama de dispersion est dominado por puntos en los cuadrantes I” {HI con pesos positivas. Esto se constata porque la suma de los pesos es 111 Cualquier peso asignado auna pareja de desviaciones de puntajes contribuye la suma de todos los pesos; la suma de los pesos de las desviaciones de los puntajes proporciona una medida total de la dependencia de las variables; representa la tendencia combinada de los puntos que habrén de estar ya sea en los cuadrantes I’ o IIT’, o en el I’ o el IV’. Si n representa el niimero de pares y dividimos la suma de los productos de las desviaciones de los valores entre'n — 1, obtenemos, en algtin sentido, una medida promedio de la dependencia lineal, Hamada la covarianza muestral, denotada por cov(x, y) © Sry. Asf, la covarianza muestral est dada por: 142. Andlisis descriptivos de datos bivariados Covarianza muestral cov (x,y) = Szy= 2 E=DO-D) ap EJEMPLO 4.2 La covarianza muestral para los datos del examen del ejemplo 4.1 es 222 Este resultado indica una dependencia lineal positiva entre la cantidad de tiempo de estudio y la calificacién obtenida. EJEMPLO 4.3 La figura 4.3 muestra diagramas de dispersi6n que representan una depen- dencia lineal negativa, una dependencia lineal positiva y una dependencia lineal cero; advierta en cada caso que el promedio de los productos de las desviaciones de los valores determina el tipo de dependencia, Seccién 4.1. Dependenca lineal ycovarianca a 143 FIGURA 4.3 Diagramas de dispersién que ilustran dependencia positiva negativa y falta de dependencia Oca eee eee) Dependenci neal ncgatva Dependencia neal psitva ingen dependencia linc La covarianza muestral es similar a la varianza muestral en el sentido dde que para la varianza muestra, la suma de cuadrados SS se divide entre n — 1, y para la covarianza muestral la suma de los productos de las desviaciones de los valores se divide entre nm ~ 1. 144 « Anilsis descriptivos de datos bivariados EJEMPLO 4.4 TABLA 4.2 eee a, a 2 DO-H a—1 = nl t t Variaxza muestral Covarianza muestral Mientras mayor sea el valor de la varianza muestral s? , mayor variacién hay cn los datos; en general, mientras mayor sea la magnitud de la covarianza muestral sxy,més fuerte esla dependencia lineal, pero ambas medidas pueden ser afectadas severamente por la presencia de observaciones aberrantes y que éstas tienen una tendencia general a inflarlas. La covarianza muestral tiene la seria desventaja de que dos diagramas de dispersi6n pueden tener la misma dependencia lineal, aunque posean covarianzas muestrales diferentes. Para ver que dos diagramas de dispersi6n diferentes pueden tener la misma depen- dencia lineal, usemos los dos conjuntos siguientes de datos pareados, ambos con una dependencia lineal perfecta. La relacién usada para generar los pares es y = x. Conjunto de datos A. Conjunto de datos B as y 1 1 3 Las medias para el Las medias para el conjunto de datos A son: conjunto de datos B son y=2 ye4 Yad Las desviaciones de valores y los productos de las desviaciones de valores correspondientes se ilustran en la tabla 4.2, Suma de productos de desviaci6n de valores para los conjuntos de da- tosAyB Conjunto de datos A Conjunto de datos B x 2 y-2 @-20-2) xy x4 y-4 4-4) 1 =1 1 es a 3 1 - 1 eee cece a 4 oe 2 oo 8 ‘La covarianza para el conjunto de datos A es: ee Sol 1 La covarianza para el conjunto de datos B es _2(x= ay — 4) m1 8 Tr 8 Sy Dos puntos determinan una recta. La dependencia lineal en cada caso no puede ‘ser més fuerte, es perfecta; pero la covarianza para el conjunto de datos B es cuatro veces la covarianza para A. Un resultado de esta observacién es que un cambio en las unidades de medida para x 0 y afectaré el valor de la covarianza. En la scecién 4.2 usaremos otra medida de dependencia lineal a la que no afecta la unidad de ‘medicién, La medida usa la summa de los productos de las desviaciones de los valores xy). ‘Seccién 4.1. Dependencia neal ycovarianza » 145, GRUPO DE EJERCICIOS 4.1 Habilidades basicas 1, Considere el conjunto de datos bivariados: x],o 1 4 2 6 yf2 a 2 7 0 4 1) Dibuje un diagrama de dispersién 'b) Determine si la dependencia es positiva 0 negati- vva usando el diagrama de dispersién. ©) Caleule el valor de la covarianza muestral. {Qué tipo de relacién de dependsncia indica? 2, Considere los datos bivariados: Oa ss 26-14 0 4 4) Dibuje un diagrama de dispersion »b) Resuelva si la dependencia es positiva o negati- vvausando el diagrama de dispersi6n, ©) Caleale el valor de cov(, 2). Qué tipo de rela- cin de dependencia indica? 3, Determine la covarianza muestral para los datos pa- reados: xjl 2.3 7 8 9 “yl2 1 4 8 0 19 4, Determine la covarianza muestral para. los datos pareados adjuntos. a lets y[16 9 4 4 «9 16 Més aplicaciones 5. Las calificaciones de ocho estadiantes del grupo 101 en matematicas (1) e inglés (y} son como sigue: x| 77 81 94 50 72 63 8&8 95 y) 82 47 85 66 65 72 89 95 a) Dibuje un diagrama de dispersién. b) Determine si ia dependencia es positiva 0 negati- va usando el diagrama de dispersion, 6) Caleule el valor de sy. 2Qvé tipo de relacién de dependencia indica? 6, Los datos siguientes representan los puntajes (x) en el SAT, matemiéticas y ()) en el GPA para un grupo de 10 estudiantes: _&| 450 376 514 678 501 734 325 400 398 681 y/[35 25 21 36 27 38 18 24 20 19 a) Dibuje un diagrama de dispersién. b) Resuelva si la dependencia es positiva 0 negati- ‘va usando el diagrama de dispersién. ©) Calcule la suma de los productos de las desvia- ciones de los puntajes. ,Que tipo de relacién de dependencia indica? Los datos que siguen representan los tamafios de los motores en pulgadas cibicas y laestimacién de millas Por gal6n, para siete automéviles subcompactos. Coche Tamaiio —Millas/galén del motor Chevette 98 31 Sentra 98. 35 Colt 86 a Isuzu I-Mark ui 2 Mercedes 190D 134 35 Firebird, 173 20 VW Rabbit 7 47 4) Trace un diagrama de dispersién, ») Fije In covarianza muestra. Las razones de precio-ganancia (PG) y el porcentaje rendido para siete tipos de acciones son: Razén PG| 24 24 34 29 40 38 27 Porcentaje | 4.2 07 10 46 62 63 84 rendido a) Dibuje un diagrama de dispersién, b) Resuelva la covarianza muestra. El miimero de bebidas alcohélicas consumidas y la ‘concentracién de alcohol en Ia sangre para una mues- tra de seis sujetos con pesos corporales semejantes, utilizados en un experimento son: Nomrode | 2 3 4 5 6 7 bebidas Concentracién | 0.05 0.09 0.11 0.13 0.17 0.20 de sleohol en la sangre 4) Dibuje un diagrama de dispersién para los datos. b) Determine say. ©) .Qué tipo de relacién de dependencia existe en- tre el nimero de bebidas consumidas y el nivel de alcohol en la sangre? 146» Andlsis descriptivos de datos bivariados 10.Considere el conjunto siguiente de datos bivariados: Bello ge eo a7. Dee a a2 a) Dibuje un diagrama de dispersi6n. ) Caleule el valor de la covarianza muestra ©) éQué tipo de relacién de dependencia existe centre x y y? Analice los resultados de los incisos a) yb) de este ejercicio. 11.Considere el conjunto de datos bivariados: pegs aa i ee 4) Dibuje un diagrama de dispersi6n. ) Calcule el valor de la covarianza muestral. 12.Considere los datos bivariados: xii 23 4°55 y 5 4) Dibuje un diagrama de dispersi6n. b) Calcute el valor de la covarianza muestral Un paso més alld 13.Demuestre que: 5, — NEW NEY) = ne — 1) SECCION 4.2 Correlaci6n ‘Uno de los objetivos principales en estadistica es la posibilidad de estimar 0 predecir el valor de una variable que depende de otra. El andlisis de regresién es un método usado para estudiar la relacién entre dos o més variables y para predecir valores de una de ellas; en muchas aplicaciones existe una relacién entre las variables que pueden usarse con propdsitos de prediccién. El aniilisis de correlacién es un método usado por los estadisticos para deter- minar la fuerza de Ia relacién 0 dependencia lineal existente entre las variables; si la fuerza de la dependencia lineal es pequefia, entonces no seré fructifero usar el andlisis de regresi6n para encontrar la relaci6n lineal y usarla con propésitos de prediccién. En la seccién 4.1 aprendimos a construir diagramas de dispersién; ellos representan un medio gréfico de determinar si existe unarelaci6n lineal entre dos variables; si todos los puntos caen exactamente en una Ifnea recta, entonces decimos que las dos variables tienen una correlacién lineal perfec- ta; si los puntos estén cercanos a una linea recta, se dice que las dos variables tienen una correlacién lineal fuerte; si 1a linea recta tiene una pendiente positiva, decimos que las dos variables tienen correlacién lineal positiva; y si la Ifnea tiene pendiente negativa, decimos que las variables tienen corre- lacién lineal negativa. Y si la recta tiene una pendiente de cero, decimos que no hay correlacién lineal entre las dos variables. La primera marca mundial para el recorrido de la milla final fue un tiempo de 4:56, registrado en 1864; desde entonces, el recorrido de la milla ha sido mejorado a 3:47.3 y en 1945 fue el dltimo afio en que la marca de la milla estuvo arriba de los 4 minutos. La tabla 4.3 muestra la evolucién en el tiempo de la marca mundial para el recorrido de 1a milla, desde 1945 hasta 1985. En la figura 4.4 se muestra un diagrama de dispersin para los datos de las marcas, TABIA 4.3 Marcas mundiales para el recorrido de la milla de 1945 a 1985 FIGURA 4.4 Marcas mundiales para los tiempos de recorrido de la milla de1945 a 1985 Seccién 4.2 Correlacién «147 Ajo Pats Tiempo 1945 Suecia 4014 1954 Estados Unidos 3:59.4 1954 Austria 3:58.0 1987 Gran Bretafia 3:57.2 1958 Australia 3:54.5 1962 Nueva Zelandia 3544 1964 Nueva Zelandia 354.1 1965 Francia 3:53.6 1966 Estados Unidos 3513 1967 Estados Unidos 3:51 1975 ‘Tanzania 3:50.0 1975 Nueva Zelandia 3:49.4 1981 Gran Bretafia 347.3 1985 Gran Bretaiia 346.3 Una ojeada al diagrama de dispersi6n de la figura 4.4, sugiere que existe una correlacién negativa para los datos y que seria razonable una aproxima- ci6n lineal para ellos; la correlaci6n es negativa, pues los puntos del diagrama de dispersién parecen estar cercanos a una recta de pendiente negativa. Obtener la aproximacién lineal a los puntos del diagrama de dispersi6n requiere andlisis de regresiGn, que exploraremos en la seccién 4.3. Los entusiastas del deporte han hecho muchas especulaciones sobre el afio en que se y=2;si decodificamos el valor de.xencontramos que laecuaciénderegresién estima que los 2 minutos para la milla se alcanzarén en el afio 2254. Deberemos ser siempre cuidadosos al hacer predicciones alejadas de los valores de la variable x contenidos en los datos muestrales; en nuestro ejemplo, los valores registrados para la variable x representan afios de 1945, 4 1985; con propésitos predictivos, s6lo deben usarse valores de x iguales 0 cercanos a estos valores. Seccién 4.3 Regresién y prediccién = 165 Pantalla 4.3 Se puede usar MINITAB para determinar la ecuacién de regresiOn para los datos de la marca mundial. La pantalla 4.3, muestra la informacion de las 6rdenes y las respuestas. MTB > READ C1 c2 DATA > 1 4,023 DATA > 10 3.990 DATA > 10 3.967 DATA > 13 3.953 DATA > 14 3.908 DATA > 18 3.907 : DATA > 20 3.902 ie DATA > 213.893 5 a DATA > 22 3.855 ‘ DATA > 23 3.852 3 DATA > 31 3.833 ‘ DATA > 31 3.823 ae : DATA > 37 3.788 : Sy DATA > 413.772 ae DATA > END es 14, ROWS READ MTB > NAME C1 ‘CODYEAR’ MTB > NAME C2 'CODETIME’ MPB > REGRESSION C2 1 C1 THE REGRESSION EQUATION IS CODETIME = 4.03 ~ 0.00655. CODEYEAR la relacién entre rym Tanto el coeficiente de correlacién r como la pendiente de regresién m utilizan las cantidades SSxy y SSx; en consecuencia, es posible obtener uno en términos del otro. Usando un poco de Algebra elemental, se puede demostrat la validez de la relaci6n siguiente, ‘Relacién entrerym Sr y (4.11) r= donde s, es la desviacién estandar muestral de x y s, es la desviacién esténdar muestral de y. Como s, y 5, son mayores que cero, el coeficiente de correlacién r concuetda en signo con la pendiente de ta recta de regresi6n; por lo tanto, la formula (4.11) ofrece otra explicacién de por qué la correlacién ¢s positiva si los puntos del diagrama de dispersién se acumulan de abajo a Ja izquierda a arriba a la derecha, y negativa si los puntos se acumulan de arriba a la izquierda y de abajo a la derecha, Si despejamos m de la férmula (4.11), tenemos: =5t may 166 = Andlsis descriptivos de datos bvariados 5 : Sir=1,entonces m =e como se ilustra en el diagrama. y Recta de regresion, ‘APLICAGION 4.8... | Se puede usar un programa computacional para realizar un andlisis de 7 = regresién que proporcione valores para b, m y r. Considere el ritmo cardiaco maximo y las edades que se registraron para diez individuos en un programa intensivo de ejercicios. Los datos son: Edad 1020 2025 30_ 404550 Ritmo [210 200 195 195 190 180 185 180 170 165 ardiaco La respuesta aqui ilustrada contiene el anélisis de regresién apropiado; advierta que se usa una notacién diferente: m representa la pendiente de la recta de regresiGn, n el nimero de pares de datos, B es la interseccién con el eje-y, R representa el coeficiente de correlaci6n y S.D. significa la desviacién estindar poblacional, El concepto de grados de libertad se estudiaré poste- riormente en el texto. Los paquetes de programacién proporcionan con frecuencia més respuestas de las que se necesitan en una cierta etapa y usan notaciones distintas fe CORRELATION AND LINEAR REGRESION VARIABLEX: AGE VARIABLE Y: HEART RATE MEAN OF X=30° > MEAN OF ¥: 187 = SD.OFX=11.61895 .< -__S.D. OF Y: 13.07670 £ NUMBER OF PAIRS (N) = 10 CORRELATION COEFFICIENT ®- 091 DEGREES OF FREEDOM (DF) = ‘SLOPE (M) OF REGRESSION 11 INE = 1.09259. Y INTERCEPT (B) FOR THE LINE = 219.778 Las respuestas computacionales de los programas comerciales con frecuencia no contienen alguna informacién deseada; pero muchas veces, 1a informaci6n faltante puede calcularse de la proporcionada en Ja respuesta. Seccin 43 Regresién y prediccién « 167 Por ejemplo, de la respuesta anterior podemos determinar la ecuacién de regresi6n y la suma de cuadrados de los errores, SSE, {Qué ritmo cardiaco méximo deberfa predecirse para una edad de 28 afios? | | | | Soluci6n: La ccuacién de tegtesiGu es’) = 219,778 ~ 1.09259x. Para la edad de 28 afios, deberfamos esperar una pulsacién maxima de: 3 = 219.778 - 1.09259(28) = 189.185 Para encontrar SSE, usaremos la f6rmula (4.10); primero necesitamos encontrar $S,, SS, y S8,,. Como la varianza poblacional est definida por o° = SSIN y.la varianza muestral esta definida por s’ = SS/(n—1), para determinar el valor de SS dado o, multiplicamos 0? por N. Esto es, s? = NAn~ 1)o” y SS = No*. En consecuencia, SS, = Noi = 10(11.61895)' = 1350 SS, = No; = 10(13.07670) = 1710 Como la pendiente de la recta de regresiGn esta definida por: P se SS, podemos despejar SS,, de esta ecuaciGn para obtener: SSy = mSS, (-1.09259)(1350) -1474.9965 Por Jo tanto, 1a suma de cuadrados de los errores es: SSE = SS, - mSS, = 1710 ~ (-1.09259)(-1474,9965) = 98.4336 = [GRUPO DE FERTICIOS 4 Habilidades basicas 1. Para cada una de las ecuaciones siguientes, encuentre la pendiente y la interseccién de la recta con el ele y, y dibuje la grafica. a)y=2x-3 byaxe2 ) e+ 3y=6 Qy=2 2. Para cada una de las ecuaciones siguientes, encuentre la pendiente y la intercepcisn de la recta con el eje y yy dibuje la grafica: ays-2r43 byysar—4 2 y= (23)x 3, Encuentre la ecuacién de regresién y SSE para los datos del ejescicio 1 del grupo de ejercicios 4.2. Los datos se repiten aquf por conveniencia. x[152489 y[372674 4, Para el ejercicio 2 del grupo de ejercicios 4.2, encuentre la ecuacién de regresién y SSE. Los datos se repiten aqut: Bia 8 1 Seo. yi8 714745 5. Parael eyereicio 7 del grupo de ejercicios 4.2, encuen- tre Ia ecuacién de regresién y SSE. Los datos se repiten aqui: 014-526 yl24t2 704 168» Andiss descriptivos de datos bvarados 6. Los datos del ejercicio 8 del grupo de ejercicios 4.2 se dan en la tabla. Encuentre la ecuaci6n de regresién y SSE. O74 sd y]2 6-160 -4 4 7. Los datos del ejercicio 10 del grupo de ejercicios 4.2 se reproducen aquf. Encuentre la ecuacién de regresiGn y SSE, x|77 81 94 50 72 63 88 95 y| 82 47 85 66 65 72 89 95 8. Los valores de los estadisticos siguientes se obtuvie- ron al analizar nueve pares de datos bivariados: = 0.049 ‘Encuentre la ecuacién de regresion y= b + mx y SSE. 9. Los valores siguientes se obtuvieron de nueve pares de datos bivariados: ¥= 7.2167, S<= 2.60702, J=112722, r= 0.622 5,5 5.24589, n=9 Encuentre la ecuacién de regresién } = b + mx y SSE. Mas aplicaciones 10.Considere los datos bivariados: x3 647 TL ~Tyy' =y—Y (recuerde que x" y y’ son las. desviaciones de los valores). a) Determine la ecuacién de regresi6n $* = b) Defina 9° six’ 11.Considere los datos bivariados: 5.41 8 6 —F (recuerde que x’ y y’ son las desviaciones de los valores). 4) Determine la ecuaciGn de regresion 5° = b + mx’. b) Calcule $” six’ = LL 12.B] clima parece tener efecto en la ofensiva en el beisbol. Los datos adjuntos indican la relacién entre temperatura y ofensiva desde 1987 hasta 1989.” (Esta aplicacién se describi6 en el motivador 4.) ‘Temperatura Porcentaje Carreras Jonrones debateo por juego por juego 0-59" 248 8.0 40 60" 69° 0.253 85 1.65 10°19" 0.259 86 1.69 80°89" 0.263 91 1.85 90° y més 0.263 9 1.83 Use las marcas de clase para las temperaturas 60°-89° para determinar la ecuaci6n de regresién que puede usarse para predecir las carreras por juego para una temperatura dada. 13, Refiérase al ejercicio 12. Use las marcas de clase para Jas temperaturas 60°-89° para determinar la ecuacién de regresién que puede usarse para predecir cuadran- gulares por juego para una temperatura dada. 14,La tabla adjunta enlista las marcas olimpicas de nata- ci6n, en segundos, en los 400 metros de estilo libre para mujeres desde 1924. Afio Tiempo Afio Tiempo 1924 362.20 1964 283.3 1928 3428 1968 271.8 1932 3285 1972 259.04 1936 3264 1976 249.89 1948 3178 1980 248.76 1952 3121 1984 247.10 1956 294.6 1988 243.85 1960 290.6 Encuentre la ecuacién de regresi6n y dsela para pre~ decir la marca mundial en 1962. (Sugerencia: codifi- que los afios usando x= afio ~ 1923.) 15.Las marcas olimpicas de nataci6n, en segundos, en los, 400 metros de estilo libre para hombres desde 1924 son: Aiio. Tiempo Aito Tiempo 1924 304.02 1964 252.2 1928 3016 1968 2490 1932 2884 1972 240.27 1936 2845 1976 231.93 1948 281.0 1980 231.31 1952 270.7 1984 231.23 1956 2673 1988 226.95 1960 __ 258.3 Encuentre la ecuacién de regresi6n y isela para pre- decir el tiempo de los hombres para 1992. (Sugeren- cia: codifique los afios usando x= aio - 1923.) 16,Se realiz6 un estudio para probar la efectividad de un ‘nuevo férmaco para reducir el rtmo cardiaco en pa- cientes adultos que padecen del coraz6n, donde parti- ciparon mil enfermos; en la tabla adjunta se muestra la reduccién promedio del ritmo cardiaco, medido en pulsaciones por minuto, para cada una de diez dosis, ‘en miligramos, del férmaco. 50 75 100 125 150 175 200 225 250 275 85 1 Ml 13 12 18 18 16 19 Dosis (2) Reduccisn| promedio del ritmo cardiaco a) Determine la ecuacién de regresién para predecir Ja reducci6n promedio del ritmo cardiaco dada una dosis fija del farmaco. >) Use la ecuacién para predecir a reduccién pro- ‘medio del ritmo cardiaco de un paciente que toma 300 mg del medicamento. Un paso més alla 17-Use las ecuaciones de regresién encontradas en los ejercicios 14 y 15, para calcular el afio en el cual el tiempo predicho para las mujeres serd igual al anun- ciado para los hombres en 1a competencia de 400 ‘metros estilo libre. Analice sus resultados. 18.Paralos datos enel ejercicio 10, encuentre los puntajes, 2, & pata x, y los puntajes z, z, para y. Determine entonces la ecuaci6n de regresién 2, = b + mz, y encuentre 19, Refigrase a la pantalla adjunta, 4) Encuentre la ecuacién de la recta de regresi6n, Secclén 4.2. Regresiény prediccién 169 b) Encuentre $SE, 20, Demuestre la formula (4.11). 21.Compruebe que SSE = $$, ~m' SS,. 22.Una medida de la forma en que los puntos de un iagrama de dispersi6n se distribuyen alrededor de la recta de regresiGnesel error estindar de estimacién 5» 10 cual esté definido por s, = \SSE/(n— 9). En- cuentre , para los datos del ejercicio 10. 23,Demuestre que Z()-$) =0, donde $= b+ ma. 24.Compruebe que (F, J) es un punto de la recta de regresin. 25. Verifique que la ecuaci6n de regresién puede escribir- se como S24 m(x—N, 26. Para los datos de la marca de Ja milla de la aplicacién 4.4, encuentre la ecuacién de regresién para predecit afios, dados los tiempos para la marca; use esa ecua- cin para predecir el afo en el cual la marca mundial para el recorrido de la milla sera de 3:40. {En qué afio (1999 © el afio obtenido aqui) dirfa usted que dicha ‘marca sera de 3:40? 170 Andliss descriptvos de datos bivariados RESUMEN DEL CAPITULO eae, =] En este capitulo se introdujeron los conceptos de ecuaciones lineales, regresién lineal y correlacién lineal; para determinar si existe una relacién lineal entre dos variables, a menudo se usa un diagrama de dispersi6n; vimos que la fuerza de la relacién lineal puede medirse por el coeficiente de correlacién ry la covarianza muestral syy; los valores del coeficiente de correlacién r pueden caer en cualquier lugar del intervalo entre -1 y 1, inclusive; si los puntos del diagrama de dispersién caen todos en una recta, el REVISION DEL CAPITULO. valor de res 1 0-1, dependiendo de que la recta tenga pendiente positiva o negativa; un valor de r= 0 indica Ja falta de una relacién lineal y un valor de r cercano a1 0-1 no necesariamente implica una relacién de causalidad. Aprendimos también cémo determinar la ecuacién de regresién usando el método de minimos cuadrados; la suma de los cuadrados de los errores, SSE, se minimiza cuando se usa el método de los minimos cuadrados para calcular la ecuaci6n de re- gresi¢n. cov(x, y), covarianza central Spe coVarianza muestral 1, coeficiente de correlacién ‘SS.y suma de productos cruzados ‘m, pendiente 6, intercepei6n con Covarianza muestral: cov(x, y) = Sxy _ 20-9 0-9) : an Coeficiente de correlacién de Pearson: Lng, n=l Ecuacién de una linea recta: y = b + mx ‘Suma de cuadrados de los errores: SSE=EQ-3F an r (42) m TERMINOS IMPORTANTES = “ Los términos det capitulo se han mezelado para proporcionar una mejor practica de revisi6n; ¢ uno con sus propias palabras; después verifique sus respuesta contra las dadas en el capitulo. error esténdar de estimacion método de los minimos cuadrados ‘nea recta” recta de regresi6n ‘eculaci6n lineal ‘suma de pioductos cfuzados codificacién ecuacién de regresién suma de cuadrados de los errores andlisis de regresién diagrama de dispersion covarianza muestral variable dependiente variable independiente centroide : pendiente ‘dependencia lineal andlisis de correlacién datos bivariados intercepeisn con el eje y linea de mejor ajuste cocficiente de comrelacién de correlaciém espuria 3 Pearson : = SIMBOLOS IMPORTANTES = Sp desviaci6n estindar de x Sy, desviaci6n estandar de y- ™_ HECHOS Y FORMULAS IMPORTANTES. = lefina cada $, valor predicho de y ¢), ertor de prediccién SSE, sumia de cuadrados de los errores elejey : Suma de productos cruzados: $8y = By - FPO) ay Férmula para calcular el coeficiente de correlacién muestral:, SSq YSS.SS, Ecuacién de regresi6n: } = b + mx 46 Error de prediccién: winds [rrr ee Gercicios de repaso = 171 Gril para calcula a summa de Tos) ‘Cuadrados de los errore SSE = 55, ~ mSSq ‘Relaci6n entre ry m: ([BIERCICIOS DE REPASO. 4. Enun intento de determinar la relaci6n entre el monto gastado en una campatiay el nimero de votos recibi- dos durante una elecci6n, se rezabaron los datos si- sguientes: Montogastadoen | 3 4 2 5 1 miles de délares: x Votos recibidos | 14 12 5 (enmiles): y a) Dibuje un diagrama de dispersién. b) Calcule el valor de sy ©) Determine el valor de r. 4) Encuentre la ecuaci6n de regresién de SSE. ©) Prediga el ntimero de votos recibidos sise gastaran 3,500 délares en la campafa 1) {Custos votos més pueden esperarse por cada 1,000 délares adicionales gastados? 8) Dibuje una gratfica de la recta de regresién en el diagrama de dispersi6n. 2, Para estudiar la relaci6n entre el nimero de veces que los estudiantes faltan a clases y sus calificaciones al final del curso, un instructor del grupo 209 de mate- éticas obtavo los datos mostrados aqut: Néimero de faltas Calificacién 1233445620 98 98 88 81 83 76 71 71 85 98 ) Dibuje un diagrama de dispersion. ) Calcule el valor de 5. ‘) Determine el valor de r. 4) Encuentre la ecuacién de regresién y SSE. ©) Prediga la calificacién final si un estudiante ha faltado a tres clases. {En cusnto se supone que se afectard la calificacién final por cada falta adicional? 8) Dibuje una grfica de la recta de regresi6n en el iagrama de dispersién. 43, Estudiantes que presentan examen de admisién (x), imero de inscritos por primera vez (y), en los pasa- dos siete afios en una universidad. Resuelva los inci- 808 con estos datos: 3300 4100 5600 5200 5900 5500 5100 y | 3000 3500 4200 4800 5000 5100 4700 a) Dibuje un diagrama de dispersién. b) Calcule el valor de sy, ©) Determine el valor de r. 4) Encuentre la ecuacién de regresién y SSE. ©) Localice § si x= 5000. (Cudntas inscripciones més pueden esperarse por cada 1000 solicitudes adicionales? 8) Dibuje una gréfica de la recta de regresi6n en el diagrama de dispersi6n. 4, Un biomédico estuclé el efecto de dosis diferentes (x) de un nuevo férmaco en el ritmo cardiaco (y) de los seres humanos. Los resultados para cinco individuos se indican en la tabla siguiente: Dosis (2) 253 354 45 Descensoenel | 8 11 9 16 19 ritmo cardiaco (y) a) Calcule el Valor de re interprete el resultado. ) Encuentre la ecuacién de regresi6n, ©) Encuentre SSE. 4) Determine § six = 3.75. €) Por cada unidad de incremento en la dosis, ,cusl es el descenso predicho en el ritmo cardiaco? Dibuje una grafica de la recta de regresién en el diagrama de dispersién. 172. Andlisis descriptivos de datos bivariados 5, En un andlisis de regresin se determiné la informa- cién siguiente: $= 25.187x— 878.8583 $= 278.5247 52293956 F=515 F= 418.3 n=10. a) Encuentre el valor de r. ) Encuentre SSE. ©) Six=45, determine j. 4) {En cudnto cambiaré } por cada unidad de in- cremento en x? 6. Los datos adjuntos representan las ventas anuales de armas, enbillones de délares, de Estados Unidos alas naciones del Tercer Mundo. Aso [1976 1977 1978 1979 1980 1981 1982_1983 Ventas) 82 98 101 92 64 68 79 97 a) Encuentre la ecuacin de regresi6n para predecir Jas ventas ) Use Ia ecuacién encontrada de la parte a, para. estimar las ventas de Estados Unidos alas naciones del Tercer Mundo para el aiio de 1984. (Sugeren- cia: codifique el aiio usando: x = afio - 1975.) 7. Nueve peces dorados fueron aclimatados a una tem- peratura del agua de 3° C; Iuego fueron sometidos a un incremento gradual de la temperatura del agua para averiguar si el metabolismo esté relacionado con la temperatura; el metabolismo se midi6 contando los parpadeos por minuto. Los datos resultantes se enlis- tan en la tabla adjunta, Niimero promedio de ‘Temperatura °C parpadeos por minuto 50 33.0 15 44.8 100 54.0 12.5 525 15.0 70.2 115 99.8 20.0 1105 22.5 117.0 25.0 129.1 a) Dibuje un diagrama de dispersién. b) Calculer. 6) Encuentre la ecuacién de regresion. 4) Determine SSE. ©) Sila temperatura fuera 0° C, {cuéntos parpadeos por minuto deberfan esperarse? Los datos siguientes son para los ejercicios de revisién 8y9. Distancia al Altura DAP. a bol més cercano (enpies) (en pulgadas) (en pies) t 39 ae 195 n 92 40 69 93 5.0 7 95 105 B 95 90 B 97 8.0 79 98 150 81 104 125 65 107 18.0 60. 17 8. Un guardabosques quiere saber la correlaci6n entre la altura total y el didmetro a la altura de su pecho DAP, de una muestra de élamos temblones. Con los datos, de la tabla determine: a) el valor de r, b) la ecuacién de regresién, ©) SSE. Un guardabosques quiere conocer la correlacién entre el tamafio, medido como el diémetro a la altura de su pecho, y la distancia al érboF més cercano en una muestra de élamos temblones. Refiérase a los datos de lauabla a) Dibuje un diagrama de dispersién. b) Calcule el valor de r. ©) Encuentre la ecuacién de regresiGn para predecir DAP a partir de la distancia al érbol més cercano. 4) Encuentre SSE. 40.Para determinar si estén relacionados el flujo del trénsito, medido en el ntimero de vehfculos por hora, y el contenido de plomo en la vegetacién que crece cerca de las carreteras, se realiz6 un estudio en seis localidades, y se obtuvieron los siguientes datos: Nimero de vehiculos | 103 216 294 402 416 573 Contenido de plomo | 46 74 26.1 372248 387 Encuentre la ecuaciOn de regresién y dsela para predecir cl contenido de plomo de la vegetacién que experiments tun flujo de trdnsito de 300 vehfculos por hora. og F ‘encuentre | sion para el-4rea ) dibuje un diagrama de dispersion; ‘ estime el precio de venta de una casa cuyo impuesto fue de 2,500 délares el ano pasado; 174 © Analisis descriptivos de datos bivariados La tabla adjunta lista los resultados del estudio" Lugar. Estado “Esperanza Enfer- Estilo .Disponi-. Tiempo. Morta- i devida_medad _devida._bilidad perdido lidad 1 Utah 3 ree Te 38 10 1 2, Dakota del Norte 5 4 6 10 18 a4 3. Idaho 10 2 2 2B 10 1 4. Minnesota 2 5 18 3 Me 6 5. Hawail 1 16 35 2 eA 1 6. Vermont 7 6 42 3 37 16 7. Nebraska 6 7 3 7 37 2 8 ~ Colorado 9 9 29 20 Z 5 9. Wyoming 26 3 26 37 9 10 10. Montana 25 7 18 16 B 18 11. Washington " n 22 16 10 B 12. Oregon 14 14 15, 5 18 24 13." Nuevo México. ©‘ 22 412 1 AR oe es OB 14. Wisconsin PECANS Ral ee creeia gine ay 14 15, Dakota del Sur 14 10' > z Bas 16. °..lowa 3 19 Sash 30) % 45 a4 17. Maine 19 7 25 2 AE 28 18. California. 49. 26 31 28 4 7. 19... Massachusefis. 13 3 38 Hod a7 a 20. Alaska 246 a 47 40 3 3 2 Indiana 26 18 18 33 31 31 22... Avizona 21 25 37 28 5 16 | 23. Oklahoma 31 20 12 a 18 32 24. New Hampshire* 14 15 49 n 37 9 25. Kansast 7 35 5 21 31 19 } 26. Texast 31 26 29 45 5 u ; 27. Pennsylvaniat 34 24 24 2 50 39 j 28. Connecticut u 36 38 1 7 20 } "29. Kentucky 41 22 14 25 37 36 I 30. New Jersey 22 28 38 19 18 28 | 31. Missouri 26 31 3 33 45 32 32. Ohio 35 30 26 25 37 30 | 33. Virginia 36 29 38 31 18 7 I 34. Arkansas 29 32 7 35. 37 44 | 35. West Virginia 43 34 9 28 45 a7 | 36. Ilinois 37 37 31 24 3 36 37, Nueva York 29 42 36 7 B 38 38. Louisiana* 50 33 28 47 1B 40 39. Tennessee* 39 4 10 35 37 40 40, Rhode Island. 18 43 45 9 45 26 41. Carolina del Norte 42 40 2. 43 7 40 42. Alabama 45 39 10 46 31 48 43, Maryland 37 49 44 14 18 34 44, Florida 22 46 48. 15 31 45 *Estos estados se unieron Lugar Estado, Esperanza. Enfer- de vida medad Estilo. Disponi- de vida. bilidad 45. Georgia 46 MS 46. Carolina del Sur 49 45 47, Nevada 44 38 48, Michigan 31 50 49. Mississippi 48 44 50, Delaware 40 48 3 18 50 S42 Calcule el coeficiente de correlacién de Pear- son para los rangos de: a) Salud y estilo de vida'en un estado. by Salud y esperanza de vida en un estado. ©) Estilo de vida y tiempo perdido. 4) Disponibilidad y tiempo perdido. ©) Enfermedad y estilo de vda. 4. Recabe informacién de 25 conductores con licen- cia de manejo en el estado donde s¢ localiza su universidad: fecha de naciriento, codificada de 11a 366, y los cltimos tres digitos del ndmero de su licencia de manejo. cir los tres limos digtos de fecha de ee =_EXAMEN DE CONOCIMIENTOS DEL CAPITULO’ wo 1, El ntimero de sentadillas $ que un nitio normal y saludable debe ser capaz de reilizar, con base en su edad x, esté dado por $= 1.4r-0.9, donde 4s x 17. a) {Cudntas sentadillas debe esperarse que haga un hifio de diez afios de edad? b) Cuando la edad aumenta, jcrece 0 decrece el nic ‘mero de sentacillas? ©) (Cudntas sentadillas més debe esperarse que haga un niffo por cada afio de edad? 4) En este caso, gdebe tener lainterceccién con el eje y una interpretaci6n con sentido? Explique. 2. Unestudiode larelacién entre laestatura, en pulgadas, ¥ el peso, en libras, de los universitatios hombres produjo los datos dados aqut. Estatura(x)| 64 72 7368 _66_67 Peso(y) [165 158 173 125 125. 139 Determine lo siguiente: a) Ss, b) ss, OSSy 4) la pendiente, m, ©) lainterceccién con el ejey. b, {la ecuacién de regresién, 2) el coeficiente de correlacién de Pearson, h) SSE, i) } cuando x = 65, Jel error e para el hombre en la muestra cuya esta- tura es x=71 pulgadas. Existe una fuerte correlacién positiva entre los sala- rios de los maestros y el consumo anual de cerveza en Estados Unidos. a) {Significa esto que el aumento en el consumo de cerveza ha sido causa del incremento alos salarios de los maestros? {0 que mientras més bebe un maestro mas pago conseguira? Explique }) {Qué factor(es) adicional(es) pueden causar que los salarios de los maestros y el consumo de cer- veza se incrementen simulténeamente? 176 = Andlisis descriptvos de datos bivariados 4. Como $= b+mx y b=Y—me, tenemos $= (im) Localice la covarianza muestral para los datos parea- +mx. Por tanto, $ ~J= m(x—X). Con la ecuacién de dos: regresién escrita en esta forma, demuestre que el ee centroide (f, ¥) esté en la recta de regresi6n, Sa Euan Sunn aa yli as 21 25 28 5. Encuentre SSE para los datos bivariados siguientes Gy):

You might also like