You are on page 1of 52

UNEDENSISCIII

Unidades Docentes de la Escuela Nacional de Sanidad

4.1 Conceptos bsicos de Estadstica I

Importancia de la Estadstica en la Investigacin en Salud. Anlisis


descriptivo de los individuos de la muestra. Mtodos para obtener
conclusiones sobre la Media de una variable cuantitativa en la
poblacin, a partir de la informacin proporcionada por los datos
de la muestra.
Autora: Inma Jarrn Vera
Coordinadora de Estadstica del Mster en Salud Pblica
Se recomienda imprimir 2 pginas por hoja
Citacin recomendada:
Jarrn Vera I. Conceptos bsicos de Estadistica I [Internet]. Madrid: Escuela Nacional de Sanidad;
TEXTOS DE ADMINISTRACION SANITARIA Y GESTIN CLINICA
by UNED Y ESCUELA NACIONAL DE SANIDAD
is licensed under a Creative Commons
Reconocimiento- No comercial-Sin obra Derivada
3.0 Umported License.

2012 [consultado da mes ao]. Tema 4.1 Disponible en: direccion url del pdf.

Resumen:

Este tema comienza enfatizando la importancia que los Mtodos


Estadsticos tienen en la Investigacin en Salud, tanto en las
etapas de diseo como en la seleccin de muestras y anlisis de
datos.
Se distingue entre poblacin, muestra y muestra aleatoria. Se
describen los diferentes tipos de variables, en funcin de su escala
de medida y de su papel en el estudio. Se presentan los mtodos,

Unidades Didcticas de la ENS __________________________________ pgina 1

Autora: Inma Jarrn Vera

numricos y grficos, para realizar el anlisis descriptivo de los


individuos de la muestra. Se presentan los mtodos analticos
utilizados en el anlisis de variables de inters cuantitativas. En
este sentido, se presentan los
mtodos que nos permitirn
obtener conclusiones sobre
Introduccin
la media de una variable
cuantitativa en la poblacin
1. Poblaciones, muestras y
a estudio, a partir de la
muestras aleatorias
informacin proporcionada
por los datos de la muestra.
2. Tipos de variables
Como parte de este proceso
2.1. Clasificacin de las
de Inferencia Estadstica,
variables en funcin de su
se presenta la Distribucin
escala de medida
Normal. Se describen los
2.2. Clasificacin de las
mtodos
para
comparar
variables en funcin de su
la media de una variable
papel en el estudio
cuantitativa en 2 ms
grupos de individuos. Se
3. Estadstica Descriptiva
introducen los conceptos
3.1. Anlisis descriptivo de
de correlacin y regresin
variables categricas
lineal para el estudio de la
3.2. Anlisis descriptivo de
relacin entre dos variables
variables cuantitativas
cuantitativas. Y, finalmente,
se presentan los mtodos
4. Inferencia Estadstica
no
paramtricos,
como
4.1. Distribucin Normal
alternativa a los mtodos
4.2. Inferencia sobre una
paramtricos,
para
el
Media
anlisis de variables de
4.3. Comparacin de dos
inters cuantitativas que
Medias
no siguen una distribucin
4.4. Comparacin de ms de
aproximadamente Normal.
dos Medias
4.5. Correlacin y Regresin
Lineal
5. Mtodos no paramtricos

Introduccin

Conclusiones

Los Mtodos Estadsticos


son una herramienta fundaReferencias bibliogrficas
mental en la Investigacin
en Salud, tanto en las etapas de diseo como en los
procesos de seleccin de muestras y anlisis de datos.

Unidades Didcticas de la ENS __________________________________ pgina 2

Tema 4.1 Conceptos bsicos de Estadstica

Los mtodos
estadsticos
proporcionan
herramientas
bsicas para la
descripcin y
cuantificacin
de los procesos de salud y
enfermedad,
convirtindose
en una disciplina imprescindible para
los estudios en
salud.

Proporcionan herramientas bsicas para la descripcin


y cuantificacin de los procesos de salud y enfermedad,
convirtindose en una disciplina imprescindible para los estudios
en salud.
1.- Poblaciones, muestras y muestras aleatorias
Se ha diseado un estudio para describir el peso y determinar
las variables asociadas al mismo en los nios entre 5 y 36 meses
residentes en Bolivia.

Unidades Didcticas de la ENS __________________________________ pgina 3

Autora: Inma Jarrn Vera

Al total de nios entre 5 y 36 meses residentes en el pas se le


denomina poblacin. Por razones prcticas y financieras, no
podemos acceder a todos los nios de la poblacin a estudio. En
su defecto, podemos estudiar un subconjunto del total de nios
del pas. A este subconjunto de la poblacin se le denomina
muestra. En adelante, asumimos que los mtodos para calcular
el tamao de la muestra han mostrado que debemos seleccionar
un total de 160 nios de la poblacin. El nmero total de individuos
de la muestra se conoce como tamao muestral (n).
Cmo seleccionamos a los individuos de la muestra? Podramos
pensar en seleccionar 160 nios de la capital, La Paz. Sin embargo,
las caractersticas de los nios que viven en La Paz pueden ser
diferentes a las de los nios que viven en el resto del pas, y por
tanto, no ser representativos de la poblacin a estudio.
Para evitar sesgos en la seleccin de la muestra, seleccionamos
una muestra aleatoria: una muestra en la que cada miembro de
la poblacin tiene las mismas posibilidades de ser seleccionado,
con independencia de los miembros seleccionados previamente,
y la eleccin de los diferentes miembros de la muestra est
basada en el azar. Los pasos a seguir para seleccionar una
muestra aleatoria son:
1. Disponer de un listado de todos los miembros de la poblacin
mediante censos poblacionales o registros electorales.
2. A cada miembro de la poblacin se le asigna un nmero de
identificacin.
3. Se seleccionan tantos nmeros aleatorios como sujetos
queramos incluir en la muestra.

Unidades Didcticas de la ENS __________________________________ pgina 4

Tema 4.1 Conceptos bsicos de Estadstica

Una muestra
aleatoria es
una muestra
en la que cada
miembro de la
poblacin tiene las mismas
posibilidades
de ser seleccionado, con
independencia
de los miembros
seleccionados
previamente, y
la eleccin de
los diferentes
miembros de la
muestra est
basada en el
azar.

2. Tipos de variables
Una vez seleccionados los sujetos de la muestra, se recoge
informacin sobre las caractersticas a estudio. Generalmente,
los sujetos bajo observacin son individuos, aunque no siempre
(ejemplo: hogares familiares o hospitales). Las caractersticas
medidas en los sujetos se denominan variables. Los valores
que toman cada una de las variables en los diferentes sujetos se
denominan datos.
En la siguiente tabla se presenta la informacin de los primeros
10 nios de la muestra:

Sujetos

Al conjunto
total de sujetos
que estamos
interesados en
estudiar se le
denomina poblacin. Al
subconjunto de
sujetos de la
poblacin que
observamos se
le denomina
muestra. El nmero de sujetos
de la muestra
se conoce como
tamao muestral.

La seleccin de muestras aleatorias no siempre es posible. En


ese caso, la interpretacin de los resultados debe realizarse
con cautela. Por ejemplo, si se ha seleccionado una muestra de
pacientes VIH positivos atendidos en un Centro de Informacin
y Prevencin del SIDA (CIPS), los resultados obtenidos son
extrapolables a la poblacin de pacientes VIH positivos que
acuden a los CIPS, y no al total de pacientes VIH positivos.

Id
1
2
3
4
5
6
7
8
9
10

Sexo
Masculino
Masculino
Masculino
Masculino
Femenino
Masculino
Femenino
Femenino
Masculino
Femenino

Variables

Edad (meses)
Altura (cm)
8
68.3
9
68.8
6
68.6
25
85.4
16
78.5
Datos
29
95.5
17
70.7
19
76.3
10
70.6
6
66.5

Clase social
Baja
Baja
Media
Alta
Media
Alta
Media
Media
Media
Media

Peso (kg.)
7.0
6.9
8.7
12.3
9.3
15.7
9.6
9.5
9.0
8.4

El primer paso, antes de elegir el mtodo ms apropiado para


analizar los datos, consiste en clasificar las variables en funcin
de su escala de medida y de su papel en el estudio.
2.1. Clasificacin de las variables en funcin de su
escala de medida
Variables categricas (o cualitativas): variables que no son
susceptibles de ser medidas numricamente. Se dividen en:

Unidades Didcticas de la ENS __________________________________ pgina 5

Autora: Inma Jarrn Vera

- Ordinales: Las categoras son susceptibles de ser ordenadas


de un modo lgico, siguiendo un orden ascendente o
descendente. Ejemplo: clase social (baja, media, alta).
- Nominales: Las categoras no siguen ningn orden natural.
Ejemplo: estado civil (soltero, casado, viudo, divorciado) o
grupo sanguneo (A, B, AB, O).
Las variables categricas que slo toman dos valores se
denominan dicotmicas (o binarias). Ejemplo: sexo (hombre,
mujer) o estado vital (vivo, muerto).
Variables cuantitativas (o numricas): Variables susceptibles
de ser medidas numricamente. Resultan de realizar mediciones
o conteos. Se clasifican en:
- Discretas: Variables que pueden tomar un nmero limitado
de valores, normalmente nmeros enteros. Ejemplo:
nmero de partos o nmero de hijos.
- Continuas: Variables medidas en escala continua, que
pueden tomar cualquier valor dentro del eje real. Ejemplo:
peso o altura.

2.2. Clasificacin de las variables en funcin de su papel


en el estudio
La informacin sobre una variable se recoge por una de las
siguientes razones:
Variable de inters (variable respuesta o dependiente): variable
que es el centro de nuestra atencin, cuya ocurrencia estamos
interesados en comprender. En nuestro ejemplo, la variable de
inters sera el peso.
Variable de exposicin (variable explicativa o independiente):
variable que puede influir en la ocurrencia de la variable de
inters. En nuestro ejemplo, las variables de exposicin seran
el sexo, la edad, la altura y la clase social.

Unidades Didcticas de la ENS __________________________________ pgina 6

Una vez seleccionados


los sujetos
de la muestra, se recoge
informacin
sobre las caractersticas
a estudio. Las
caractersticas
medidas en
los sujetos se
denominan
variables,
y los valores
que toman las
variables en
los diferentes
sujetos constituyen los
datos

Las variables,
en funcin
de su escala
de medida,
se clasifican
en Variables
categricas
(ordinales o
nominales)
y Variables
cuantitativas (discretas o continuas)

Tema 4.1 Conceptos bsicos de Estadstica

3.- Estadstica descriptiva


Las variables,
en funcin de
su papel en
el estudio,
se clasifican
en Variable
de inters
(variable
respuesta o
dependiente)
y Variable/s
de exposicin
(variable/s
explicativa/s o
independientes/s

Conjunto de procedimientos que permiten resumir, numrica y


grficamente, un conjunto de datos. Tiene un doble objetivo:
controlar la calidad de los datos y describir las caractersticas
de los individuos de la muestra. El anlisis descriptivo a realizar
depende de la escala de medida de las variables.
3.1. Anlisis descriptivo de variables categricas
Se realiza, numricamente, mediante tablas de frecuencias, y
grficamente, mediante diagramas de barras o diagramas de
sectores.
Tabla de frecuencias
Tabla en la que se muestra el nmero (frecuencia absoluta)
y el porcentaje (frecuencia relativa) de individuos que hay
en cada una de las categoras de la variable. La Tabla de
frecuencias de la Clase social de los 160 nios de la muestra
sera:

Diagrama de sectores
Es un crculo en el que a cada categora de la variable se le
asigna un sector de rea proporcional a su frecuencia absoluta
o relativa. El diagrama de sectores de la Clase social de los
160 nios de la muestra sera:

Unidades Didcticas de la ENS __________________________________ pgina 7

Autora: Inma Jarrn Vera

Diagrama de barras
Es un grfico en el que las categoras de la variable se
representan sobre el eje horizontal y sus frecuencias absolutas
o relativas sobre el eje vertical. El diagrama de barras de la
Clase social de los 160 nios de la muestra sera:

3.2. Anlisis descriptivo de variables cuantitativas


La descripcin numrica de una variable cuantitativa se realiza
mediante una medida de tendencia central y una medida de
dispersin. La eleccin de ambas medidas depende de la

Unidades Didcticas de la ENS __________________________________ pgina 8

El anlisis
descriptivo
de variables
categricas
se realiza,
numricamente, mediante tablas
de frecuencias y, grficamente,
mediante
diagramas
de barras y
diagramas
de sectores.

El anlisis
descriptivo
de variables
cuantitativas se realiza,
numricamente, mediante
una medida
de tendencia
central y una
medida de
dispersin y,
grficamente, mediante
histogramas
y diagramas
de cajas.

Tema 4.1 Conceptos bsicos de Estadstica

distribucin de la variable. La descripcin grfica de variables


cuantitativas se realiza mediante Histogramas y Diagramas de
cajas.
Medida de tendencia central
Es un valor alrededor del cual se concentran los datos. Las
medidas de tendencia central son:
Media
Es el promedio de las observaciones, es decir, la suma de las
observaciones dividida por el nmero de observaciones:
Media ( x ) =

Si los pesos de los primeros 10 nios de la muestra fueran


7.0, 6.9, 8.7, 12.3, 9.3, 15.7, 9.6, 9.5, 9.0, 8.4 kg, la media
del peso sera:

Es la medida de tendencia central ms utilizada. Su principal


desventaja es que est fuertemente afectada por los valores
extremos. Si los das de estancia en un hospital de 8 pacientes
fueran 1, 3, 4, 2, 3, 4, 2 y 1 das, la meda sera 2.5 das. Sin
embargo, el hecho de cambiar un 1 por un 25 en el ltimo
paciente, cambiara drsticamente la media pasando a ser
5.5 das, un valor que no es representativo de los das de
estancia de la mayora de los pacientes. Por eso, en presencia
de valores extremos, es preferible utilizar la Mediana como
medida de tendencia central.
Mediana
Es el valor que divide la distribucin de los datos en dos partes
iguales, de forma que hay el mismo nmero de observaciones
por debajo que por encima de la mediana.
El clculo de la Mediana vara en funcin de si el nmero de
observaciones es par o impar:

Unidades Didcticas de la ENS __________________________________ pgina 9

Autora: Inma Jarrn Vera

Nmero de observaciones impar


Si los pesos de los primeros 9 nios de la muestra fueran 7.0,
6.9, 8.7, 12.3, 9.3, 15.7, 9.6, 9.5, 9.0 kg, ordenamos los
pesos de menor a mayor:
6.9, 7.0, 8.7, 9.0, 9.3, 9.5, 9.6, 12.3, 15.7
y seleccionamos el valor central como la Mediana.
Mediana = 9.3 kg.
Nmero de observaciones par
Si los pesos de los primeros 10 nios de la muestra fueran
7.0, 6.9, 8.7, 12.3, 9.3, 15.7, 9.6, 9.5, 9.0, 8.4, ordenamos
los pesos de menor a mayor:
6.9, 7.0, 8.4, 8.7, 9.0, 9.3, 9.5, 9.6, 12.3, 15.7
y calculamos la mediana como la media de los dos valores
centrales:

Moda
Es el valor que ocurre con ms frecuencia. Si las edades de
los primeros 10 nios de la muestra fueran 8, 9, 6, 25, 16, 29,
17, 19, 10 y 6 aos, la Moda sera 6.
Medida de dispersin
Es un valor que nos indica lo dispersos que se encuentran los
datos alrededor de la medida de tendencia central. Las principales
medidas de dispersin son:
Rango
Es la medida de dispersin ms simple e intuitiva. Se calcula
como la diferencia entre el mayor y el menor valor. Si los
pesos de los primeros 10 nios de la muestra fueran 7.0, 6.9,
8.7, 12.3, 9.3, 15.7, 9.6, 9.5, 9.0 y 8.4 kg., el rango sera:
Rango = 15.7 6.9 = 8.8 kg
Se expresa en las mismas unidades que los datos originales.
Sin embargo, est basado nicamente en los dos valores
extremos y, por tanto, su valor aumenta conforme aumenta
el tamao muestral ya que aumentan las posibilidades de
que aparezcan valores extremos.

Unidades Didcticas de la ENS __________________________________ pgina 10

Tema 4.1 Conceptos bsicos de Estadstica

Varianza
Para ilustrar el proceso intuitivo que da lugar a la definicin
de Varianza, utilizamos los pesos de los primeros 5 nios de
la muestra: 7.0, 6.9, 8.7, 12.3 y 9.3 kg.
El rango es 12.3 6.9 = 5.4 kg. La principal limitacin
del Rango es que se basa nicamente en dos valores. Nos
planteamos encontrar una medida de dispersin en la que
participen todos los datos de la muestra. Parece conveniente
calcular la diferencia entre cada peso y el peso medio (8.83
kg.):
Individuo
1
2
3
4
5

Peso
(kg)
7.0
6.9
8.7
12.3
9.3

Peso Peso medio


(kg)
7.0 8.84 = - 1.84
6.9 8.84 = - 1.94
8.7 8.84 = - 0.14
12.3 8.84 = +3.46
9.3 8.84 = +0.46

A continuacin, calculamos la media de las diferencias entre


cada peso y el peso medio:

La media de las diferencias es 0; sin embargo, los diferentes


pesos si que presentan dispersin respecto al peso medio
(8.84 kg).
El error del razonamiento es permitir que las diferencias
puedan ser negativas. Para evitar valores negativos de las
diferencias, elevamos al cuadrado las diferencias entre cada
peso y el peso medio:
Individuo
1
2
3
4
5

Peso
(kg)
7.0
6.9
8.7
12.3
9.3

Peso Peso medio


(kg)
7.0 8.84 = - 1.84
6.9 8.84 = - 1.94
8.7 8.84 = - 0.14
12.3 8.84 = +3.46
9.3 8.84 = +0.46

(Peso Peso medio)2


(kg2)
(-1.84)2 = 3.39
(-1.94)2 = 3.76
(-0.14)2 = 0.02
(+3.46)2 = 11.97
(+0.46)2 = 0.21

Unidades Didcticas de la ENS __________________________________ pgina 11

Autora: Inma Jarrn Vera

Finalmente, calculamos la media de los cuadrados de las


diferencias, dando lugar a lo que se conoce como Varianza:

El principal inconveniente de la Varianza es que se expresa


en unidades que son el cuadrado de las unidades de las
observaciones originales. Para evitar esto, se hace la raz
cuadrada obteniendo lo que se conoce como Desviacin
estndar.
Desviacin estndar (o Desviacin tpica)
Es la medida de dispersin ms utilizada. Es la raz cuadrada
de la varianza. Expresa la dispersin de los datos respecto a
la media y se expresa en las mismas unidades de medida que
la variable original.
En nuestro ejemplo, la desviacin estndar sera:

En el proceso de Inferencia Estadstica, es habitual utilizar


el tamao muestral menos uno (n 1), en lugar del tamao
muestral (n), como denominador para el clculo de la Varianza
y Desviacin Estndar. El motivo principal es que la nueva
expresin tiene mejores propiedades para hacer Inferencia
Estadstica, uno de los principales objetivos de la estadstica.
Percentiles
Si ordenamos los datos de menor a mayor, se define el
percentil i como el valor que deja a su izquierda el i% del total
de observaciones. Los percentiles 25, 50 y 75 se denominan
primer, segundo (o Mediana) y tercer cuartil. A continuacin,
se presenta el procedimiento para llevar a cabo el clculo de
los percentiles 25 y 75 de los pesos de los primeros 12 nios
de la muestra: 7.0, 6.9, 8.7, 12.3, 9.3, 15.7, 9.6, 9.5, 9.0,
8.4, 8.9, 11.3

Unidades Didcticas de la ENS __________________________________ pgina 12

Tema 4.1 Conceptos bsicos de Estadstica

Percentil 25. Si ordenamos los datos de menor a mayor, el


percentil 25 ser aqul valor que deja a su izquierda el 25%
del total de observaciones y a su derecha el 75% de las
mismas.
Ordenamos los datos de menor a mayor:
6.9, 7.0, 8.4, 8.7, 8.9, 9.0, 9.3, 9.5, 9.6, 11.3, 12.3, 15.7
Identificamos el valor que deja a su izquierda el 25% de las
observaciones, esto es, 3 observaciones: 8.7. Y el valor que
deja a su derecha el 75% de las observaciones, esto es, 9
observaciones: 8.4. El Percentil 25 es el promedio de ambas
observaciones:

Percentil 75 (o Tercer cuartil). Si ordenamos los datos de


menor a mayor, el percentil 75 ser aqul valor que deja a
su izquierda el 75% de las observaciones y a su derecha el
25% de las mismas.
Ordenamos los datos de menor a mayor:
6.9, 7.0, 8.4, 8.7, 8.9, 9.0, 9.3, 9.5, 9.6, 11.3, 12.3, 15.7
Identificamos el valor que deja a su izquierda el 75% de
las observaciones, esto es, 9 observaciones: 11.3. Y el valor
que deja a su derecha el 25% de las observaciones, esto
es, 3 observaciones: 9.6. El Percentil 75 se calcula como el
promedio de ambas observaciones:

Rango Intercuartlico
Se define como la diferencia entre los percentiles 25 y 75. En
nuestro ejemplo, el Rango Intercuartlico sera RI = (8.55;
10.45)
Histograma
Es la representacin grfica ms utilizada en investigacin.

Unidades Didcticas de la ENS __________________________________ pgina 13

Autora: Inma Jarrn Vera

Los valores de la variable cuantitativa se dividen en intervalos,


que se representan sobre el eje horizontal. En el eje vertical,
se representan las frecuencias absolutas o relativas de cada
intervalo en forma de rectngulo. Su forma es similar a la del
diagrama de barras con la diferencia de que no hay espacio
entre las barras. El Histograma del Peso de los 160 nios de
la muestra sera:

El Histograma proporciona informacin sobre la distribucin


de la variable. Las tres formas ms comunes que puede
presentar la distribucin de una variable cuantitativa son:
Simtrica
Tiene forma de campana; la cola derecha de la
distribucin es igual que la cola izquierda.
Ejemplo. Altura o Peso.

Asimtrica a la derecha
La cola derecha de la distribucin es ms larga que la
cola izquierda.
Ejemplo. Puntuacin GHQ

Asimtrica a la izquierda
La cola izquierda de la distribucin es ms larga que la
cola derecha.
Ejemplo. Perodo de gestacin

Unidades Didcticas de la ENS __________________________________ pgina 14

Tema 4.1 Conceptos bsicos de Estadstica

Si la distribucin de los datos es simtrica, la media, mediana


y moda son iguales. Si la distribucin es asimtrica a la
derecha, la media es mayor que la mediana. Si la distribucin
es asimtrica a la izquierda, la media es menor que la mediana.
Diagrama de cajas
Es un grfico en el que se representa la mediana, los percentiles
25 y 75, los valores atpicos y los valores extremos:
Valores extremos

Percentil 75

Mediana

95% de
los
datos

Percentil 25

Si la distribucin de la variable es simtrica, la distancia


entre el percentil 25 y la mediana ser similar a la distancia
entre el percentil 75 y la mediana, y la distancia entre el
bigote superior y la mediana ser similar a la distancia entre
el bigote inferior y la mediana.

Peso (kg)
10

15

El diagrama de cajas del peso de los 160 nios de la muestra es:

Si la distribucin de
una variable
cuantitativa
es aproximadamente
simtrica,
se utiliza la
media como
medida de
tendencia
central y la
desviacin
estndar
como medida
de dispersin
para describirla. Si, por
el contrario,
la distribucin
de la variable es marcadamente
asimtrica,
se utiliza la
mediana y el
rango intercuartlico
como medidas
de tendencia
central y de
dispersin,
respectivamente

El Histograma y el Diagrama de cajas del Peso de los 160

Unidades Didcticas de la ENS __________________________________ pgina 15

Autora: Inma Jarrn Vera

nios de la muestra reflejan que la distribucin del Peso es


aproximadamente simtrica.
La descripcin numrica de una variable cuantitativa se
realiza indicando una medida de tendencia central y una
medida de dispersin. Si la distribucin de la variable es
aproximadamente simtrica, se utiliza la media, como
medida de tendencia central, y la desviacin estndar, como
medida de dispersin. Si la distribucin de la variable es
marcadamente asimtrica, se utiliza la mediana y el rango
intercuartlico para describirla.
4.- Inferencia Estadstica
El principal objetivo del Anlisis Estadstico es utilizar la
informacin de la muestra para sacar conclusiones acerca de
la poblacin a estudio. Hay dos herramientas que nos permiten
obtener conclusiones sobre la poblacin a estudio a partir de
la informacin proporcionada por los datos de la muestra: los
Intervalos de Confianza y los Contrastes de Hiptesis.
POBLACIN

Intervalos de
Confianza
y

MUESTRA
Aplicando las Propiedades de la
Distribucin en el Muestreo

Contraste de
Hiptesis

Un Intervalo de Confianza es un rango de valores dentro de


los cuales podemos estar seguros que se encuentra un valor
poblacional, denominado parmetro, que queremos estudiar. Un
Contraste de Hiptesis es un procedimiento que nos permite
decidir sobre la veracidad de una hiptesis planteada sobre un
valor poblacional.
El clculo de Intervalos de Confianza y Contrastes de Hiptesis

Unidades Didcticas de la ENS __________________________________ pgina 16

El principal objetivo del Anlisis Estadstico


es utilizar la
informacin de
la muestra para
sacar conclusiones acerca
de la poblacin
a estudio. Las
dos herramientas que permiten obtener
conclusiones
sobre la poblacin a partir de
la informacin
proporcionada
por los datos de
la muestra son:
los Intervalos
de Confianza y
los Contrastes
de Hiptesis.

Tema 4.1 Conceptos bsicos de Estadstica

Un Intervalo
de Confianza
es un rango de
valores dentro
de los cuales
podemos estar
seguros que
se encuentra un valor
poblacional,
denominado
parmetro,
que queremos
estudiar. Un
Contraste
de Hiptesis
es un procedimiento que
nos permite
decidir sobre
la veracidad
de una hiptesis planteada
sobre un valor
poblacional.
La distribucin Normal
es la distribucin ms
importante en
Estadstica.
Est determinada por dos
parmetros:
la Media () y
la Desviacin
Estndar ().
Tiene forma
de campana
y es simtrica
respecto a su
media.

requiere del uso de la Probabilidad, una herramienta que permite


medir el grado de incertidumbre con el que ocurren los fenmenos
aleatorios. La mayora de los fenmenos de la Naturaleza
siguen exacta o aproximadamente una serie de distribuciones
de probabilidad tericas bien definidas; la identificacin de
la distribucin que mejor se ajusta al comportamiento de un
fenmeno nos permitir calcular cualquier probabilidad asociada
a la ocurrencia del mismo.
4.1. Distribucin Normal
Es la distribucin ms importante en Estadstica ya que
numerosas variables asociadas a fenmenos naturales siguen,
aproximadamente, una distribucin Normal (ejemplo: estatura
o peso). Est determinada por dos parmetros: la Media () y la
Desviacin Estndar (), tal y como se muestra a continuacin:

Tiene forma de campana y es simtrica respecto a su media.


Si la media aumenta, la distribucin se desplaza a la derecha; si
la media disminuye, la distribucin se desplaza hacia la izquierda.

Unidades Didcticas de la ENS __________________________________ pgina 17

Autora: Inma Jarrn Vera

Si la desviacin estndar aumenta, la altura disminuye y la


curva se ensancha; si la desviacin estndar disminuye, la altura
aumenta y la curva se estrecha.

Una vez caracterizada la


distribucin
de una variable, podemos
calcular probabilidades
asociadas a la
ocurrencia de
la variable.

La siguiente figura muestra la distribucin del nivel de glucosa


en sangre en una poblacin de pacientes diabticos tipo II. La
distribucin del nivel de glucosa en sangre es Normal con media
() 134 mg/dl, y desviacin estndar () 36 mg/dl.

Una vez caracterizada la distribucin de una variable, podemos


calcular probabilidades asociadas a la ocurrencia de la variable.
Supongamos que estamos interesados en determinar el
porcentaje de individuos de esta poblacin que tienen un nivel de
glucosa en sangre superior a 160 mg/dl (o, equivalentemente,
la probabilidad de que un individuo de esta poblacin tenga un
nivel de glucosa en sangre superior a 160 mg/dl). Para calcular

Unidades Didcticas de la ENS __________________________________ pgina 18

Tema 4.1 Conceptos bsicos de Estadstica

este porcentaje basta con determinar el rea bajo la curva de


una Normal ( = 134, = 36) que est por encima del valor
160, tal y como se muestra a continuacin:

La distribucin
Normal estndar es una
distribucin
con media 0
y desviacin
estndar 1.

El clculo de esta rea se hara integrando entre 160 e infinito


la funcin que define la curva de una Normal ( = 134, = 36):

Afortunadamente, podemos utilizar un procedimiento alternativo,


basado en la distribucin Normal estndar para llevar a cabo
este clculo.
La Distribucin Normal Estndar
Es una distribucin Normal con media 0 y desviacin estndar 1.

Unidades Didcticas de la ENS __________________________________ pgina 19

Autora: Inma Jarrn Vera

Los valores de la distribucin Normal estndar se denominan


puntuaciones z. Es posible transformar cualquier variable con
distribucin Normal de media y desviacin estndar en una
distribucin Normal estndar, mediante la siguiente frmula:
z=

Continuamos con el ejemplo anterior en el que estbamos


interesados en determinar el porcentaje de individuos de la
poblacin con nivel de glucosa en sangre superior a 160 mg/
dl. Para calcular este porcentaje basta con determinar el rea
bajo la curva de una Normal ( = 134, = 36) que est por
encima del valor 160. Para determinar esta rea, calculamos la
puntuacin z correspondiente al valor 160 de una distribucin
Normal ( = 134, = 36). Para ello, al valor 160 le restamos la
media y dividimos por la desviacin estndar:

El rea bajo la curva de una Normal ( = 134, = 36) que est


por encima del valor 160, (a), es exactamente igual que el rea
bajo la curva de una Normal estndar que est por encima del
valor 0.72, (b).
(a)

(a)

(b)

(b)

El rea bajo la curva de una Normal estndar que est por


encima del valor 0.72 puede calcularse utilizando la Tabla de la
distribucin Normal Estndar:

Unidades Didcticas de la ENS __________________________________ pgina 20

Tema 4.1 Conceptos bsicos de Estadstica

Las probabilidades aparecen en el interior de la tabla. El rea


bajo la curva de una Normal estndar que est por encima del
valor 0.72 es la probabilidad correspondiente al valor 0.7 de las
filas y al valor 0.02 de las columnas:
z
0.5
0.6
0.7
0.8
0.9

0.00
0.3085
0.2743
0.2420
0.2119
0.1841

0.01
0.3050
0.2709
0.2389
0.2090
0.1814

0.02
0.3015
0.2676
0.2358
0.2061
0.1788

0.03
0.2981
0.2643
0.2327
0.2033
0.1762

0.04
0.2946
0.2611
0.2296
0.2005
0.1736

0.05
0.2912
0.2578
0.2266
0.1977
0.1711

0.06
0.2877
0.2546
0.2236
0.1949
0.1685

0.07
0.2843
0.2514
0.2206
0.1922
0.1660

0.08
0.2810
0.2483
0.2177
0.1894
0.1635

0.09
0.2776
0.2451
0.2148
0.1867
0.1611

La probabilidad buscada es 0.2358. En esta poblacin, el 23.58%


de los individuos tienen un nivel de glucosa en sangre superior
a 160 mg/dl, o equivalentemente, la probabilidad de que un
individuo elegido al azar de esta poblacin tenga un nivel de
glucosa en sangre superior a 160 mg/dl es 0.2358.
Supongamos que estamos interesados en determinar qu
porcentaje de individuos de esta poblacin tienen un nivel de
glucosa en sangre inferior a 70 mg/dl. Para ello, determinamos
el rea bajo la curva de una Normal ( = 134, = 36) que est
por debajo del valor 70. Para determinar esta rea calculamos
la puntuacin z correspondiente al valor 70 de una distribucin
Normal ( = 134, = 36):

Unidades Didcticas de la ENS __________________________________ pgina 21

Autora: Inma Jarrn Vera

El rea bajo la curva de una Normal ( = 134, = 36) que est


por debajo del valor 70, (a), es exactamente igual que el rea
bajo la curva de una Normal estndar que est por debajo del
valor -1.78, (b).
(a)

(a)

(b)

(c)

(b)

(c)

Como la distribucin Normal Estndar es simtrica respecto al


0, el rea bajo la curva que est por debajo del valor -1.78 es
igual que el rea bajo la curva que est por encima del valor
+1.78, (c). Buscando en la Tabla de la distribucin Normal
Estndar, obtenemos que el rea bajo la curva Normal estndar
por encima del valor +1.78 es 0.0375; es decir, el 3.75% de
los individuos de esta poblacin tienen un nivel de glucosa en
sangre por debajo de 70 mg/dl.
A partir de la Tabla de la distribucin Normal Estndar podemos
determinar entre qu dos puntuaciones z hay una determinada
probabilidad. Por ejemplo, para determinar entre qu dos valores
de la Distribucin Normal estndar hay una probabilidad del
95%, basta con determinar el valor a que deja a su derecha
una probabilidad del 2.5%:

La puntuacin z que deja a su derecha una probabilidad de

Unidades Didcticas de la ENS __________________________________ pgina 22

Tema 4.1 Conceptos bsicos de Estadstica

0.025 es +1.96. Dado que la distribucin Normal Estndar es


simtrica respecto al 0, la puntuacin -1.96 deja a su izquierda
una probabilidad de 0.025. Por lo tanto, entre -1.96 y +1.96 hay
una probabilidad del 95%.
Siguiendo el mismo procedimiento, podemos determinar que
entre -1.64 y +1.64 hay una probabilidad del 90%, y entre -2.58
y +2.58 hay una probabilidad del 99%.
4.2. Inferencia sobre una media
Supongamos que estamos interesados en determinar el peso
medio de los nios entre 5 y 36 meses residentes en Bolivia. La
poblacin a estudio es el total de nios entre 5 y 36 meses del
pas. El parmetro poblacional que estamos interesados en
conocer es el Peso medio de los nios. En lo que sigue, a la
media de una variable cuantitativa en la poblacin la denotaremos
como . Dado que por razones prcticas y financieras, no
podemos acceder a todos los nios de la poblacin, hemos
seleccionado una muestra de 160 nios, a los que les hemos
medimos el peso. En los 160 nios de la muestra, el peso medio
( x ) es 9.7 kg y la desviacin estndar () es 1.9 kg.

Unidades Didcticas de la ENS __________________________________ pgina 23

Autora: Inma Jarrn Vera

Si hubiramos seleccionado una muestra diferente, habramos


obtenido una media y una desviacin estndar diferente, debido
a lo que se conoce como Variacin en el muestreo, es decir,
debido a la variabilidad que se observa al estudiar muestras en
lugar de poblaciones.
Si en lugar de una nica muestra, seleccionramos 1000 muestras
de tamao 160 de la poblacin, calculramos la media de peso
en cada una de las 1000 muestras y representramos las 1000
medias de peso en un histograma, tendramos lo que se conoce
como la Distribucin en el muestreo de la Media Muestral.

Si seleccionramos 10.000 muestras de tamao 160 de la


poblacin, la distribucin en el muestreo de las 10.000 medias
tendra la siguiente forma:

Si el tamao muestral (n) es lo suficientemente grande:


- La distribucin en el muestreo
aproximadamente Normal

de

las

medias

es

Unidades Didcticas de la ENS __________________________________ pgina 24

La variacin
en el muestreo es la
variabilidad
que se observa al estudiar
muestras en
lugar de poblaciones.

Tema 4.1 Conceptos bsicos de Estadstica

- La Media de la distribucin en el muestreo de las medias es


la Media poblacional ()
- La desviacin estndar de la distribucin en el muestreo de
las medias, conocida como Error estndar, es la Desviacin
estndar poblacional () dividida por la raz cuadrada del
tamao muestral:

Intervalo de Confianza al 95% para la Media


Un Intervalo de Confianza para la Media de una variable
cuantitativa en la poblacin de la que se extrajo la muestra es un
rango de valores, obtenidos a partir de los datos de la muestra,
dentro de los cuales podemos estar seguros que se encuentra la
Media de la variable cuantitativa en la poblacin.
La distribucin en el muestreo
aproximadamente Normal ( , / n ) .

de

las

medias,

X,

es

Por lo tanto,
Sabemos que el 95% de las puntuaciones z estn entre -1.96 y
+1.96.

Por lo tanto, el 95% de las medias muestrales est en el rango

Y esto es equivalente a decir, que:


est en el rango:
confianza del 95%.
El intervalo

con

una

se conoce como Intervalo

Unidades Didcticas de la ENS __________________________________ pgina 25

Autora: Inma Jarrn Vera

de Confianza al 95% de la Media poblacional.


En la mayora de las situaciones no conocemos la desviacin
estndar poblacional (). En su lugar, utilizaremos la desviacin
estndar muestral (s), y calcularemos un Intervalo de Confianza
al 95% para una Media con la siguiente frmula:

En nuestro ejemplo, un Intervalo de Confianza al 95% para el


Peso medio de los nios entre 5 y 36 meses residentes en Bolivia
se calculara como:

Estamos seguros al 95% de que el peso medio en la poblacin


de nios entre 5 y 36 meses residentes en Bolivia est entre
9.41 y 9.99 kg.
La frmula general para calcular un Intervalo de Confianza al
95% de un parmetro poblacional es:

Podemos calcular un Intervalo de Confianza de una Media a


un nivel de confianza distinto del 95%, por ejemplo al 90 o
99%. Para ello, basta con cambiar el valor 1.96 por el punto
de la distribucin Normal estndar que deja en las colas una
probabilidad del 10% o 1%, respectivamente:

Un Intervalo de Confianza ser tanto ms preciso cuanto ms


estrecho sea, es decir, cuanto menor sea la distancia entre el
lmite superior y el lmite inferior.
Existen dos alternativas para disminuir la amplitud de un Intervalo
de Confianza: aumentar el tamao de la muestra o disminuir el
nivel de confianza. La primera, opcin aconsejable, responde a
una regla general de la Estadstica: Cuanto ms grande es una
muestra, ms informacin proporciona y ms precisas son las
conclusiones obtenidas a partir de ella.

Unidades Didcticas de la ENS __________________________________ pgina 26

Tema 4.1 Conceptos bsicos de Estadstica

Muestras pequeas

Un Intervalo
de Confianza ser ms
preciso cuanto
ms estrecho
sea. Existen
dos alternativas para
disminuir la
amplitud de
un Intervalo
de Confianza: aumentar
el tamao de
la muestra,
opcin aconsejable, o disminuir el nivel de
confianza.

Si el tamao muestral es pequeo (n<60), la desviacin


estndar muestral, s, puede no ser un buen estimador de la
desviacin estndar poblacional, . Por este motivo, utilizaremos
la distribucin t de Student, en lugar de la distribucin Normal,
para calcular un Intervalo de Confianza para la Media.
Distribucin t de Student
Es una distribucin continua determinada por un parmetro conocido como grados de libertad:
tn es una distribucin t de Student con n grados de libertad.
Su rango es todo el eje real: (-, +).
Tiene propiedades similares a la distribucin Normal Estndar:
- Tiene Media 0 y es simtrica respecto a la Media
- Es ms dispersa que la distribucin Normal estndar, pero la desviacin estndar decrece
hasta 1 conforme aumentan los grados de libertad
- Conforme aumentan los grados de libertad, la distribucin t de Student se aproxima a la
distribucin Normal Estndar
Figura. Funcin de densidad de una distribucin t de Student con diferentes grados de libertad

Un Intervalo de Confianza al 95% para una Media viene dado


por:

donde tn-1 es el punto de la distribucin t de Student con n-1


grados de libertad que deja en las colas una probabilidad del
5%.
Para el clculo de este punto puede utilizarse la Tabla de la
distribucin t de Student o las calculadoras de la mayora de los
programas estadsticos.
Supongamos que estamos interesados en determinar el Nmero
medio de horas de sueo sin dolor en pacientes artrticos tras
recibir un nuevo tratamiento. Se han seleccionado 6 pacientes
y se ha observado el nmero de horas sin dolor tras recibir el
tratamiento: 2.2, 2.4, 4.9, 2.5, 3.7 y 4.3 horas.
En los 6 pacientes de la muestra, la media y la desviacin
estndar del nmero de horas sin dolor son
respectivamente.

Unidades Didcticas de la ENS __________________________________ pgina 27

Autora: Inma Jarrn Vera

Un Intervalo de Confianza al 95% para la Media del Nmero de


horas sin dolor tras recibir el nuevo tratamiento en la poblacin
de pacientes artrticos de la que se extrajo la muestra, se
calculara como:

Estamos seguros al 95% de que en la poblacin de pacientes


artrticos de la que se extrajo la muestra, el nmero medio de
horas sin dolor tras recibir el nuevo tratamiento est entre 2.1
y 4.5 horas.
La mayora de los programas estadsticos utilizan, de forma
general, la distribucin t de Student para el clculo de Intervalos
de Confianza para una Media. La razn es que la distribucin t
de Student es la apropiada si el tamao muestral es pequeo,
y se aproxima a la Normal Estndar si el tamao muestral es
grande.
4.3. Comparacin de dos medias
Son numerosas las ocasiones en las que el inters se centra en
determinar si la media de una variable cuantitativa es igual en
dos grupos diferentes de individuos.
Supongamos que estamos interesados en estudiar si hay
diferencias por sexo en el peso medio de los nios entre 5 y 36
meses residentes en Bolivia.
Primero, calculamos la media y desviacin estndar del peso en
los nios y nias de la muestra:

El peso medio de los 68 nios de la muestra es 10.1 kg y el peso


medio de las 92 nias es 9.3 kg. A la vista del anlisis descriptivo,
parece que los nios pesan ms que las nias. Pero, la diferencia
observada puede ser explicada por azar? Para poder responder
a esta pregunta, necesitamos realizar un Contraste de Hiptesis

Unidades Didcticas de la ENS __________________________________ pgina 28

Tema 4.1 Conceptos bsicos de Estadstica

Un Contraste
de Hiptesis
es un procedimiento cuyo
objetivo es
comprobar si
una determinada hiptesis enunciada
acerca de la
poblacin es
compatible
o no con los
datos de la
muestra.

El primer
paso de un
Contraste
de Hiptesis
consiste en
definir la Hiptesis Nula
(generalmente, ausencia
de asociacin entre dos
variables) y
la Hiptesis
Alternativa
(existencia de
asociacin).

que nos permita determinar si, en la poblacin de la que se


extrajeron las muestras, el peso medio de los nios es igual al
peso medio de las nias. Antes de esto, necesitamos conocer la
distribucin en el muestreo de la diferencia de medias.
Distribucin en el muestreo de la Diferencia de Medias
Conforme n1 y n2 aumentan:
1. La distribucin en el muestreo de la diferencia de medias
se aproxima a la Normal
2. La media de la distribucin en el muestreo es la diferencia
de medias poblacionales, ( 1 2 )
3. La desviacin estndar de la distribucin en el muestreo,
esto es, el error estndar de ( x1 x2 ) es una combinacin de
los errores estndar de las medias individuales:

Como en la mayora de las situaciones no conocemos las


desviaciones estndar poblacionales ( 1 , 2) , utilizaremos
las desviaciones estndar muestrales ( s1 , s2 ) para estimar
el error estndar de la diferencia de medias muestrales.
Por lo tanto,

Contraste de Hiptesis para la Diferencia de Medias


Un Contraste de Hiptesis es un procedimiento cuyo objetivo es
comprobar si una determinada hiptesis enunciada acerca de la
poblacin es compatible o no con los datos de la muestra. Permite
decidir entre dos hiptesis, la Hiptesis Nula (generalmente,
ausencia de asociacin entre dos variables) y la Hiptesis
Alternativa (existencia de asociacin).
El primer paso de un Contraste de Hiptesis consiste en definir
las Hiptesis Nula y Alternativa. En nuestro ejemplo, la definicin
de ambas hiptesis sera:

Unidades Didcticas de la ENS __________________________________ pgina 29

Autora: Inma Jarrn Vera

Hiptesis Nula: En la poblacin de nios entre 5 y 36 meses


residentes en Bolivia, no hay una asociacin estadsticamente
significativa entre el Sexo y el Peso; es decir, el peso medio de
los nios es igual que el peso medio de las nias
H0: 1 = 2
Hiptesis Alternativa: En la poblacin de nios entre 5 y 36 meses
residentes en Bolivia, existe una asociacin estadsticamente
significativa entre el Sexo y el Peso; es decir, el peso medio de
los nios es diferente al peso medio de las nias.
H1: 1 2
donde 1 y 2 son el peso medio de los nios y las nias en la
poblacin, respectivamente
De forma descriptiva, la evaluacin de la asociacin entre el
sexo y el peso se obtiene de la comparacin del peso medio
de los nios, 10.1 kg, y el peso medio de las nias, 9.3 kg. Si
no existiera asociacin, ambas medias seran iguales aunque no
necesariamente iguales, debido a la variacin en el muestreo, al
hecho de estudiar muestras en lugar de poblaciones.
El objetivo del Contraste de Hiptesis es determinar si la
diferencia en los pesos medios que hemos observado puede
explicarse por azar o es una diferencia que existe en la poblacin.
El procedimiento se basa en poner a prueba la Hiptesis Nula de
no asociacin, calculando cmo de probable sera encontrar una
diferencia entre los pesos medios como la que hemos observado
(10.1-8.3 = 0.8 kg) o ms extrema, es decir ms a favor de la
Hiptesis Alternativa, si la Hiptesis Nula fuera cierta.
Para calcular esta probabilidad, utilizamos las propiedades de la
distribucin en el muestreo de la diferencia de medias. La
distribucin en el muestreo de la diferencia de medias, X 1 X 2 , es
aproximadamente Normal ( ,
1
2

s12 s22 .
+ )
n1 n2

2
2
Bajo la Hiptesis Nula, X 1 X 2 , se distribuye Normal (0, s1 + s2 ) .

n1

n2

El primer paso para calcular la Probabilidad de que la diferencia


de medias, X 1 X ,2 sea mayor o igual que 0.8, consiste en calcular
la puntuacin z correspondiente. Para ello, a la diferencia de

Unidades Didcticas de la ENS __________________________________ pgina 30

Tema 4.1 Conceptos bsicos de Estadstica

medias, X 1 X 2 , le restamos la diferencia de medias poblacionales,


que bajo la Hiptesis Nula es 0, y lo dividimos por su error
estndar:

El valor z que acabamos de calcular se conoce con el nombre de


test estadstico.
La forma general de un test estadstico es:

El siguiente paso consiste en calcular la Probabilidad de que la


puntuacin z de una distribucin Normal estndar sea mayor o
igual que 2.58, (b), lo que es equivalente a calcular la Probabilidad
de que la diferencia de medias sea mayor o igual que 0.8, (a):
(a)

(b)

El segundo
paso de un
Contraste de
Hiptesis se
basa en el clculo del test
estadstico,
cuya forma
general es:

A partir de la Tabla de la distribucin Normal Estndar, obtenemos


que el rea bajo la curva de la Normal estndar que est por
encima del valor 2.58 es 0.00494. Este valor, conocido como
p-valor unilateral, nos indica cmo de probable sera encontrar
una diferencia entre los pesos medios mayor o igual que 0.8 kg.
Dado que una diferencia en el otro extremo de la curva, diferencia
entre los pesos medios menor o igual que -0.8, tambin ira
a favor de la Hiptesis Alternativa, el procedimiento general
consiste en multiplicar por 2 el p-valor unilateral, obteniendo lo
que se conoce como p-valor bilateral, o simplemente, p-valor.
En nuestro ejemplo, el p-valor sera 2x0.00494 = 0.01. Si la
Hiptesis Nula fuera cierta, es decir, si no hubiera diferencias en

Unidades Didcticas de la ENS __________________________________ pgina 31

Autora: Inma Jarrn Vera

el Peso medio de los nios y las nias, habra una probabilidad


de 0.01 de obtener una diferencia de medias como la que hemos
observado o ms extrema. Es poco probable que los datos
provengan de una poblacin en la que no hay diferencias entre
el Peso medio de los nios y el Peso medio de las nias; por
lo tanto, los datos proporcionan evidencia estadstica suficiente
para rechazar la Hiptesis Nula, es decir, para afirmar que en la
poblacin de la que se extrajeron las muestras, el peso medio de
los nios NO es el mismo que el peso medio de las nias.
Conforme el p-valor es ms pequeo, mayor es la evidencia en
contra de la Hiptesis Nula:
1

No hay evidencia en contra


de la Hiptesis Nula
0.1

Evidencia en contra de la
Hiptesis Nula en el lmite de la
significacin estadstica

0.05

Evidencia en contra de la
Hiptesis Nula
0.01

Fuerte evidencia en contra


de la Hiptesis Nula
0

Habitualmente, aunque es algo arbitrario y no puede drsele


una consideracin estricta, se adopta el valor p = 0.05 como
punto de corte por debajo del cual se considera que se dispone
de suficientes evidencias para rechazar la Hiptesis Nula,
concluyendo que la asociacin es estadsticamente significativa.
Si el valor de p es superior a 0.05, se considera que es muy
probable que las diferencias observadas se deban nicamente
al azar, concluyendo que la asociacin no es estadsticamente
significativa.
En la siguiente tabla se muestra los dos tipos de error que se
pueden cometer al realizar un Contraste de Hiptesis:

Unidades Didcticas de la ENS __________________________________ pgina 32

El tercer
paso de un
Contraste
de Hiptesis consiste
en calcular
el p-valor,
es decir, la
probabilidad
de observar
una diferencia como la
observada en
la muestra o
ms extrema
(ms a favor
de la Hiptesis
Alternativa),
si la Hiptesis Nula fuera
cierta

Tema 4.1 Conceptos bsicos de Estadstica

Conforme el
p-valor es
ms pequeo, mayor es
la evidencia
en contra de
la Hiptesis
Nula. Habitualmente, se
considera que
si el p-valor es
menor de 0.05
se dispone
de suficientes
evidencias
para rechazar
la Hiptesis
Nula, concluyendo que la
asociacin es
estadsticamente significativa. Si el
p-valor es mayor de 0.05,
se considera
que es muy
probable que
las diferencias
observadas se
deban nicamente al azar,
concluyendo
que la asociacin no es estadsticamente
significativa.

El p-valor indica si la asociacin encontrada es estadsticamente


significativa pero no mide su magnitud o relevancia, ya que su
valor depende tanto de la magnitud de la asociacin como del
tamao muestral. Tamaos suficientemente grandes permiten
El p-valor indica si la asociacin encontrada es estadsticamente
significativa pero no mide su magnitud o relevancia, ya que su
valor depende tanto de la magnitud de la asociacin como del
tamao muestral. Tamaos suficientemente grandes permiten
encontrar resultados con altsima significacin estadstica pero
de escasa magnitud, algo que puede carecer de relevancia
desde el punto de vista clnico. En el otro extremo, tamaos
suficientemente pequeos podran llevarnos a concluir que una
asociacin no es estadsticamente significativa por problemas
de potencia estadstica del test para detectar asociaciones
realmente existentes.
Por lo tanto, es fundamental acompaar el p-valor de una medida
que cuantifique la magnitud de la asociacin en la muestra y un
Intervalo de Confianza al 95% para la medida de asociacin
utilizada. En la situacin en la que la variable de exposicin es
dicotmica (ejemplo: sexo) y la variable de inters es cuantitativa
(ej. peso), la medida que nos permite cuantificar la magnitud de
la asociacin entre ambas variables es la Diferencia de Medias.
En nuestro ejemplo, la diferencia entre el peso medio de los
nios y el peso medio de las nias en los 160 individuos de la
muestra es:

Unidades Didcticas de la ENS __________________________________ pgina 33

Autora: Inma Jarrn Vera

En los 160 individuos de la muestra, la diferencia entre el peso


medio de los nios y el peso medio de las nias es 0.8 kg; los
nios pesan, en media, 0.8 kg ms que las nias.
Una vez cuantificada la magnitud de la asociacin en los individuos
de la muestra, el siguiente paso es cuantificar la magnitud de la
asociacin en la poblacin. Para ello, calculamos un Intervalo de
Confianza al 95% para la Diferencia de Medias.
Intervalo de Confianza al 95% para la Diferencia de Medias
La frmula general para calcular un Intervalo de Confianza al
95% para un parmetro poblacional es:

Un Intervalo de Confianza al 95% para la diferencia de medias


viene dado por:

El p-valor
indica si la
asociacin
encontrada es
estadsticamente significativa pero
no mide su
magnitud o
relevancia, ya
que su valor
depende tanto
de la magnitud
de la asociacin como del
tamao muestral.

En nuestro ejemplo, un Intervalo de Confianza al 95% para la


Diferencia entre la Media de Peso de los nios y la Media de Peso
de las nias vendra dado por:

En la poblacin de la que se extrajeron las muestras, estamos


seguros al 95% de que la diferencia entre el peso medio de los
nios y el peso medio de las nias est entre 0.19 y 1.41 kg.
Como el Intervalo de Confianza al 95% no incluye el 0, estamos
seguros al 95% de que el peso medio de los nios es diferente al
peso medio de las nias; de hecho, los nios pesan, en media,
entre 0.19 y 1.41 kg. ms que las nias.
Muestras pequeas
Al comparar la media de una variable cuantitativa en dos grupos
diferentes de individuos procedentes de muestras de tamao
pequeo, usaremos la distribucin t de Student, en lugar de
la distribucin Normal, para calcular Intervalos de Confianza y
realizar Contrastes de Hiptesis.
El nmero de grados de libertad de la distribucin t de Student
es: n1 + n2 2 donde n1 y n2 son el nmero de individuos en las
muestras 1 y 2, respectivamente.
El procedimiento es similar al utilizado con una muestra, con la
Unidades Didcticas de la ENS __________________________________ pgina 34

Es fundamental acompaar
el p-valor de
una medida
que cuantifique la magnitud de la
asociacin en
la muestra y
un Intervalo
de Confianza
al 95% para
la medida de
asociacin
utilizada.

Tema 4.1 Conceptos bsicos de Estadstica

excepcin del clculo del error estndar. En el caso de muestras


pequeas, estimamos una nica varianza basada en los datos
de las dos muestras.
La varianza comn es una media de las varianzas muestrales:
(n1 1) s12 + (n2 1) s23
s =
(n1 1) + (n2 1)
2

El error estndar de la diferencia de medias es:

Se ha diseado un estudio para determinar la influencia de la


hipertensin de los padres en la presin arterial sistlica de los
hijos. Se seleccion un grupo de 12 nios con uno de sus padres
hipertenso (grupo 1), y un grupo de 10 nios con ambos padres
normotensos (grupo 2), obtenindose los siguientes datos:
Nios con uno de sus
padres hipertenso
(grupo 1)
100
102
96
106
110
110
120
112
112
90
111
108

n2 = 12
x2 = 106.4
s2 = 8.1

Nios con ambos


padres normotensos
(grupo 2)
104
88
100
98
102
92
96
100
96
96

n1 = 10
x1 = 97.2
s1 = 4.7

En primer lugar, planteamos un Contraste de Hiptesis para


determinar si existen diferencias en la Presin arterial sistlica
media de los nios en funcin de que sus dos padres sean
normotensos o alguno de ellos sea hipertenso.
Definimos las Hiptesis Nula y Alternativa:
Hiptesis Nula: En la poblacin de la que se extrajeron las
muestras, no existe una asociacin estadsticamente significativa

Unidades Didcticas de la ENS __________________________________ pgina 35

Autora: Inma Jarrn Vera

entre la hipertensin de los padres y la presin arterial sistlica


de los nios; la presin arterial sistlica media de los nios es
la misma en aqullos que tienen padres normotensos que en
aqullos en los que uno de los padres es hipertenso
H 0 : 1 = 2

Hiptesis Alternativa: En la poblacin de la que se extrajeron las


muestras, existe una asociacin estadsticamente significativa
entre la hipertensin de los padres y la presin arterial sistlica
de los nios; la presin arterial sistlica media de los nios NO es
la misma en aqullos nios que tienen padres normotensos que
en aqullos en los que uno de los padres es hipertenso
H1 : 1 2

A continuacin, calculamos el test estadstico y el p-valor. Para


ello, seguimos los siguientes pasos:
Diferencia de medias en la muestra:
Varianza comn:

Error estndar de la diferencia entre las medias muestrales:

El valor del estadstico t se calculara como:

El p-valor del Contraste de Hiptesis es 0.0048. Los datos presentan


evidencia estadstica suficiente para rechazar la Hiptesis Nula.
Existe una asociacin estadsticamente significativa entre la
hipertensin de los padres y la presin arterial sistlica de los
nios; los nios que tienen algn padre hipertenso tienen una
Unidades Didcticas de la ENS __________________________________ pgina 36

Tema 4.1 Conceptos bsicos de Estadstica

presin arterial sistlica media diferente a la de los nios con


padres normotensos.
A continuacin, cuantificamos la magnitud de la asociacin entre
la hipertensin de los padres y la presin arterial sistlica de los
nios mediante el clculo de un Intervalo de Confianza al 95%
para la Diferencia entre la Media de presin arterial sistlica de
nios con algn padre hipertenso y la Media de presin arterial
sistlica de los nios con padres normotensos:

La diferencia en las medias de la Presin arterial sistlica


entre los nios con un padre hipertenso y aqullos con padres
normotensos es 9.2 mmHg. En la poblacin, estamos seguros
al 95% de que la diferencia entre las medias est entre 3.14 y
15.26 mmHg.
Como el Intervalo de Confianza al 95% excluye al 0 y ambos
lmites son positivos, estamos seguros al 95% de que los nios
con algn padre hipertenso tienen una presin arterial sistlica
entre 3.14 y 15.26 mmHg ms alta que los nios con ambos
padres normotensos.
El Contraste
de Hiptesis
t de Student
permite comparar la media
de una variable cuantitativa en dos grupos diferentes
de individuos.

La mayora de los programas estadsticos utilizan el procedimiento


para muestras pequeas para calcular Intervalos de Confianza
y realizar Contrastes de Hiptesis sobre la Diferencia de Medias.
Es por sto por lo que el Contraste sobre la Diferencia de Medias
se suele conocer como el Test t de Student para la comparacin
de medias.
Muestras dependientes
En algunas situaciones, nuestros datos son pares de mediciones
realizadas sobre el mismo individuo, en diferentes circunstancias.
Por ejemplo, para determinar el efecto del ejercicio fsico en las
pulsaciones por minuto, se selecciona a un grupo de estudiantes
a los que se les pide que corran durante 2 minutos. A cada uno
de los estudiantes, se les mide el pulso antes y despus de
llevar a cabo el ejercicio fsico, de forma que cada estudiante
tiene dos medidas del pulso, una antes de realizar la carrera y
otra despus.

75 pulsaciones / minuto

140 pulsaciones / minuto

Unidades Didcticas de la ENS __________________________________ pgina 37

Autora: Inma Jarrn Vera

Al realizar el anlisis, debemos tener en cuenta que nuestros


datos estn apareados. Esto se hace calculando las diferencias
entre cada par de observaciones apareadas, y aplicando
posteriormente los mtodos para realizar Inferencias sobre una
Media, presentados previamente.
Se ha diseado un estudio para determinar si existe una diferencia
en el ngulo de torsin conseguido en el brazo derecho e izquierdo
en individuos con parlisis en las extremidades superiores. Se
han seleccionado 80 individuos a los que se les ha medido el
ngulo de torsin conseguido con el brazo derecho e izquierdo,
respectivamente.
En la siguiente tabla se muestra la informacin de los primeros 5
individuos de la muestra:
Individuo
1
2
3
4
5

ngulo de torsin (grados)


Brazo derecho Brazo izquierdo
35
30
34
28
30
29
26
26
27
28

El primer paso consiste en calcular la diferencia entre cada par


de observaciones apareadas; calculamos la diferencia en el
ngulo de torsin entre el brazo derecho y el izquierdo de cada
individuo. Estas diferencias las denotamos como di:
Individuo
1
2
3
4
5

ngulo de torsin (grados)


Brazo derecho Brazo izquierdo
35
30
34
28
30
29
26
26
27
28

di
5
6
1
0
-1

La mayora de las diferencias observadas son positivas, lo que


sugiere que los individuos tienen un mayor ngulo de torsin con
el brazo derecho que con el izquierdo.
En los 80 individuos de la muestra, la media y la desviacin
estndar de las diferencias en los ngulos de torsin conseguidos
con el brazo derecho e izquierdo son: d = 3.9 sd = 3.3 grados
A continuacin, planteamos un Contraste de Hiptesis para
determinar si en la poblacin de la que se extrajeron las muestras,
Unidades Didcticas de la ENS __________________________________ pgina 38

El anlisis de
datos apareados se
hace calculando las diferencias entre
cada par de
observaciones
apareadas,
y aplicando
posteriormente los mtodos
para realizar
Inferencias sobre una Media.

Tema 4.1 Conceptos bsicos de Estadstica

existe una asociacin estadsticamente significativa entre el


brazo derecho e izquierdo y el ngulo de torsin conseguido,
es decir, si la media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo es 0.
Definimos las Hiptesis Nula y Alternativa:
En la poblacin de la que se extrajo la muestra, la
Media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo es 0
En la poblacin de la que se extrajo la muestra, la
media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo es
distinta de 0

A continuacin, calculamos el valor del test estadstico y del


p-valor:

El valor z = 10.58 no aparece en la Tabla de la Distribucin Normal


Estndar, lo que nos indica que la probabilidad de observar una
puntuacin z mayor o igual que 10.58 es muy pequea. En estos
casos, se suele indicar que el p-valor es < 0.001.

Los datos muestran evidencia estadstica suficiente para rechazar


la Hiptesis Nula; es decir, en la poblacin de la que se extrajo
la muestra, la media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo, respectivamente,
es distinto de 0.
A continuacin, calculamos un Intervalo de Confianza al 95%
para la Media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo en la poblacin de
la que se extrajeron las muestras:

En los 80 individuos de la muestra, la media de las diferencias

Unidades Didcticas de la ENS __________________________________ pgina 39

Autora: Inma Jarrn Vera

en los ngulos de torsin conseguidos con el brazo derecho e


izquierdo, respectivamente, es 3.9 grados.
En la poblacin de la que se extrajo la muestra, estamos seguros
al 95% de que la media de las diferencias en los ngulos de torsin
conseguidos con el brazo derecho e izquierdo, respectivamente,
est entre 3.2 y 4.6 grados.
Como el Intervalo de Confianza al 95% no incluye al 0 y ambos
lmites son positivos, estamos seguros al 95% de que los individuos
con parlisis en las extremidades superiores consiguen entre 3.2
y 4.6 grados ms en la torsin con el brazo derecho que con el
izquierdo.
Muestras pequeas
Si el tamao muestral es pequeo (n<60), utilizaremos la
distribucin t de Student, en lugar de la distribucin Normal,
para calcular Intervalos de Confianza y realizar Contrastes de
Hiptesis; el nmero de grados de libertad de la distribucin t de
Student viene dado por n-1, donde n es el nmero de individuos.
4.4. Comparacin de ms de dos medias
Son numerosas las ocasiones en las que el inters se centra en
determinar si la media de una variable cuantitativa es igual en
ms de dos grupos diferentes de individuos.
Supongamos que estamos interesados en determinar si existen
diferencias en el Peso de los nios entre 5 y 36 meses residentes
en Bolivia en funcin de su clase social.
Primero, calculamos la media y la desviacin estndar del Peso
de los nios en funcin de la clase social (baja, media, alta) en
la muestra:

En la muestra, el peso medio es: 7.4 kg en los 41 nios de clase


social baja, 9.5 kg en los 77 de clase social media, y 12.2 en los
Unidades Didcticas de la ENS __________________________________ pgina 40

Tema 4.1 Conceptos bsicos de Estadstica

42 de clase social alta. Parece que el peso de los nios es mayor


conforme la clase social es mayor.
Pero, las diferencias observadas pueden explicarse por azar?
Para responder a esta pregunta, utilizaremos un Contraste de
Hiptesis, denominado ANOVA.
El Contraste
de Hiptesis
ANOVA permite comparar
la media de
una variable
cuantitativa
en los grupos
definidos por
una variable
de exposicin
con 2 ms
categoras.

El ANOVA permite comparar la media de una variable cuantitativa


en los grupos definidos por una variable de exposicin con 2
ms categoras. Se basa en la descomposicin de la varianza
total de la variable cuantitativa en:
- Variabilidad atribuida a las diferencias entre las medias de
los grupos definidos por la variable de exposicin
- Variabilidad debida a las diferencias entre las observaciones
dentro de cada grupo
Primero, calculamos la varianza del Peso de los 160 nios,
ignorando la subdivisin de los nios en funcin de la clase
social:

Segundo, llevamos a cabo la particin de la varianza.


El numerador de la varianza, denominado suma de cuadrados
, se divide en:
- La suma de cuadrados debida a diferencias entre las medias
de los grupos
- La suma de cuadrados debida a diferencias entre las
observaciones dentro de cada grupo
Esta suma de cuadrados se conoce como suma de
cuadrados residual.
El denominador de la varianza, denominado grados de libertad
(gl = n-1), se divide en:
- k 1 grados de libertad asociados a la suma de cuadrados
entre grupos, siendo k el nmero de grupos
- n k grados de libertad asociados a la suma de cuadrados
residual

Unidades Didcticas de la ENS __________________________________ pgina 41

Autora: Inma Jarrn Vera

En nuestro ejemplo,

Construimos la Tabla del Anlisis de Varianza:


Fuente de variacin
Entre Grupos
Dentro Grupos
Total

Suma Cuadrados
(SC)
482.47
103.84
586.31

Grados libertad (gl)


2
157
157

Media Cuadrtica
(MC = SC/gl)
241.23
0.66
3.69

A continuacin, definimos las Hiptesis Nula y Alternativa,


calculamos el test estadstico y el p-valor asociado.
Hiptesis Nula (H0): En la poblacin de la que se extrajeron las
muestras, no hay una asociacin estadsticamente significativa
entre la clase social y el peso; el peso medio de los nios es el
mismo en los de clase social baja, media y alta
H 0 : 1 = 2 = 3

Hiptesis Alternativa (H1): En la poblacin de la que se extrajeron


las muestras, existe una asociacin estadsticamente significativa
entre la clase social y el peso; el peso medio de los nios vara
en funcin de la clase social
H1 : Existe i, j tal que i j

(i, j = 1,2,3)

El test estadstico utilizado para resolver el Contraste de Hiptesis


ANOVA es el cociente entre la Media cuadrtica Entre-Grupos y
la Media cuadrtica Dentro-Grupos:

El valor del test estadstico F tomar el valor 1, si no hay


diferencias reales entre los grupos, y tomar un valor mayor que
1, si hay diferencias entre los grupos.
Bajo la Hiptesis Nula, el estadstico F sigue una distribucin F
Unidades Didcticas de la ENS __________________________________ pgina 42

Tema 4.1 Conceptos bsicos de Estadstica

de Snedecor con k-1 grados de libertad en el numerador y n-k


grados de libertad en el denominador.
Distribucin F de Snedecor
Distribucin continua fundamentalmente asociada al anlisis de la varianza (ANOVA) y a la
comparacin de varianzas.
Est determinada por dos parmetros: grados de libertad del numerador (n1) y grados de libertad
del denominador (n2):
Fn1, n2 es una distribucin F de Snedecor con n1 grados de libertad en el numerador y n2
grados de libertad en el denominador.
Su rango es el eje real positivo: (0, +)
Figura. Funcin de densidad de una distribucin F de Snedecor con n1 grados de libertad en el
numerador y n2 grados de libertad en el denominador

En nuestro ejemplo,

Cuando slo
hay 2 grupos,
el Anlisis de
la Varianza da
exactamente
el mismo resultado que el
contraste t de
Student para
la comparacin de la media en 2 grupos diferentes
de individuos.

El p-valor asociado al contraste de hiptesis es <0.001. Los


datos muestran evidencia estadstica suficiente para rechazar
la Hiptesis Nula. Existe una asociacin estadsticamente
significativa entre la Clase social y el Peso; el peso medio de los
nios entre 5 y 36 meses residentes en Bolivia vara en funcin
de la clase social.
El contraste de hiptesis ANOVA se basa en dos asunciones: (1)
La distribucin de la variable de inters es aproximadamente
Normal, y (2) La desviacin estndar poblacional de la variable
de inters es la misma en los diferentes grupos definidos por la
variable de exposicin.
Desviaciones moderadas de la Normalidad pueden ignorarse,
pero el efecto de desviaciones estndar desiguales puede ser
serio.
Cuando slo hay 2 grupos, el Anlisis de la Varianza da
exactamente el mismo resultado que el contraste t de Student
para la comparacin de la media en 2 grupos diferentes de
individuos.

Unidades Didcticas de la ENS __________________________________ pgina 43

Autora: Inma Jarrn Vera

4.5. Correlacin y Regresin Lineal


En la investigacin en salud surge frecuentemente la necesidad de
estudiar la relacin entre dos variables cuantitativas. Abordamos
el caso en el que la relacin entre las variables es lineal.
Supongamos que estamos interesados en estudiar si existe una
relacin entre la Edad y el Peso de los nios entre 5 y 36 meses
de Bolivia.
Correlacin
La relacin entre dos variables cuantitativas puede explorarse
grficamente mediante un Diagrama de dispersin y
numricamente, mediante el Coeficiente de correlacin lineal de
Pearson.
Diagrama de dispersin
Es un grfico que permite representar conjuntamente dos
variables cuantitativas para examinar la posible relacin entre
ellas. El Diagrama de Dispersin de la Edad y el Peso de los 160
nios de la muestra es:

Cada par de valores de Edad y Peso se representan por un smbolo


donde la posicin horizontal se determina por el valor de la
primera variable (Edad) y la posicin vertical viene determinada
por el valor de la segunda variable (Peso). Por convencin, la
variable de inters se representa en el eje vertical y la variable
de exposicin en el eje horizontal.

Unidades Didcticas de la ENS __________________________________ pgina 44

La relacin
entre dos variables cuantitativas puede
explorarse
grficamente
mediante un
Diagrama de
dispersin y
numricamente, mediante
el Coeficiente
de correlacin lineal de
Pearson.

Tema 4.1 Conceptos bsicos de Estadstica

En el Diagrama de
Dispersin,
el sentido de
la asociacin
viene determinado por la inclinacin de la
nube de puntos: positiva,
si valores altos
de una variable se asocian
con valores altos de la otra;
y negativa, si
valores altos
de una variable se asocian
con valores
bajos de la
otra. La fuerza
de la asociacin viene determinada por
lo aplastado
de la nube de
puntos; asociacin ms
fuerte conforme los puntos
estn ms
cerca unos de
otros.

El Diagrama de Dispersin nos proporciona informacin sobre


el sentido y la fuerza de la asociacin entre las dos variables.
El sentido de la asociacin viene determinado por la inclinacin
de la nube de puntos: positiva, si valores altos de una variable
se asocian con valores altos de la otra; y negativa, si valores
altos de una variable se asocian con valores bajos de la otra. La
fuerza de la asociacin viene determinada por lo aplastado de
la nube de puntos; asociacin ms fuerte conforme los puntos
estn ms cerca unos de otros.
El Diagrama de dispersin de nuestro ejemplo muestra la
existencia de una relacin positiva fuerte entre la Edad de los
nios y su Peso; valores altos de edad se asocian con valores
altos de peso.
Coeficiente de correlacin lineal de Pearson (r)
Mide el grado de relacin lineal entre dos variables cuantitativas.
Se calcula como:

En nuestro ejemplo, el valor del coeficiente de correlacin lineal


entre edad y peso es 0.74.
El coeficiente de correlacin lineal es un nmero comprendido
entre -1 y 1. El signo indica el sentido de la asociacin: positiva
si r > 0, negativa si r < 0 y ausencia de correlacin lineal si r =
0. La magnitud absoluta indica la fuerza de la asociacin.
En nuestro ejemplo, r = 0.74, muestra una relacin lineal positiva
entre la Edad y el Peso de los nios; valores altos de Edad se
asocian con valores altos de Peso.
Regresin Lineal
La Correlacin cuantifica la fuerza de la asociacin entre dos
variables cuantitativas, tratndolas de modo simtrico. La
Regresin Lineal permite estudiar la relacin entre dos variables
cuantitativas, describiendo el comportamiento de una variable
en funcin de la otra.

Unidades Didcticas de la ENS __________________________________ pgina 45

Autora: Inma Jarrn Vera

La idea intuitiva de la Regresin Lineal consiste en intentar


resumir la informacin del Diagrama de Dispersin mediante una
Recta que se ajuste a la nube de puntos.

El objetivo es determinar la lnea recta que mejor describa la


relacin entre la variable de exposicin y la variable de inters,
es decir, entre la Edad y el Peso. Intuitivamente, la Recta de
Regresin ser aqulla que est ms cerca de todos los puntos.
Para determinar esta recta se utiliza el Mtodo de los Mnimos
Cuadrados, que elige como recta de regresin aqulla que
minimiza las distancias verticales de las observaciones a la recta,
tal y como se refleja a continuacin:

e = residuos

Valor observado
Recta regresin

La distancia vertical entre el valor observado y el valor ajustado


por la recta, se denomina residuo (ei). Los residuos pueden ser
positivos o negativos y al sumarlos podran cancelarse. Por tanto,
el Mtodo de los Mnimos Cuadrados se basa en la Minimizacin
de la Suma de los Residuos al cuadrado (ei2).
A la recta que minimiza la suma de los residuos al cuadrado se
le denomina Recta de Regresin. En nuestro ejemplo, la Recta
de Regresin es:

Unidades Didcticas de la ENS __________________________________ pgina 46

La Regresin
Lineal permite estudiar la
relacin entre
dos variables
cuantitativas,
describiendo
el comportamiento de una
variable en
funcin de la
otra

El objetivo de
la Regresin
Lineal consiste
en determinar
la lnea recta,
denominada
Recta de Regresin, que
mejor describa
la relacin entre la variable
de exposicin
y la variable
de inters.

Tema 4.1 Conceptos bsicos de Estadstica

El intercepto
(a) se interpreta como
la media de
y cuando x
toma el valor
0; la media de
la variable de
inters cuando la variable
de exposicin
vale 0. Si la
variable de
exposicin no
puede tomar
el valor 0, el
intercepto no
es interpretable. La pendiente (b)
se interpreta
como el cambio por trmino medio en y
por cada aumento de una
unidad en x;
el cambio por
trmino medio
en la variable
de inters por
cada aumento
de una unidad
en la variable
de exposicin.

La expresin matemtica de la Recta de Regresin es:


y = a+bx
donde a es el intercepto y b es la pendiente de la recta.
El intercepto (a) se interpreta como la media de y cuando x
toma el valor 0; la media de la variable de inters cuando la
variable de exposicin vale 0. Si la variable de exposicin no
puede tomar el valor 0, el intercepto no es interpretable.
La pendiente (b) se interpreta como el cambio por trmino
medio en y por cada aumento de una unidad en x; el cambio
por trmino medio en la variable de inters por cada aumento
de una unidad en la variable de exposicin.
En nuestro ejemplo, la Recta de regresin es:
peso = 6.81 + 0.169 edad
Como la edad no puede tomar el valor 0, el intercepto (a =
6.81) no es interpretable.
La pendiente (b = 0.169) se interpretara como: El peso de los
nios se incrementa, en media, 169 gramos por cada aumento
de 1 mes en su edad.
En los individuos de la muestra, se observa una relacin positiva
entre la edad y el peso. Pero, esta relacin puede ser explicada
por azar o existe en la poblacin?
Para responder a esta pregunta, hacemos lo siguiente: Primero,
realizamos un Contraste de Hiptesis sobre la Pendiente de la
Recta de Regresin en la poblacin, , para determinar si existe
una relacin lineal entre la Edad y el Peso de los nios en la
poblacin. Segundo, calculamos un Intervalo de Confianza al
95% para la Pendiente de la Recta de Regresin para cuantificar

Unidades Didcticas de la ENS __________________________________ pgina 47

Autora: Inma Jarrn Vera

la magnitud de la asociacin entre la Edad y el Peso en la poblacin.


Contraste de Hiptesis para la Pendiente ()
Primero, definimos las Hiptesis Nula y Alternativa:
Hiptesis Nula: En la poblacin de la que se extrajo la muestra,
no hay una relacin lineal entre la Edad y el Peso de los nios
H0 : = 0

Hiptesis Alternativa: En la poblacin de la que se extrajo la


muestra, hay una relacin lineal entre la Edad y el Peso de los
nios
H0 : 0

Segundo, calculamos el valor del test estadstico. Asumiendo que


EE(b) es 0.012, el valor del test estadstico sera:

Bajo la Hiptesis Nula, el estadstico t sigue una distribucin t de


Student con n-2 grados de libertad. Por lo tanto, el p-valor se
calculara como:

El p-valor del contraste es <0.001. Los datos muestran evidencia


estadstica suficiente para rechazar la Hiptesis Nula; es decir,
para afirmar que existe una relacin lineal entre la Edad y el
Peso de los nios entre 5 y 36 meses residentes en Bolivia.
Intervalo de Confianza al 95% para la Pendiente ()
Un Intervalo de Confianza al 95% para se calcula como:
donde tn-2 es el punto de la distribucin t de Student con n-2
grados de libertad que deja en las colas una probabilidad del 5%.
En nuestro ejemplo,

En la poblacin de nios entre 5 y 36 meses residentes en Bolivia,

Unidades Didcticas de la ENS __________________________________ pgina 48

Tema 4.1 Conceptos bsicos de Estadstica

el peso se incrementa, en media, entre 145 y 193 gramos por


cada aumento de 1 mes en su edad.
Asunciones de la Regresin Lineal
1. La relacin entre la variable de exposicin y la variable de
inters es lineal
Adems, para que los Intervalos de Confianza y los p-valores
sean correctos, debe cumplirse:
2. Los residuos siguen una distribucin Normal
3. Los residuos tienen varianza constante
Los mtodos no paramtricos se
utilizan para
analizar variables de inters
que no siguen
una distribucin Normal.
Se basan en
el anlisis de
los rangos,
reemplazando
cada valor de
la variable de
inters por su
rango correspondiente.

5. Mtodos no paramtricos
Los mtodos presentados hasta ahora, conocidos como mtodos
paramtricos, asumen que la variable de inters sigue una
distribucin aproximadamente Normal. Pero, qu mtodo
utilizar si esta asuncin no se cumple?
Mtodos no paramtricos: Se utilizan para analizar variables
de inters que no siguen una distribucin Normal. Se basan en
el anlisis de los rangos, reemplazando cada valor de la variable
de inters por su rango correspondiente.
Bootstrapping: Tcnica que permite calcular Intervalos de
Confianza haciendo muy pocas asunciones sobre la distribucin
de la variable de inters.
Errores estndar robustos: Tcnica que permite calcular
Intervalos de Confianza y Errores Estndar a partir de la
distribucin observada, y no asumida, de la variable de inters.
A continuacin, se presentan las principales ventajas y
desventajas de los Mtodos no Paramtricos.
Ventajas
Son ms robustos que los mtodos paramtricos, en el sentido
de que estn menos afectados por observaciones extremas.
Limitaciones
Los mtodos no paramtricos se han utilizado tradicionalmente
para realizar Contrastes de Hiptesis; el desarrollo de mtodos
no paramtricos para el clculo de Intervalos de Confianza es

Unidades Didcticas de la ENS __________________________________ pgina 49

Autora: Inma Jarrn Vera

muy reciente. Esto representa una limitacin en la estadstica


moderna en la que se presta mucha atencin a la estimacin
de la magnitud de las asociaciones, y a la interpretacin de los
p-valores en el contexto de los Intervalos de Confianza.
P-valores grandes resultantes de comparar dos muestras
pequeas mediante mtodos no paramtricos, se han mal
interpretado, en ausencia de intervalos de confianza, como
ausencia de diferencias entre los grupos, cuando en realidad los
datos podran ser compatibles tanto con la ausencia de diferencias
como con la existencia de diferencias.
Adems, los mtodos no paramtricos presentan mayores
dificultades que los mtodos paramtricos, para generalizarlos
a situaciones en las que se desea tener en cuenta el efecto que
ms de una variable de exposicin tiene en la variable de inters.
A continuacin, se muestra una Tabla que resume los principales
Contrastes de Hiptesis, y en la que se incluye la alternativa no
paramtrica de los mtodos paramtricos presentados.
Tabla. Principales Contrastes de Hiptesis

Unidades Didcticas de la ENS __________________________________ pgina 50

Tema 4.1 Conceptos bsicos de Estadstica

Conclusiones

La Estadstica juega un papel fundamental en la Investigacin


en Salud, tanto en las etapas de diseo como en la seleccin de
muestras y anlisis de datos. En este tema se han descrito los
mtodos para realizar el anlisis descriptivo de los individuos de
la muestra. Y, se han desarrollado los mtodos que nos permiten
estimar la media de una variable cuantitativa en la poblacin a
estudio, determinar qu variables de exposicin se asocian con
la variable de inters cuantitativa, y cuantificar la magnitud de
la asociacin entre la variable de exposicin y la variable de
inters, en la poblacin a estudio.

Unidades Didcticas de la ENS __________________________________ pgina 51

Autora: Inma Jarrn Vera

Referencias bibliogrficas

1. Pea D, Romo J. Introduccin a La Estadstica para las Ciencias Sociales. Editorial McGraw Hill, 2003
2. Martnez M.Bioestadstica amigable. Editorial Daz de Santos,
2006
3. Hernndez-Aguado I, Gil A, Delgado M, Bolumar F. Manual
de Epidemiologa y Salud Pblica. Editorial Mdica Panamericana, 2005
4. Kirkwood B, Sterne J. Essential Medical Statistics. Blackwell
Science Ltd, 2001.

Unidades Didcticas de la ENS __________________________________ pgina 52

You might also like