You are on page 1of 26

INDICE:

TEMA: INTERFERENCIA ESTADISTICA


1.1 DISTRIBUCIONES MUESTRALES:TEOREMA CENTRAL DE
LIMITE,T-STUDENT, J-CUADRA,F-FISHER
1.2 ESTIMACION PUNTUAL Y POR INTERVALOS DE CONFIANZA
1.3 PRUEBAS DE HIPOTESIS
2.1 EL SIGNIFICADO DE LA REGRESION
2.2 AJUSTE DE LA RECTA DE REGRESION MEDIATE EL METODO
DE MINIMOS CUADRADOS
2.3 PREDICCION PUNTUAL Y POR INTERVALOS
2.4 COEFICIENTE DE CORRELACION Y DETERMINACION

1.1DISTRIBUCIONES MUESTRALES: TEOREMA


CENTRAL DE LIMITE, T-STUDENT, J-CUADRA, FFISHER
Los mejores cursos GRATIS
el

Teorema Central del Lmite

El Teorema Central del Lmite dice que si tenemos un grupo numeroso de


variables independientes y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin
normal.

Ejemplo: la variable "tirar una moneda al aire" sigue la distribucin de


Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50
variables (cada una independiente entre si) se distribuye segn una
distribucin normal.

Este teorema se aplica tanto a suma de variables discretas como de variables


continuas.

Los parmetros de la distribucin normal son:

Media: n * m (media de la variable individual multiplicada por el nmero de


variables independientes)
Varianza: n * s2 (varianza de la variable individual multiplicada por el nmero
de variables individuales)

Veamos un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si
sale cruz el valor 0. Cada lanzamiento es una variable independiente que se
distribuye segn el modelo de Bernouilli, con media 0,5 y varianza 0,25.
Calcular la probabilidad de que en estos 100 lanzamientos salgan ms de 60
caras.
La variable suma de estas 100 variables independientes se distribuye, por
tanto, segn una distribucin normal.

Media = 100 * 0,5 = 50


Varianza = 100 * 0,25 = 25

Para ver la probabilidad de que salgan ms de 60 caras calculamos la variable


normal tipificada equivalente:

(*) 5 es la raiz cuadrada de 25, o sea la desviacin tpica de esta distribucin


Por lo tanto:

P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda salgan ms de 60


caras es tan slo del 2,28%
Ejercicios:
La renta media de los habitantes de un pas se distribuye uniformemente entre
4,0 millones ptas. y 10,0 millones ptas. Calcular la probabilidad de que al
seleccionar al azar a 100 personas la suma de sus rentas supere los 725
millones ptas.

Cada renta personal es una variable independiente que se distribuye segn una
funcin uniforme. Por ello, a la suma de las rentas de 100 personas se le
puede aplicar el Teorema Central del Lmite.

La media y varianza de cada variable individual es:

m = (4 + 10 ) / 2 = 7
s 2 = (10 - 4)^2 / 12 = 3

Por tanto, la suma de las 100 variables se distribuye segn una normal
cuyamedia y varianza son:

Media: n * m = 100 * 7 = 700


Varianza: n * s2 = 100 * 3 = 300

Para calcular la probabilidad de que la suma de las rentas sea superior a 725
millones ptas, comenzamos por calcular el valor equivalente de la variable
normal tipificada:

Luego:
P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749

Es decir, la probabilidad de que la suma de las rentas de 100 personas


seleccionadas al azar supere los 725 millones de pesetas es tan slo del 7,49%

Ejercicio 2.
En una asignatura del colegio la probabilidad de que te saquen a la pizarra en
cada clase es del 10%. A lo largo del ao tienes 100 clases de esa asignatura.
Cul es la probabilidad de tener que salir a la pizarra ms de 15 veces?

Se vuelve a aplicar el Teorema Central del Lmite.

Salir a la pizarra es una variable independiente que sigue el modelo de


distribucin de Bernouilli:

"Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10


"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9
La media y la varianza de cada variable independientes es:

m = 0,10
s 2 = 0,10 * 0,90 = 0,09

Por tanto, la suma de las 100 variables se distribuye segn una normal cuya
media y varianza son:

Media: n * m = 100 * 0,10 = 10


Varianza: n * s2 = 100 * 0,09 = 9

Para calcular la probabilidad de salir a la pizarra ms de 15 veces, calculamos


el valor equivalente de la variable normal tipificada:

Luego:
P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475

Es decir, la probabilidad de tener que salir ms de 15 veces a la pizarra a lo


largo del curso es tan slo del 4,75% ( nimo !!!, no es tan grave)

Distribucion t de student
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin
de

probabilidad que

surge

del

problema

de estimar la media de

una poblacin normalmente distribuida cuando el tamao de la muestra es


pequeo.
Aparece de manera natural al realizar la prueba t de Student para la
determinacin de las diferencias entre dos medias muestrales y para la
construccin del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviacin tpica de una poblacin y
sta debe ser estimada a partir de los datos de una muestra.
La distribucin t de Student es la distribucin de probabilidad del cociente

donde

Z es

una variable

aleatoria distribuida

segn

una normal tpica

(de

media nula y varianza 1).

V es una variable aleatoria que sigue una distribucin con

grados

de libertad.

Z y V son independientes

Si es una constante no nula, el cociente

es una variable aleatoria

que sigue la distribucin t de Student no central con parmetro de nocentralidad

DISTRIBUCION JI-CUADRADA (X2)


En realidad la distribucin ji-cuadrada es la distribucin muestral de s 2. O sea
que si se extraen todas las muestras posibles de una poblacin normal y a
cada muestra se le calcula su varianza, se obtendr la distribucin muestral de
varianzas.

Para estimar la varianza poblacional o la desviacin estndar, se necesita


conocer el estadstico X2. Si se elige una muestra de tamao n de una
poblacin normal con varianza

, el estadstico:

tiene una distribucin muestral que es una distribucin ji-cuadrada con


gl=n-1 grados de libertad y se denota X2 (X es la minscula de la letra
griega ji). El estadstico ji-cuadrada esta dado por:

donde n es el tamao de la muestra, s2 la varianza muestral y


la varianza
de la poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada
tambin se puede dar con la siguiente expresin:

Propiedades de las distribuciones ji-cuadrada


1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribucin X 2 depende del gl=n-1. En consecuencia,
hay un nmero infinito de distribuciones X 2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se
extienden a la derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X 2. Note que el valor modal
aparece en el valor (n-3) = (gl-2).

La funcin de densidad de la distribucin X2 esta dada por:

para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y
estadstica de Walpole, la cual da valores crticos
(gl) para veinte valores
especiales de
. Para denotar el valor crtico de una distribucin X 2 con gl
grados de libertad se usa el smbolo
(gl); este valor crtico determina a su
derecha un rea de
bajo la curva X2 y sobre el eje horizontal. Por ejemplo
para encontrar X20.05(6) en la tabla se localiza 6 gl en el lado izquierdo
y
a o largo del lado superior de la misma tabla.

Clculo de Probabilidad
El clculo de probabilidad en una distribucin muestral de varianzas nos sirve
para saber como se va a comportar la varianza o desviacin estndar en una
muestra que proviene de una distribucin normal.
Ejemplos:

1. Suponga que los tiempos requeridos por un cierto autobs para alcanzar
un de sus destinos en una ciudad grande forman una distribucin normal
con una desviacin estndar
=1 minuto. Si se elige al azar una
muestra de 17 tiempos, encuentre la probabilidad de que la varianza
muestral sea mayor que 2.
Solucin:
Primero se encontrar el valor de ji-cuadrada correspondiente a s 2=2
como sigue:

El valor de 32 se busca adentro de la tabla en el rengln de 16 grados


de libertad y se encuentra que a este valor le corresponde un rea a la
derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s 2>2)

1.2Estimaciones puntuales y por intervalos de


confianza
ESTIMACIN PUNTUAL
Consiste en la estimacin del valor del parmetro mediante un slo valor,
obtenido de una frmula determinada. Por ejemplo, si se pretende estimar la
talla media de un determinado grupo de individuos, puede extraerse una
muestra y ofrecer como estimacin puntual la talla media de los individuos. Lo
ms importante de un estimador, es que sea un estimador eficiente. Es decir,
que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente
(varianza mnima)

ESTIMACIN POR INTERVALOS DE CONFIANZA


En estadstica, se llama intervalo de confianza a un par de nmeros entre los
cuales se estima que estar cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo,
que se calcula a partir de datos de una muestra, y el valor desconocido es
un parmetro poblacional. La probabilidad de xito en la estimacin se
representa con 1 - y se denomina nivel de confianza. En estas
circunstancias, es el llamado error aleatorio o nivel de significacin, esto es,
una medida de las posibilidades de fallar en la estimacin mediante tal
intervalo.
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de
forma que un intervalo ms amplio tendr ms posibilidades de acierto (mayor
nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece
una estimacin ms precisa, aumentan sus posibilidades de error.
Para la construccin de un determinado intervalo de confianza es necesario
conocer la distribucin terica que sigue el parmetro a estimar, . Es habitual

que el parmetro presente una distribucin normal. Tambin


construirse intervalos de confianza con ladesigualdad de Chebyshov.

pueden

En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de


un parmetro poblacional que sigue una determinada distribucin de
probabilidad, es una expresin del tipo [1,2] tal que P[1 2] = 1 - ,
donde P es la funcin de distribucin de probabilidad de .
Intervalo de confianza para la media de una poblacin
De
una poblacin de media y desviacin
tpica se
pueden
tomar muestras de elementos. Cada una de estas muestras tiene a su vez
una media ( ). Se puede demostrar que la media de todas las medias
muestrales coincide con la media poblacional:
Pero adems, si el tamao de las muestras es lo suficientemente grande, la
distribucin de medias muestrales es, prcticamente, una distribucin
normal (o gaussiana) con media y una desviacin tpica dada por la siguiente
expresin:

. Esto

se

representa como sigue:

Si estandarizamos, se sigue que:


En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro
del cual caigan un determinado porcentaje de las observaciones, esto es, es
sencillo hallar z1 y z2 tales que P[z1 z z2] = 1 - , donde (1 - )100 es el
porcentaje deseado.
Se desea obtener una expresin tal que
En esta distribucin normal de medias se puede c
alcular el intervalo de confianza donde se encontrar la media poblacional si
slo se conoce una media muestral ( ), con una confianza determinada.
Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A
este valor se le llamar
(debido a que es el error que se cometer, un
trmino opuesto).
Para ello se necesita calcular el punto

o, mejor dicho, su versin

estandarizada

con

o valor

crtico

junto

su

"opuesto

en

la

distribucin"
. Estos puntos delimitan la probabilidad para el intervalo,
como se muestra en la siguiente imagen:

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

As:

Haciendo operaciones es posible despejar

para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral


el producto del valor crtico
Si no se conoce

por el error estndar

y n es grande (habitualmente se toma n 30):

, donde s es la desviacin tpica de una muestra.


Aproximaciones para el valor
1,96 para

para los niveles de confianza estndar son

y 2,576 para

1.3PRUEBA DE HIPOTESIS
Las secciones anteriores han mostrado cmo puede estimarse un parmetro a
partir de los datos contenidos en una muestra. Puede encontrarse ya sea un
slo nmero (estimador puntual) o un intervalo de valores posibles (intervalo
de confianza). Sin embargo, muchos problemas de ingeniera, ciencia, y
administracin, requieren que se tome una decisin entre aceptar o rechazar
una proposicin sobre algn parmetro. Esta proposicin recibe el nombre
de hiptesis. Este es uno de los aspectos ms tiles de la inferencia
estadstica, puesto que muchos tipos de problemas de toma de decisiones,
pruebas o experimentos en el mundo de la ingeniera, pueden formularse como
problemas de prueba de hiptesis.
Una hiptesis estadstica es una proposicin
parmetros de una o ms poblaciones.

supuesto

sobre

los

Suponga que se tiene inters en la rapidez de combustin de un agente


propulsor slido utilizado en los sistemas de salida de emergencia para la
tripulacin de aeronaves. El inters se centra sobre la rapidez de combustin
promedio. De manera especfica, el inters recae en decir si la rapidez de
combustin promedio es o no 50 cm/s. Esto puede expresarse de manera
formal como
Ho;

= 50 cm/s

H1;

50 cm/s

La proposicin Ho;

= 50 cm/s, se conoce como hiptesis nula, mientras

que la proposicin H1;


50 cm/s, recibe el nombre de hiptesis
alternativa. Puesto que la hiptesis alternativa especifica valores de
que
pueden ser mayores o menores que 50 cm/s, tambin se conoce
como hiptesis alternativa bilateral. En algunas situaciones, lo que se
desea es formular una hiptesis alternativa unilateral, como en
Ho;

= 50 cm/s Ho;

= 50 cm/s

< 50 cm/s H1;

> 50 cm/s

H1;

Es importante recordar que las hiptesis siempre son proposiciones sobre la


poblacin o distribucin bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parmetro de la poblacin especificado en la hiptesis nula
se determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del
proceso, entonces el objetivo de la prueba de hiptesis usualmente es
determinar si ha cambiado el valor del parmetro.
2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con
el proceso bajo estudio. En este caso, el objetivo de la prueba de
hiptesis es verificar la teora o modelo.
3. Cuando el valor del parmetro proviene de consideraciones externas,
tales como las especificaciones de diseo o ingeniera, o de obligaciones
contractuales. En esta situacin, el objetivo usual de la prueba de
hiptesis es probar el cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisin sobre una hiptesis en particular
recibe el nombre de prueba de hiptesis. Los procedimientos de prueba de
hiptesis dependen del empleo de la informacin contenida en la muestra
aleatoria de la poblacin de inters. Si esta informacin es consistente con la
hiptesis, se concluye que sta es verdadera; sin embargo si esta informacin
es inconsistente con la hiptesis, se concluye que esta es falsa. Debe hacerse
hincapi en que la verdad o falsedad de una hiptesis en particular nunca
puede conocerse con certidumbre, a menos que pueda examinarse a toda la
poblacin. Usualmente esto es imposible en muchas situaciones prcticas. Por
tanto, es necesario desarrollar un procedimiento de prueba de hiptesis
teniendo en cuenta la probabilidad de llegar a una conclusin equivocada.

La hiptesis nula, representada por Ho, es la afirmacin sobre una o ms


caractersticas de poblaciones que al inicio se supone cierta (es decir, la
"creencia a priori").
La hiptesis alternativa, representada por H1, es la afirmacin contradictoria
a Ho, y sta es la hiptesis del investigador.
La hiptesis nula se rechaza en favor de la hiptesis alternativa, slo si la
evidencia muestral sugiere que Ho es falsa. Si la muestra no contradice
decididamente a Ho, se contina creyendo en la validez de la hiptesis nula.
Entonces, las dos conclusiones posibles de un anlisis por prueba de hiptesis
son rechazar Ho o no rechazar Ho.
Prueba de una Hiptesis Estadstica
Para ilustrar los conceptos generales, considere el problema de la rapidez de
combustin del agente propulsor presentado con anterioridad. La hiptesis
nula es que la rapidez promedio de combustin es 50 cm/s, mientras que la
hiptesis alternativa es que sta no es igual a 50 cm/s. Esto es, se desea
probar:
Ho;
H1;

= 50 cm/s
50 cm/s

Supngase que se realiza una prueba sobre una muestra de 10 especmenes, y


que se observa cual es la rapidez de combustin promedio muestral. La media
muestral es un estimador de la media verdadera de la poblacin. Un valor de la
media muestral
que este prximo al valor hipottico
= 50 cm/s es una
evidencia de que el verdadero valor de la media
es realmente 50 cm/s; esto
es, tal evidencia apoya la hiptesis nula H o. Por otra parte, una media muestral
muy diferente de 50 cm/s constituye una evidencia que apoya la hiptesis
alternativa H1. Por tanto, en este caso, la media muestral es el estadstico de
prueba.
La media muestral puede tomar muchos valores diferentes. Supngase que si
48.5
51.5, entonces no se rechaza la hiptesis nula H o;
= 50 cm/s, y
que si <48.5
50 cm/s.

>51.5, entonces se acepta la hiptesis alternativa H1;

Los valores de que son menores que 48.5 o mayores que 51.5 constituyen
la regin crtica de la prueba, mientras que todos los valores que estn en el
intervalo 48.5
51.5 forman laregin de aceptacin. Las fronteras entre
las regiones crtica y de aceptacin reciben el nombre de valores crticos. La
costumbre es establecer conclusiones con respecto a la hiptesis nula H o. Por

tanto, se rechaza Ho en favor de H1 si el estadstico de prueba cae en la regin


crtica, de lo contrario, no se rechaza Ho.
Este procedimiento de decisin puede conducir a una de dos conclusiones
errneas. Por ejemplo, es posible que el valor verdadero de la rapidez
promedio de combustin del agente propulsor sea igual a 50 cm/s. Sin
embargo, para todos los especmenes bajo prueba, bien puede observarse un
valor del estadstico de prueba que cae en la regin crtica. En este caso, la
hiptesis nula Ho ser rechazada en favor de la alternativa H1cuando, de hecho,
Ho en realidad es verdadera. Este tipo de conclusin equivocada se conoce
como error tipo I.
El error tipo I se define como el rechazo de la hiptesis nula H o cuando sta
es verdadera. Tambin es conocido como
nivel de significancia.
Si tuviramos un nivel de confianza del 95% entonces el nivel de significancia
sera del 5%. Anlogamente si se tiene un nivel de confianza del 90% entonces
el nivel de significancia sera del 10%.
Ahora supngase que la verdadera rapidez promedio de combustin es
diferente de 50 cm/s, aunque la media muestral caiga dentro de la regin de
aceptacin. En este caso se acepta Ho cuando sta es falsa. Este tipo de
conclusin recibe el nombre de error tipo II.
El error tipo II error
cuando sta es falsa.

se define como la aceptacin de la hiptesis nula

Por tanto, al probar cualquier hiptesis estadstica, existen cuatro situaciones


diferentes que determinan si la decisin final es correcta o errnea.

Decisin

Ho es verdadera

Ho es falsa

Aceptar Ho

No hay error

Error tipo II

Rechazar Ho

Error tipo I

No hay error

1. Los errores tipo I y tipo II estn relacionados. Una disminucin en la


probabilidad de uno por lo general tiene como resultado un aumento en
la probabilidad del otro.

2. El tamao de la regin crtica, y por tanto la probabilidad de cometer un


error tipo I, siempre se puede reducir al ajustar el o los valores crticos.
3. Un aumento
simultnea.

en

el

tamao

muestral n reducir

de

forma

4. Si la hiptesis nula es falsa,


es un mximo cuando el valor real del
parmetro se aproxima al hipottico. Entre ms grande sea la distancia
entre el valor real y el valor hipottico, ser menor

2.1EL SIGNIFICADO DE LA REGRESION


En estadstica, el anlisis de la regresin es un proceso estadstico para la
estimacin de relaciones entre variables. Incluye muchas tcnicas para el
modelado y anlisis de diversas variables, cuando la atencin se centra en la
relacin entre una variable dependiente y una o ms variables independientes.
Ms especficamente, el anlisis de regresin ayuda a entender cmo el valor
tpico de la variable dependiente cambia cuando cualquiera de las variables

independientes es variada, mientras que se mantienen las otras variables


independientes fijas. Ms comnmente, el anlisis de regresin estima
la esperanza condicional de la variable dependiente dadas las variables
independientes - es decir, el valor promedio de la variable dependiente cuando
se fijan las variables independientes. Con menor frecuencia, la atencin se
centra en un cuantil, u otro parmetro de localizacin de la distribucin
condicional de la variable dependiente dadas las variables independientes. En
todos los casos, el objetivo es la estimacin de una funcin de las variables
independientes llamada la funcin de regresin. En el anlisis de regresin,
tambin es de inters para caracterizar la variacin de la variable dependiente
en torno a la funcin de regresin que puede ser descrito por una distribucin
de probabilidad.
El anlisis de regresin es ampliamente utilizado para la prediccin y previsin,
donde su uso tiene superposicin sustancial en el campo de aprendizaje
automtico. El anlisis de regresin se utiliza tambin para comprender que
cuales de las variables independientes estn relacionadas con la variable
dependiente, y explorar las formas de estas relaciones. En circunstancias
limitadas, el anlisis de regresin puede utilizarse para inferir relaciones
causales entre las variables independientes y dependientes. Sin embargo, esto
puede llevar a ilusiones o falsas relaciones, por lo que se recomienda
precaucin,1 por ejemplo, la correlacin no implica causalidad.
Se han desarrollado muchas tcnicas para llevar a cabo anlisis de regresin.
Mtodos familiares tales como regresin lineal y ordinaria de mnimos
cuadrados de regresin son paramtrica, en que la funcin de regresin se
define en trminos de un nmero finito de desconocidos parmetros que se
estiman a partir de los datos. regresin no paramtrica se refiere a las tcnicas
que permiten que la funcin de regresin mienta en un conjunto especfico de
funciones, que puede ser de dimensin infinita.
El desempeo de los mtodos de anlisis de regresin en la prctica depende
de la forma del proceso de generacin de datos, y cmo se relaciona con el
mtodo de regresin que se utiliza. Dado que la forma verdadera del proceso
de generacin de datos generalmente no se conoce, el anlisis de regresin
depende a menudo hasta cierto punto de hacer suposiciones acerca de este
proceso. Estos supuestos son a veces comprobable si una cantidad suficiente
de datos est disponible. Los modelos de regresin para la predicciamente,
aunque pueden no funcionar de manera ptima. Sin embargo, en muchas
aplicaciones, sobre todo con pequeos efectos o las cuestiones de causalidad
sobre la base de los datos de observacin, mtodos de regresin pueden dar
resultados engaosos.

2.2AJUSTE POR EL MTODO DE LOS MNIMOS


CUADRADOS: RECTA DE REGRESIN

Una vez tenemos sobre los ejes de coordenadas la nube de puntos, se plantea
el problema de ajustar una recta sobre la misma.
Cul es la recta qu mejor se ajusta sobre la nube de puntos?
Evidentemente, esta pregunta no tendra respuesta si no se establece un
criterio de ajuste.
El criterio que se propone es el de los mnimos cuadrados.
En qu consiste?
Sea la muestra observada de valores del par de variables (X, Y):
(x1, y1), (x2, y2), (x3, y3), ..., (xn, yn)
Se trata de obtener los valores a y b de manera que se minimice la funcin:

La solucin es la siguiente:

Sustituyendo los valores a y b anteriores, tenemos la recta:

y = a + bx

que es conocida como la recta de regresin Y/X.

2.3PREDICCION PUNTUAL Y POR INTERVALOS


ESTIMACIN PUNTUAL
Una estimacin puntual del valor de un parmetro poblacional desconocido
(como puede ser la media , o la desviacin estndar ), es un nmero que
se utiliza para aproximar el verdadero valor de dicho parmetro poblacional. A
fin de realizar tal estimacin, tomaremos una muestra de la poblacin y
calcularemos el parmetro muestral asociado ( x para la media, s para la
desviacin estndar, etc.). El valor de este parmetro muestral ser la
estimacin puntual del parmetro poblacional. Por ejemplo, supongamos que la
compaa Sonytron desea estimar la edad media de los compradores de
equipos de alta fidelidad. Seleccionan una muestra de 100 compradores y
calculan la media de esta muestra, este valor ser un estimador puntual de la
media de la poblacin. Qu propiedades debe cumplir todo buen estimador?
Estimacin puntual y estimacin por intervalos de confianza Proyecto e-Math 3
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Insesgado: Un estimador es insesgado cuando la media de su distribucin
muestral asociada coincide con la media de la poblacin. Esto ocurre, por
ejemplo, con el estimador x , ya que x = y con estimador p ya que p p
=
De varianza mnima: La variabilidad de un estimador viene determinada por
el cuadrado de su desviacin estndar. En el caso del estimador x , su
desviacin estndar es n x = , tambin llamada error estndar de .
En el caso del error estndar de p, n p p p *(1 ) =
Observar que cuanto mayor sea el tamao de la muestra n , menor ser la
variabilidad del estimador x y de p, por tanto, mejor sern nuestras
estimaciones.

ESTIMACIN POR INTERVALO


Dada una poblacin X, que sigue una distribucin cualquiera con media y
desviacin estndar . 1. Sabemos (por el TCL) que, para valores grandes de
n , la media muestral x sigue una distribucin aproximadamente normal con
media x = y desviacin estndar n x = .
Por otra parte, el Teorema de Chebyshev nos dice que, en una distribucin
normal, aproximadamente un 95% de los datos estaban situados a una
distancia inferior a dos desviaciones estndar de la media. De lo anterior se
deduce que:
( 2 < < + 2 ) = 0,95 x x P x , 0,95 ( 2 ) ( 2 ) ( 2 ) ( 2 ) x x x x = P
x < + P x < = P > x P > x + ( 2 < < + 2 ) = 0,95 x
xPxx
Por tanto, sta ltima frmula nos da un intervalo de valores tal que la
probabilidad de que la media de la poblacin est contenida en l es de 0,95.
Este tipo de intervalos se llaman intervalos de confianza de un parmetro
poblacional. El nivel de confianza (1 - ) del intervalo es la probabilidad de que
ste contenga al parmetro poblacional. En el ejemplo anterior, el nivel de
confianza era del 95% ( = 0,05).

2.4 COEFICIENTE DE CORRELACION Y


DETERMINACION
Una vez ajustada la recta de regresin a la nube de observaciones es
importante disponer de una medida que mida la bondad del ajuste realizado y
que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos
alternativos. Como medida de bondad del ajuste se utiliza el coeficiente
de determinacin, definido como sigue

(6.15)

o bien

Como scE < scG, se verifica que 0 < R2 < 1.


El coeficiente de determinacin mide la proporcin de variabilidad total de
la variable dependiente
respecto a su media que es explicada por el modelo
de regresin. Es usual expresar esta medida en tanto por ciento,
multiplicndola por cien.
Por otra parte, teniendo en cuenta que

, se se obtiene
(6.16)

Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relacin


lineal que hay entre ambas variables es el coeficiente de correlacin definido
por
(6.17)
donde
para

representa la desviacin tpica de la variable X (anlogamente


). Un buen estimador de este parmetro es el coeficiente de

correlacin lineal muestral (o coeficiente de correlacin de Pearson), definido


por
(6.18)
Por tanto, r
. Este coeficiente es una buena medida de la bondad del
ajuste de la recta de regresin. Evidentemente, existe una estrecha relacin
entre r y 1 aunque estos estimadores proporcionan diferentes
interpretaciones del modelo:
* r es una medida de la relacin lineal entre las variables X e Y.
* 1 mide el cambio producido en la variable Y al realizarse un cambio de una
unidad en la variable X.
De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello


implica que el modelo de regresin lineal es significativo. Desafortunadamente
la distribucin de r es complicada pero para tamaos muestrales mayores que
30 su desviacin tpica es

1/

, y puede utilizarse la siguiente regla

En la interpretacin del coeficiente de correlacin se debe tener en cuenta


que:
r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),
r = 0 indica la no existencia de relacin lineal estocstica, pero no indica
independencia de las variables ya que puede existir una relacin no
lineal incluso exacta,
valores intermedios de r (0 < r < 1 -1 < r < 0) indican la existencia
de una relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1)
sea el valor der.
Para poder interpretar con mayor facilidad el coeficiente de correlacin
muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:
Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn
sobre la recta de regresin. r = R2 = 1, recta de regresin: y = x.

Figura 6.7. Dependencia funcional lineal.


Figura 6.8. La relacin lineal entre las variables es muy pequea y no parece
que exista otro tipo de relacin entre ellas, la nube de puntos indica que las
variables son casi independientes.
r = 0'192, R2 = 0'037, recta de regresin: y = 6'317 + 0'086x.
Contraste de regresin: R = 0'687 F1,18
no influencia de la variable regresora en Y.

p - valor = 0'418. Se acepta la

Figura 6.8. Observaciones casiindependientes.


Figura 6.9. Existe una dependencia funcional entre las observaciones pero no
de tipo lineal, por tanto la correlacin es muy pequea
r = 0'391, R2 = 0'153, recta de regresin: y = 32'534 - 1'889x.

Contraste de regresin: R = 3'252 F1,18


p-valor = 0'088. Se acepta que
'
no existe relacin lineal con = 0 05. En base a la Figura 6.6. se debe de
hacer un ajuste del tipo parablico Y = 0 + 1x + 2x2.

Figura 6.9. Existe una relacin cuadrtica.


Figura 6.10. La nube de datos se ajusta razonablemente a una recta con
pendiente positiva.
r = 0'641, R2 = 0'410, recta de regresin: y = -3' 963 + -1'749x.
Contraste de regresin: R = 12'522
la no influencia lineal de la variable x.

F1,18

p - valor = 0'002. Se rechaza

. Relacin estocstica lineal.


Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos
variables y la correlacin es muy alta (prxima a 1).

r = 0'924, R2 = 0'846, recta de regresin: y = -2'528 - 2'267x


Contraste de regresin: R = 105'193
la existencia de una relacin lineal.

F1,18

p - valor = 0'000. Se acepta

BIBLIOGRAFIA:
http://www.itch.edu.mx/academic/industrial/estadistica1/cap03b.html
http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
http://www.uoc.edu/in3/emath/docs/Estimacion_IC.pdf
http://probabilidadyestadisticaitsav.blogspot.mx/2012/06/52estimaciones-puntuales-y-por.html
https://www.google.com.mx/search?
q=AJUSTE+DE+LA+RECTA+DE+REGRESION+MEDIATE+EL+METODO+
DE+MINIMOS+CUADRADOS&oq=AJUSTE+DE+LA+RECTA+DE+REGRESI
ON+MEDIATE+EL+METODO+DE+MINIMOS+CUADRADOS&aqs=chrome.
.69i57j0.1165j0j7&sourceid=chrome&es_sm=122&ie=UTF-8
http://www.itch.edu.mx/academic/industrial/estadistica1/cap03b.html

You might also like