You are on page 1of 67

A Previso com o Modelo de Regresso.................................................................................... 1 1. Introduo ao Modelo de Regresso .............................................................................. 1 2. Exemplos de Modelos Lineares ..................................................................................... 2 3.

Derivao dos Mnimos Quadrados no Modelo de Regresso ...................................... 6 4. A Natureza Probabilstica do Modelo de Regresso...................................................... 9 5. Propriedades Estatsticas dos Estimadores................................................................... 13 6. Critrios de Avaliao dos Estimadores....................................................................... 14 7. Obteno da Mdia e o Desvio Padro dos Melhores Estimadores Lineares No Tendenciosos ou Best Linear Unbiased Estimators (BLUEs) .......................................... 16 8. Aplicao de Testes de Hipteses e Intervalos de Confiana aos EstimadoresErro! Indicador no definido. 9. O Coeficiente de Ajustamento ou Determinao: Erro! Indicador no definido. 10. Interpretao da Variao em Y em termos da Anlise de VarinciaErro! Indicador no definido. 11. O Modelo de Regresso Mltipla......................... Erro! Indicador no definido. 12. Consideraes Adicionais: a Correlao Parcial.................................................34 13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos ................36 14. O Modelo de Regresso Mltipla com Variveis Explanatrias Estocsticas......36 15. Violao dos Pressupostos Bsicos do Modelo de Regresso Clssico..............37 16. O Problema da Multicolinearidade .....................................................................38 17. O Problema de Heteroscedasticidade..................................................................40 18. O Problema da Correlao Serial ......................... Erro! Indicador no definido. 19. A Previso com o Modelo de Regresso.............. Erro! Indicador no definido. Leituras recomendadas (Pindyck e Rubinfeld(1976)): 1. 2. 3. Variveis instrumentais e mnimos quadrados em dois estgios (Leitura recomendada) (Pindyck e Rubinfeld) Tpicos avanados em estimao de uma equao singular (Leitura recomendada) Modelos de escolha qualitativa (Leitura recomendada) (Pindyck e Rubinfeld) Kmenta, Jan, Elementos de Econometria, Ed. Atlas. Thomas, J. J. (1978), Introduo Anlise Estatstica para Economistas, Zahar Editores. Pindyck, R. S. e Rubinfeld, D. L. (1976), Econometric Models and Economic Forecasts, McGraw-Hill Kogakusha Ltd., Tokyo. Pindyck, R.S. e Rubinfeld, D.L. (1991), Econometric Models and Economic Forecasts, Mcgraw-Hill International Editors. Bowerman, B.L. e O`Connel, R.T. (1987), Times Series Forecasting-Unified Concepts and Computer Implementation, Duxbury Press, Boston. Levenbach, H. e Cleary, J.P. (1984), The Modern Forecaster: The Forecasting Process Through Data Analysis, Lifetime Learning Publications, Belmonnt, Califrnia.

Referncias Bibliogrficas:

A Previso com o Modelo de Regresso

1.

Introduo ao Modelo de Regresso A teoria da Regresso permite que se estabeleam relaes entre variveis que se

interrelacionam cujas informaes esto disponveis (dados pr-coletados), relaes s quais associam-se os modelos de regresso. Dessa forma, os economistas e os administradores procuram compreender a natureza e o funcionamento de sistemas econmicos que so descritos por meio dessas variveis. Por exemplo, o volume do comrcio internacional pode ser modelado como uma funo linear do produto interno bruto dos pases. As vendas de um produto podem ser estimadas por uma relao entre a varivel que as representa e variveis relativas aos preos desse produto e de seus concorrentes no mercado e aos respectivos gastos relativos com propaganda. Uma vez estabelecida essa relao pelo modelo de regresso, preciso avaliar a confiana que nela se pode colocar, realizando testes estatsticos. Temos dois tipos bsicos de informao a considerar: (1) Informao descrevendo as mudanas assumidas por uma varivel atravs

do tempo (dados de sries temporais) (2) Informao descrevendo as atividades de pessoas, firmas etc. num dado

instante de tempo (dados de corte transversal) Para esses dois tipos de informao possvel estabelecer relaes que descrevem as situaes observadas por meio de modelos de regresso. Ou seja, dado um conjunto finito de observaes X e Y, por meio do modelo de regresso buscado estabelecer relaes entre X e Y. Esse conjunto finito de observaes corresponde a uma amostra representativa do universo de informaes ou populao, a qual permitiria estabelecer a verdadeira relao entre X e Y (Figura 1).

Amostra

Populao (verdadeira relao entre X e Y)

Figura 1- Relao entre a amostra e a populao ou universo de informaes

Tome-se por hiptese que exista a relao linear li entre X e Y. No diagrama de disperso da Figura 2 so representadas as linhas l1 e l2 que se procurou ajustar ao conjunto de pares ordenados (X, Y) do conjunto amostral, assim como os desvios (positivos e negativos) em relao a l2 .

Figura 2 - Diagrama de disperso e desvios em relao linha ajustada Definem-se desvios como os valores, segundo Y, das diferenas entre os valores observados e os valores sobre a linha li ajustada ao conjunto de pares (X, Y). Como regra estabelece-se que a melhor linha li corresponde quela cujo somatrio dos desvios tende a zero ( minimizado). A melhor linha ajustada define o modelo de regresso e pode ser obtida pela derivao de mnimos quadrados ordinrios, apresentada mais frente. 2. Exemplos de Modelos Lineares

(A) Modelagem de Tendncia e Sazonalidade atravs de Funes do Tempo Seja por exemplo o modelo Yt = St + Tt , onde Tt representa a tendncia no perodo t. Por outro lado, St representa a sazonalidade no perodo t, sendo L o comprimento da sazonalidade. Exemplos de situaes onde a tendncia modelada, em que 0, 1 e 2 so os parmetros do modelo, so:

Modelo Tendncia inexistente, ou constante horizontal Tendncia linear Tendncia quadrtica (Figura 3)
Tt Tt

Tt = 0

Tt = 0 + 1t Tt = 0 + 1t + 2t2 que se transforma em: Tt = 0 + 1t + 2v, fazendo v=t2, o que torna possvel transformao do grau da relao.

Tt

Tt

Figura 3- Grficos de dados com tendncia quadrtica Em algumas situaes observa-se sazonalidade ou seja, os valores observados variam de forma caracterstica por perodo de tempo t ao longo do comprimento da sazonalidade. Assim, pode-se escrever que: St = S1 X S1, t + S2 X S2, t + ... + S(L 1) X S(L 1), t

Variveis dummies Define-se cada varivel dummy por:


X S1,t =

1 se t o perodo sazonal 1 0 seno 1 se t o perodo sazonal 2 0 seno 1 se t o perodo sazonal (L-1) 0 seno 3

X S2,t =

XS(L-1),t =

Observa-se que o perodo sazonal L corresponde ao perodo base da representao de St (poderia ser outro qualquer, definindo-o a priori).

(B)

Exemplos de Transformao Linear

Seja o modelo: y=e


a+bx

logey

y = (a + bx)

1 logee
y = a + bx (transformao

linear). Substituindo-se x = 1/t, obtm-se a curva S ou curva do aprendizado (Figura 4):

t
Figura 4- Grfico da curva do aprendizado Modelo recproco

Y=

1 1 = a + bx y=a+bx a + bx Y

(transformao linear)

Modelo semilogartmico
Y = a + bv

Y = a + b log x v Da mesma forma:

(transformao linear)

Y = 0 + 1 x12 + 2 log x2 Y = 0 + 1 V1 + 2 V2

V1

V2

Seja a equao no linear nas variveis independentes: Y = 0 x11 x22 Esta equao no linear nos coeficientes, mas linearizvel, por meio de aplicao de logaritmos.
4

Seja o exemplo das vendas de um produto introduzido no mercado e com vendas, posteriormente, em expanso. Esta situao tpica do modelo que representa a curva do aprendizado do tipo Y = ea (b/t), pois observa-se o comeo lento, crescimento forte e perodo de saturao (Figura 5).
Dados tempo(t) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 vendas(Y) 0.023 0.157 0.329 0.48 1.205 1.748 1.996 2.509 2.366 2.94 2.8714 2.9346 3.1346 3.24 3.148 3.522 3.54 3.31 3.547 3.374 3.3745 3.401 3.6971 3.493 1/t 1 0.5 Loge(vendas) -3.77226 -1.851151

Y = e1,478 (5,786/t)
Resultados do ajuste do modelo ao conjunto de observaes: Parmetros (a) 20.7867 (b) -21.0389 R2 = 0.953, Fteste = 442.6

Figura 5- Exemplo de situao tpica da curva do aprendizado (vendas de T.V. a cores, Makridakis e Wheelwright, Forecasting, pg. 203) (C) Uso do tempo como uma das variveis explanatrias Situaes-Exemplo: 1) Qt = Lt Kt A(t) t
funcional de t funo de produo mudana tcnica ex.: A(t) = e
t

2)

Incluso da varivel tempo em modelo pouco aderente Yt = 1 + 2 x2t + 3t + t, sendo que o termo 3t modela o efeito lquido de

conjunto de variveis excludas. O efeito da incluso desse termo estatstico.

3.

Derivao dos Mnimos Quadrados no Modelo de Regresso

A derivao dos mnimos quadrados permite testes estatsticos sobre o ajustamento entre X e Y, da forma Y = a + bX, sendo, por hiptese, Y a varivel dependente e X a varivel independente. Y = a + bX
Varivel dependente Varivel independente

Figura 6 Linha de mnimos quadrados ajustada ao conjunto amostral

, onde Y = a + bXi , e N Define-se o resduo ou desvio (i) como i = Yi Y i i corresponde ao nmero de observaes amostrais. Busca-se obter Min (Yi a bX i ) 2 ou seja, a minimizao do somatrio dos N
i =1 N

desvios ao quadrado (Figura 6).

Dessa forma, define-se o sistema de equaes normais:


-2 ii = 0 equaes normais 2 (Yi a bX i ) = 0 ... Yi = a N + bXi a

(I)

-2 Xii = 0 2 2 (Yi a bX i ) = 0 ... Xi Yi = a Xi + bXi (II) b que multiplicadas, respectivamente, por Xi e N, so reescritas:

(I) Xi equaes (Xi) Yi = (Xi) (a N + b Xi) (II) N


normais ( N) Xi Yi = ( N) (a Xi + b Xi2)
inclinao coeficiente linear
Yi Xi b a= N N

Fazendo (II) (I), pode-se obter os parmetros (a e b) do modelo de regresso: b= N X i Yi X i Yi N X i 2 ( X i ) 2

intercepto constante

onde se definem as mdias amostrais Y e X . Se Y = X = 0 isto significa a = 0, e


X

b=

... () N 2 () N 2

b=

( X i Yi / N) ( X i /N) ( Yi /N) Xi ( X i /N) 2 N


X
2

, que pode ser escrito:

b=

( X i Yi /N) X Y

Xi - X2 N
( X i Yi /N) ( X i2 /N) .

Tomando-se a situao onde X = Y = 0 b =

Esses resultados sugerem a convenincia de escrever a estimativa de mnimos quadrados por meio de variveis que representam desvios em relao s mdias, sejam essas nulas ou no. Dessa forma, deve-se obter a transformao: xi = Xi - X e yi = Yi - Y , x i pois x = = 0 = y (so nulas as mdias das variveis que correspondem uma N transformao de defasagem em relao s mdias das variveis originais, pois: x=

(X i X) X i NX = = 0 ). N N N
Assim, reescrevem-se as estimativas dos parmetros de mnimos quadrados da

relao linear ajustada entre X e Y, antes da transformao, como:

b=

x i y i x i2

a = Y bX
onde o significado dessas estimativas de a e b : b dY dX razo da variao (marginal) em Y com a variao em X.

a Y = a, quando Xi = 0 tal concluso em geral no diz muita coisa sobre o evento observado, sendo apenas um valor para o intercepto da relao linear do ajuste feito. Para que essa informao tenha significado para a situao modelada, deve-se ter informao prxima de X = 0. Na Tabela 1 a seguir exemplifica-se a obteno dos valores de a e b, sendo os grficos da linha ajustada representados na Figura 7.

Tabela 1- Obteno das estimativas dos parmetros (introduzir planilha EXCEL) Y 4.0 3.0 3.5 2.0 3.0 3.5 2.5 2.5 X 21.0 15.0 15.0 9.0 12.0 18.0 6.0 12.0

xi = 0 yi = 0 xiyi = 19.50 xi2 = 162.00


b=

x i y i = 0,120 x i2

a = 1,375

= 1,375 + 0,12 X Y
Calcula-se: X = 13.5 e Y = 3.0

(R2 = 0.77; F1,6 = 21.2)

Regresso transformada Figura 7- Exemplo do ajustamento da linha de regresso e da linha de regresso transformada

Exerccio (casa) Prove que a linha de regresso estimada passa sobre o ponto de mdia ( X , Y ). Sugesto: mostre que X e Y satisfazem equao Y = a + bX, sendo a e b definidos como: b = N X i Yi X i Yi N X i ( X i )
2 2

a=

Yi b X i N N

4.

A Natureza Probabilstica do Modelo de Regresso

Para que se possa avaliar a qualidade da relao linear ajustada s informaes amostrais das variveis, preciso realizar testes estatsticos no modelo de regresso. Por exemplo, como realizar esses testes estatsticos no modelo de regresso de mnimos quadrados com uma varivel independente e uma varivel dependente? Para isso, preciso, em primeiro lugar, reconhecer a natureza probabilstica do modelo de regresso. Seja o exemplo da Figura 8, no qual observa-se que para um mesmo valor de X (renda) existem vrios valores de Y (gastos com alimentao). Isto se explica porque, embora a renda de grupos de indivduos esteja, por exemplo, em torno de R$ 60.000/ano, o meio e fatores aleatrios fazem existir uma significativa oscilao nos gastos com alimentao nessa faixa de renda.

X observados

i
Renda dos Indivduos Meio/ Fatores aleatrios Gastos com alimentao

Figura 8- Relao entre amostra de renda dos indivduos e seus gastos com alimentao Dessa forma, definem-se as variveis aleatrias Yi e Xi e, por hiptese, a verdadeira relao linear entre elas, como Yi = + Xi + i (Figura 9).
Yi = + Xi + i varivel aleatria Fixados (distribuio de probabilidade) TRUE MODEL (populao) erro aleatrio (omisso de variveis explicativas) (erro de coleta de dados)

Figura 9- A verdadeira relao linear ou true model entre as variveis aleatrias

O valor esperado E(Yi) = E( + Xi + i) = + X corresponde ao verdadeiro modelo, representado na Figura 10 a seguir. Embora Xi s tenham seus valores fixados, so variveis aleatrias com distribuio de probabilidades.

Figura 10 Natureza probabilstica das variveis do modelo de regresso 10

Assim, so pressupostos bsicos do modelo clssico de regresso linear a duas variveis: (i) (ii) (iii) Relao linear entre Y e X como descrita em Yi = + Xi + i Xi`s no-estocsticos e fixados (ser relaxado mais tarde) a) O erro i tem E (i) = 0 (zero) e E(i)2 = 2 (constante), para

todas as observaes. b)

i`s no correlacionados estatisticamente, de forma que: E (i j) = 0,

para i j. No caso de (iii), supondo-se E (i) = `, sendo ` um valor constante qualquer, pode-se escrever: Yi = + Xi + i + (` - `) = ( + `) + Xi + (i - `), definindo-se assim um novo coeficiente *.

i*

Obtm-se E (i*) como: E (i - `) = E (i ) E (`) = E (i ) - ` = 0 (!),

constante

ou seja: E (i*) = 0, mantendo vlidas as suposies do modelo de regresso clssico. As suposies (ii) (a) e (b) tratam de garantir a homocedasticidade (varincia do erro aleatrio constante) e a ausncia de correlao serial. No caso contrrio, tem-se a presena de heteroscedasticidade e correlao serial (Figuras 11 e 12): 1) 2) Presena de heteroscedasticidade: E(i2) no constante e igual a 2 Erros correlacionados relao linha ajustada) correlao serial ou autocorrelao,

onde E (i j) 0 (existe um padro na disposio dos dados em

11

Varincia decresce ou cresce (heteroscedasticidade) Figura 11- Exemplos de heteroscedasticidade

Correlao serial negativa Figura 12- Exemplos de correlao serial

Correlao serial positiva

s afirmaes acima deve-se acrescentar as seguintes observaes: * Corolrio de (ii) e iii (a) E (Xi i) = Xi E (i) = 0, ou seja: erro aleatrio no correlacionado com Xi, onde Xi`s so valores fixados. * E ( i) = E (i) = 0, que se refere a uma amostra de erros de uma populao, sendo que esses erros so no-correlacionados. Alm disso, so vlidas as seguintes suposies do modelo de regresso em termos da distribuio de probabilidade da varivel Y:

12

(iii) (a`) Y E (Yi) = + X VAR (Yi) = 2 , sendo , e 2 a determinar. (b`) Yi`s no correlacionados
5. Propriedades Estatsticas dos Estimadores

Assume-se que: (iii) c) O termo do erro normalmente distribudo (erros de medida e omisso de variveis pequenos e independentes entre si). Yi combinao dos i`s, normalmente distribuda, sendo: Yi = + Xi +i. X deve estar prxima ao = + Assim, a linha de regresso estimada Y
, so e verdadeiro modelo Y = + X, onde as estimativas de e , os estimadores

) e VAR ( ) (Figura 13). Para que ), VAR( ), E ( variveis aleatrias ou seja, tem E ( se possa entender melhor este ponto supe-se que se tenha N valores fixados de Xi, em uma determinada amostra (A1), de forma que se tenha Yi valores associados a esses N
) . valores de Xi. Com esses valores de X e Y, estima-se (

) / (

) E ( ) E (

e e

) , VAR ( ) . VAR (

) / (

populao Yi
A1 A2
Yi N Xi

X1

e Figura 13- A natureza probabilstica dos estimadores

13

Toma-se outra amostra de pares de valores Xi e Yi, obtendo novos N valores de Yi


) . Note-se que os associados aos N valores de Xi, com os quais estima-se um novo (

i`s so diferentes, sempre. Com esse procedimento, pode-se obter uma distribuio de
) , sendo: = x i y i com respectivos valor esperado e varincia, aos estimativas de ( x i2

. quais aplica-se os testes estatsticos. O mesmo raciocnio se estende ao estimador


6. Critrios de Avaliao dos Estimadores

So exemplicados a seguir quatro critrios de avaliao dos estimadores. 1) Ausncia de tendenciosidade (vis = 0)

) - , onde o verdadeiro parmetro Define-se o vis como: Vis = E ( (Figura 14).

Figura 14- Exemplo de vis Quando N nmero grande,


Xi estimador no-viesado da verdadeira mdia N
2

(X i X) da populao. Da mesma forma, observa-se que: estimador no-viesado da N 1


verdadeira varincia da populao, em cujo denominador tem-se N-1, pois X foi fixado para estabelecer os desvios. 2) Eficincia

14

) menor que a varincia de um estimador no-viesado eficiente se a VAR (

qualquer outro estimador no-viesado. Maior eficincia implica que so mais fortes as afirmaes estatsticas sobre os estimadores. Quando a varincia igual a zero (0), isto implica que se est tratando do parmetro verdadeiro da regresso. 3) Erro Quadrtico Mdio Mnimo (MSE)

) = E ( - ) 2 = E [ ( - ) + ( )] 2 = ... = VAR ( ) + [vis ( ) ]2, sendo MSE (


) = . E ( Observa-se uma interrelao (trade-off) entre vis e varincia para se obter maior preciso ou seja, o trade-off de maior preciso entre o vis e a varincia implicando pequena varincia e algum vis. 4) Consistncia

Este critrio diz respeito a quando o tamanho da amostra N tender a ser grande (Figura 15) verificar-se propriedades assintticas, definidas pelo limite em probabilidade ou p lim : de lim Prob (( | - |) < ) = 1 , de forma que: p lim = . p lim N

> 0, pequeno
Prob N muito grande

Pequeno N

Figura 15- Exemplo das propriedades assintticas com aumento do tamanho amostral Na prtica, o critrio de estimao a consistncia ou seja: estimador viesado mas consistente pode no ser igual ao valor de na mdia mas aproxima-se dele para N muito

15

grande. Como exemplo, usa-se N no denominador para obter estimador da varincia populacional, de forma a ter (X i X) 2 como um estimador viesado mas consistente da N

varincia populacional (base das estimaes robustas). Como alternativa para a consistncia pode-se ter por critrio: MSE 0 quando N , o que significa que se tem um estimador no-viesado assintticamente cuja varincia 0 quando N .
7. Obteno da Mdia e o Desvio Padro dos Melhores Estimadores Lineares No Tendenciosos ou Best Linear Unbiased Estimators (BLUEs)

so os estimadores de mnimos quadrados do modelo e Considerando-se que e de regresso Yi = + Xi + i, pelo Teorema de Gauss-Markov se estabelece que so os melhores (mais eficientes) estimadores lineares no tendenciosos de e no sentido de que esses estimadores tem varincia mnima em relao aos estimadores no so BLUEs. e tendenciosos de e , ou seja: O Teorema no se aplica a estimadores no-lineares. possvel que existam estimadores no-lineares no tendenciosos e com varincia menor que a dos estimadores de mnimos quadrados. Alm disso, um estimador tendencioso pode ter varincia menor que os estimadores de mnimos quadrados. Estimadores ditos robustos, no-lineares e tendenciosos, com mnimos MSE, tem sido estudados e utilizados em aplicaes prticas (embora no sejam objeto do presente estudo).
so variveis aleatrias, com respectivas e Como j visto, os estimadores

mdia e varincia. Considerando-se que x i = X i X e y i = Yi Y , = x y / x2 , E (yi) = xi e i i i


= c y . i i
i =1 N

pode-se escrever
xi de forma que x i2

onde definida a constante ci =

Assim: = c y = c (x + ) = c x + c i i i i i i i i i Obtm-se: (I)

16

) = c x + c E( ) E ( i i i i

0
) = c x = c x = , logo estimador no tendencioso, * E ( i i i i
x onde ci x i = i 2 x i =1 xi

(II)

De modo similar: - ) 2 ) = E ( VAR (


) , tem-se que VAR ( ) = E [ c x + c ]2 . Substituindo (I) em VAR ( i i i i

- - = c x + c = ( c x 1) + c Observa-se que i i i i i i i i De (II) tem-se que ci x i = 1 , logo - = c , sendo ( - )2 = ( c )2 i i i i - )2 = E [ c ]2 ) = E ( VAR ( i i


) = E [( c )2 + ( c )2 + ...] + E [(2c1c212) + ...] VAR ( 1 1 2 2

Ora, E (ij) = 0, i j, assim:


) = E ( c )2 + E ( c )2 + ... = VAR ( 1 1 2 2

= c12 E (1)2 + c22 E (2)2 + ... = = c12 12 + c22 22 + ... = 2ci2, pois, na presena de homocedasticidade, E (i)2 = cte = i2 = 2. Ora, ci2 =
2 1 xi = , logo: 2 2 2 ( x i ) xi

) = 2 / xi2 , xi = Xi - X VAR (

De forma similar pode-se obter que:


) = E (

17

X i2 ) = VAR ( 2 N (X i X)
2 2 ) = X , COV ( x i2

= c y uma combinao linear de variveis yi e se preciso remarcar que se i i uma varivel aleatria normalmente distribuda, o que yi normalmente distribuda, . Alm disso, observa-se que, de implica que os testes de hiptese so vlidos para acordo com o Teorema do Limite Central, se o tamanho da amostra cresce, a distribuio da mdia amostral de uma varivel independentemente distribuda tende para a normalidade. Com isso pode-se afirmar que, mesmo no caso dos yi no serem , ainda assim, assintticamente normal. normalmente distribudos, a distribuio de Ou seja, para amostras de grande tamanho:
2 ~ N , , de onde extrai-se o critrio amostral: maior varincia na amostra 2 xi

. de Xi leva a menor varincia de


2 2 Xi ~ N , , cuja varincia reduz-se a 2/N se X = 0 na amostra. 2 N xi

) = X , onde se observa que, se X > 0, superestimar , corresponde COV ( x i2 e vice-versa. a subestimar Observa-se que: 2 o verdadeiro valor da varincia do erro. Utiliza-se S2 como

2 de 2 ou seja: S2 = 2 = estimador no-viesado

X )2 i2 (Yi i . = N2 N2

8.

Aplicao de Testes de Hipteses e Intervalos de Confiana aos Estimadores

Define-se o intervalo de confiana como o intervalo de valores que contm, com uma determinada probabilidade (1-n.s.), ou um nvel de significncia estatstica (n.s.), os verdadeiros parmetros da regresso. Nele se baseiam os testes de hipteses estatsticas.

18

Em geral estabelece-se a hiptese nula ou seja, de que o efeito no est presente. Para o modelo ser explicativo, a hiptese nula deve ser rejeitada. Ao associar-se ao conjunto amostral um modelo de regresso, objetivo analisar os dados de forma a testar o modelo ajustado e avaliar a adequao de novos modelos. Desta forma, realizam-se os testes de hipteses, tendo resultados que podem levar a uma seqncia de testes de modelos. Ou seja: (a) Informao inconsistente com o modelo: Rejeio do modelo; novo modelo considerado. (b) Informao consistente com o modelo: Modelo aceito at que novas hipteses ou nova informao permitam novos testes. Os testes so aplicados a um nvel de significncia (n.s.). Por exemplo, o que significa: nvel de significncia de 5%? Significa que, se a hiptese nula for rejeitada neste nvel, fato que ela estava correta pelo menos 5% das vezes. O nvel de significncia pode ser compreendido como o ndice de erro aceito ao estabelecer o modelo de regresso (ou erro Tipo 1). O teste estatstico para rejeitar a hiptese nula associada ao coeficiente da regresso baseia-se usualmente na distribuio t de Students. valor verdadeiro (na populao). Para compreender a formao dos intervalos de confiana e o procedimento do teste, inicialmente obtm-se a estatstica t com N-2 graus de liberdade (considerando-se o modelo com dois estimadores) como: tN-2 =
. Constri-se em torno de estatstica tN-2 um intervalo de confiana tal que: -tc < tN-2 < tc , que tem (1-n.s.)% de probabilidade de conter o verdadeiro valor do parmetro, onde tc corresponde ao valor tabelado da estatstica t de Students para um nvel de significncia (n.s.) ou probabilidade (1-n.s.), com N-2 graus de liberdade (N o tamanho da amostra e 2 representa o nmero de estimadores). = , com a qual se obtm a padronizao do valor estimado S S/( x i2 )1/2

Essa distribuio

relevante pois nela utiliza-se a estimativa amostral da varincia do erro, ao invs de seu

19

Assim, seja por exemplo a probabilidade de 95% de que o valor padronizado pertena ao intervalo de confiana: Prob (- tc < tN-2 < tc) = 0,95 por exemplo, onde tc = 1,96, com N 2 liberdade, N tendendo a um nmero grande. graus de

< t Prob t c < = 0,95 significa que h 95% de probabilidade de c S/( x i2 )1/2 tc que est contido no intervalo entre S tc S . = 2 1/2 ( x i )

Da mesma forma, estabelece-se o intervalo: tc tc S = S ( X i2 )1/2 (N x i2 )1/2

O teste de hiptese definido de forma que: Ho = hiptese nula = 0, 0.

Hiptese alternativa

Nesse caso, sendo o valor padronizado: t c , sendo tc = 1,96, por exemplo. , se = 0 S S 1.96 condio de rejeio de Ho Como regra prtica: a 5% n.s., se
> 2 rejeito Ho. S

Deve ser remarcado que no rejeitar Ho no significa aceit-la. O procedimento de teste nos fala sobre a situao de rejeitar a hiptese nula (e aceitar a estimativa de ) quando na verdade a hiptese nula verdadeira em n.s. % das vezes. So exemplos de testes de hipteses para situaes com presena de sazonalidade: Caso 1

20

Ct = 1 + 2 Yt + t

no h variao do tipo sazonal, logo no h teste de hiptese para avaliar a presena de sazonalidade.

Caso 2 Ct = 1 + 2 Yt + Dt + t , onde Dt representa a variao sazonal. 1 guerra E (Ct) = 1 + 2 E (Yt) ou E (Ct) = (1 + ) + 2 E (Yt) Caso 3 Ct = 1 + 2 Yt + (Dt Yt) + t E (Ct) = 1 + 2 Yt ou E (Ct) = 1 + (2 + ) Yt Caso 4 Ct = 1 + 2 Yt + Dt + (Dt Yt) + t Os testes para =0 e para =0 avaliam se h mudana significativa entre diferentes perodos sazonais. teste: =0, verifica se a mudana significativa e altera a taxa de mudana em Ct associada a Yt. 0 paz 2 constante teste: =0, verifica se a mudana significativa entre diferentes perodos.

9.

O Coeficiente de Ajustamento ou Determinao:

Os resduos de uma regresso do uma medida da qualidade do ajustamento. Como regra, tem-se que:

21

Grandes resduos

ajuste ruim

Pequenos resduos bom ajuste Observe-se que os resduos tm unidade relativa ao problema. Intuitivamente, ao
( resduo ) 2 obter-se tem-se a gerao de parmetros para comparaes. esse raciocnio 2 y

que inspira a definio de uma medida de qualidade do ajustamento ou aderncia, o coeficiente de ajustamento R2 (ou coeficiente de determinao). Seja a Figura 16 a seguir, onde se tem a representao da linha ajustada a um conjunto de observaes de X e Y.

Figura 16- Obteno dos desvios entre a varivel observada, a linha ajustada e o seu valor mdio Analisando o valor Y, pode-se obter a variao total de Y como o somatrio do quadrado dos desvios das observaes em relao mdia amostral: Variao (Y) = (Yi Y) 2 , onde: ) + (Y Y) , Yi Y = (Yi Y i i De forma que:

22

2 ) 2 + (Y Y) 2 + 2 (Y Y )(Y Y) (Yi Y) = (Yi Y i i i i i

variao total de Y (TSS)

i y

variao variao residual explicada de Y de Y (no explicada) (RSS) (ESS)

x i = y i x 2 i i 0

De forma simblica, escreve-se: TSS = ESS + RSS Regresso Erro Total Dividindo-se os dois lados da equao por TSS (a variao total de Y): 1= ESS RSS + TSS TSS

Define-se o coeficiente de ajustamento R2 como a relao entre a variao de Y explicada pela regresso e a variao total. Assim, R2 = 1 ESS RSS = , sem , 0 R2 1. TSS TSS Na Figura 17 so

Observe-se que R2 funo dos parmetros estimados. que a relao linear no se ajusta aos dados amostrais (b).

representadas duas situaes-limite para o valor de R2: ajustamento perfeito (a), e caso em

Figura 17 Exemplos de situaes-limite do ajustamento

23

Uma outra maneira de se obter R2 mostrada a seguir. Seja: y i = Yi Y ; x i = X i X x i = y i i yi = yi + Resduo da regresso

2 i2 + 2 y i i2 + i yi = y

x 2 i i x 2 i i =0 (nas equaes normais da regresso)

2 yi =

2 x2 i

0 = 0 ), onde i2 + ( 2 +

2 x 2 = y2 - i2 . i i i 2 e yi 2 , ou seja, as Lembrando que o coeficiente de ajustamento funo de y Y) 2 e (Y Y) 2 , e considerando-se a relao anterior obtida: variaes (Y i i
(explicado)

R =

i2 2 x i2 i2 RSS y 2 => R = = = 1 2 2 TSS y i2 yi yi


(total)

10.

Interpretao da Variao em Y em termos da Anlise de Varincia

As medidas relativas a TSS, RSS e ESS devem ser convertidas em varincias, por sua diviso pelos graus de liberdade associados ao processo de sua obteno. Assim, Varincia total em Y = TSS N 1 mdia Varincia explicada em Y = RSS 1

24

Xi Varincia residual em Y = ESS N2


X,

ou ,

Define-se a relao de varincias:

varincia explicada , como uma boa varincia no explicada

medida (complementar ao coeficiente de determinao) da qualidade do ajustamento, permitindo que se avalie a existncia de relao linear em Y e X. Essa medida permite que se aplique o teste estatstico da equao de regresso. O teste da equao de regresso que testa a existncia de relao linear entre Y e X baseia-se na estatstica F de Snedecor associada essa relao de varincias. Assim, obtm-se a estatstica F1,N-2, com 1 e N-2 graus de liberdade, como: F1,N-2 = varincia explicada RSS/1 = , varincia no explicada ESS/N 2

S2 que segue a distribuio F com 1, N-2 graus de liberdade no numerador e no denominador, respectivamente. F1, N-2 = 2 x2 RSS i =0, F1, N-2 = 0 somente quando 2 1 S
2

i onde S = N-2
2

F1, N-2 pequenos Relao linear fraca Relao linear forte F1, N-2 grandes

Como orientao,

Dessa forma, estabelece-se o teste da equao de regresso onde: Hiptese Nula (H0): Relao linear no explicada (F1, N-2 = 0)

25

Os valores da distribuio F esto tabelados, onde se obtm valores de Fcrtico (Fc). Dessa forma, Tabela F1, N-2 Fc n.s. % 1, N-2 graus de liberdade se F1, N-2 > Fc rejeito Ho se F1, N-2 < Fc no posso rejeitar

11.

O Modelo de Regresso Mltipla

O caso geral de modelo de regresso mltipla significa que existem vrias variveis Xi explicativas da variao em uma outra (Yi). Assim, escreve-se o modelo de regresso mltipla a k variveis ou parmetros: Yi = 1 X1i + 2 X2i + ... + k Xki + i onde X1i = 1 i = 1,2,, N 1, 2, ... k so os coeficientes parciais da regresso.

So vlidas as seguintes suposies para o modelo: i) A especificao do modelo linear No h relao linear exata entre os X`s (seno:

ii) X`s no-estocsticos. multicolinearidade). iii) E (i) = 0 E (i)2 = 2 E (i . j) = 0, i j i ~ N [0, 2]

Por simplicidade, considere-se o modelo a 2 variveis independentes: + X + X = Yi = 1 + 2 X2i + 3 X3i + i Y i 1 2 2i 3 3i E (Yi) = 1 + 2X2i + 3X3i E (Yi)2 = 2 2 = S2

Os coeficientes da regresso podem ser obtidos por: 26

= Y X X 1 2 2 3 3 = ( x 2i y i )( x 3i ) ( x 3i y i )( x 2i x 3i ) 2 2 2 ( x 2i ) ( x 3i ) ( x 2i x 3i ) 2
2

= ( x 3i y i )( x 2i ) ( x 2i y i )( x 2i x 3i ) 3 2 2 ( x 2i ) ( x 3i ) ( x 2i x 3i ) 2
2

sendo que as estimativas das varincias podem ser obtidas por: S


2 j

= ...

E[(b 2 2 ) ] =
2

2 2 2 2 x 3i [ x 2 2i x 3i ( x 2i x 3i ) ] 2 2 2 [ x 2 2i . x 3i ( x 2i x 3i ) ]

j = 1, ..., k k=3 =
2 2 x 3i 2 3i

x x
2 2i

( x 2i x 3i ) 2 2 x2 2i
2 3i

=b 2 2
=b 3 3

E[(b3 - 3)2] = ... =

x x
2 2i

( x 2i x 3i ) 2

Pode-se demonstrar tambm que: E[(b1 1 ) 2 ] =


2 2 2 [ X 2 2i X 3i ( X 2i X 3i ) . , sendo b1 = 1 2 2 N [ x 2 x ( x x ) ] 2i 3i 2i 3i

Cov (b2, b3) = (a)

2 x 2i x 3i 2 2 x2 2i x 3i ( x 2i x 3i )

A Significncia dos Coeficientes do Modelo de Regresso Mltipla

A derivao das estatsticas dos estimadores no modelo de regresso mltipla obtida atravs da lgebra Matricial. Apresenta-se a seguir sumrio dos resultados mais relevantes: i) Os estimadores de mnimos quadrados de j, j = 1, ... , k so BLUEs Quando o erro ~ N (0, 2), estes estimadores so tambm os estimadores de mxima verossimilhana.

27

ii) iii) forma que:

S2 =

i2 Nk

uma estimativa consistente e no-viesada de 2.

Quando o erro normalmente distribudo, testes t podem ser aplicados pois

os valores padronizados dos parmetros j seguem essa distribuio de probabilidade de

j j S j (b) Seja:

~ tN-k, j = 1, ..., k

Avaliao da Qualidade do Ajustamento: Teste F, R2 e R2 Corrigido

Yi = 1 + 2 X2i + ... + i, com k variveis ou k parmetros ) + (Y Y) Yi - Y = (Yi Y i Total = Residual + Explicada ) 2 + (Y Y) 2 (Yi - Y) 2 = (Yi Y i i O coeficiente de ajustamento: R2 =

TSS = ESS + RSS

Y) 2 i2 RSS (Y i 1 = = TSS (Yi Y) 2 (Yi Y) mede a qualidade do ajustamento

Algumas questes se impem ao uso isolado do R2 como medida do ajustamento. Entre elas: 1) 2) Em sua obteno parte-se do pressuposto da boa especificao R2 depende do nmero de variveis independentes. A adio de varivel independente pode no ser adequada, mas no deve baixar R2 Alm disso, o uso isolado do R2 tem valor limitado, pois pode ocorrer bom ajustamento (leia-se aqui: bom R2) do modelo global porque variveis independentes esto fortemente correlacionadas entre si, com baixos valores de t e altos desvios padro individuais.

28

Para avaliar a significncia do R2 realiza-se o teste F

k-1, N-k

, com k-1 e N-k graus

de liberdade no numerador e denominador, respectivamente, representando o nmero de variveis independentes e o grau de variao no explicada. Para realizar o teste de hiptese Fk-1, N-k, obtm-se: Fk-1, N-k = R2 N k 1 R 2 k 1

Define-se medida complementar da qualidade do ajustamento: R2 corrigido ou R 2 , que obtido, por definio, em funo de varincias.
S
2

2 i

Nk

R2 = 1 -

) var( var(Y) (Yi Y) N 1


2

Note-se que: Variao no explicada i2 S 2 (N k) igual a 1 R =12 var(Y) (N - 1) (Yi Y)


2

Variao total Assim, pode-se derivar a relao entre R2 e R 2 : R 2 = 1 (1 R2) 1. 2. N 1 (N>k), para a qual: Nk

k = 1 R2 = R 2 k > 1, R2 R 2 , sendo que R 2 pode ser negativo.

R 2 sensvel informao usada para estimar k parmetros.

29

(c)

Comparando Modelos de Regresso

Seja o R 2 obtido por: S2 R2 = 1 ) Var( S2 -, onde (1 - R 2 ) = 2 e S2 = (1 - R 2 ) S 2 Y. Var(Y) SY S2 Y A equao de S2 permite concluir que S2 decresce se R 2 aumenta, pois S 2 Y (varincia de Y) depende de Yi e Y e independe do modelo formulado. Neste ponto so necessrias algumas consideraes. Por exemplo, R2 1 indica bom modelo explicativo. Mas qual seu valor na previso? Para nortear essa resposta, deve ser destacado que R2 deve aumentar ao adicionarse uma varivel explicativa pouco importante ao modelo, mas se esse aumento ocorrer com um decrscimo em R 2 e um aumento em S2 (impacta a varincia do erro de previso; significa perda de preciso do modelo de previso), essa varivel no deve constar da formulao definitiva do modelo. Nota-se que a adio de uma varivel explicativa (k cresce) ir diminuir a
N ) 2 ) , entretanto a varincia S2 = ESS variao no explicada em Y (ESS = (Yi Y i =1 Nk

poder diminuir ou aumentar (depende da variao do numerador e do denominador).

(d)

Construindo Modelos de Regresso com o Mtodo de Mxima Melhoria em R2 (MAXR)

O Mtodo da Mxima Melhoria em R2 composto de etapas sucessivas para ajustar modelo composto de n variveis explicativas aos dados: Y Xi ... Xn

30

Etapas: 1) Avaliao dos coeficientes de ajustamento dos modelos a 2 variveis:

X R2 =a 1 + b Y 1 1,1 1 . . . X R2 =a 2 +b Y 2 1,2 2 . . . X R2 =a n +b Y n 1, n n Assim,


x =a +b Y 1 t

Busca do maior R2: X =a +b Y 1 t b = b do modelo com o maior R2


1 1, t

modelo a duas variveis

2)

Modelos a 3 variveis:

X +b X , novo modelo, onde Xp a varivel associada ao maior R2 =a +b Y 1 t 2, p p (valor abaixo do R2 do modelo escolhido na etapa anterior). Estratgia: Troca-se cada varivel no modelo (Xt e Xp) com cada varivel fora do modelo, de forma a saber se haver uma troca de varivel (entre as dentro e as fora do modelo) que ir melhorar o R2 do modelo. Resultado: Novo modelo a trs variveis. 3) Modelos a 4 variveis:

Toma-se o melhor modelo a trs variveis e adiciona-se uma nova varivel (aquela associada ao maior R2 na etapa 1, por exemplo). Procede-se troca entre as trs variveis de dentro com as de fora do modelo. A composio com maior R2 novo modelo a 4 variveis. 4) Repete-se o procedimento, at obter o modelo a n variveis.

31

Exerccio 1 - Regresso Estabelea, com suas palavras, um paralelo entre o mtodo MAXR e o processo de comparao de modelos a partir de R2, R 2 e S2, considerando-se o modelo de vendas do detergente Fresh (30 observaes semanais) (Bowerman e OConnel, 1987), onde: Yt centenas de milhares de embalagens vendidas em cada perodo de observaes t; xt1 preo (US$) do detergente Fresh no perodo t; xt2 o preo mdio dos detergentes competidores (US$); xt3 o gasto em propaganda no perodo t (em centenas de milhares de US$); xt4 xt2 xt1 diferena de preos entre a mdia do mercado e o Fresh; xt5
x t2 razo entre preos (alternativa a xt4). x t1

O modelo a quatro variveis independentes (ou a 5 variveis):


v1 ( linearizado) ...)

v2 Yt = o + 1xt4 + 2xt3 + 3 x2t3 + 4 xt4xt3 + t tem as seguintes estatsticas associadas: 1. 2. 3. ESS = 1,0644 Variao Explicada = 12,3942 R2 = Variao Explicada 12,3942 = = 0,9209 Variao Total 13,4586 ESS 1,0644 1,0644 = = = 0,0426 N k 30 5 25

4.

S2 =

5.

k 1 N 1 R 2 = R 2 = N 1 N k 5 1 30 1 = 0,9029 = 0,9083 30 1 30 5

O mesmo que R 2 =1 (1 R 2 ) Adicionando-se a varivel independente

N 1 Nk xt4 x
2

N>k v3
t3

32

Yt = o + 1xt4 + 2xt3 + 3 x2t3 + 4 xt4xt3 + 5 xt4 x2t3 + t 1. 2. 3. ESS decresce para 1,0425 Variao explicada pelo modelo cresce para 12,4161 R2 (cresce) = 12,4161 = 0,9225 13,4586 ESS 1,0425 = = 0,0434 N np 30 6

4. 5.

S2 (cresce) = R 2 = 0,8701

Embora R2 cresa, S2 cresce e R 2 diminui, logo o poder preditivo decresce, desaconselhando a manter a nova varivel independente no modelo.

33

Exemplo: DATA (QUATERLY, 1954-1 at 1971-4, em US$) mod I Ct = 1 + 1 yt + 1t mod II Ct = 2 + 2 yt + 2Ct-1 + 2t

Funo de con.s.umo (Ct)

Variveis independentes: yt renda disponvel, Ct-1 con.s.umo no perodo anterior.

Modelo III St = Yt - Ct varivel dependente representando renda disponvel aps con.s.umo (savings function). St = 3 + 3Yt + 3t

Modelo I
Cresceu pois no h multicolinearidade

Coeficientes 1
1

Valores 14,51

Estatstico t 7,03

0,88 ESS = 966,50 5,52 0,31 0,65 ESS = 440,70 -14,51 0,12 ESS = 966,5

173,06 SER = 3,72 3,06 4,85 8,78 SER = 2,55 -7,03 24,57 SER = 3,72

disposio ao con.s.umo

Modelo II

R2 = 0,9977 2
2

2 y

R = 0,9989
Modelo III
2

0,31 = 0,88 (1 0,65) significante

3
3

R = 0,8961

Abaixou em relao ao R2 mod. I

12.

Consideraes Adicionais: a Correlao Parcial

As correlaes parciais variam no intervalo [-1,1]. importncia relativa das variveis independentes no modelo. Seja: Yi = 1 + 2 X 2i + 3 X 3i + i .

Elas so medida de

34

O coeficiente de correlao parcial entre Y e X2 mede o efeito de X2 em Y sem levar em conta outra varivel do modelo. Os passos para sua obteno so: 1. 2. 3. Regresso Y em X3 Regresso X2 em X3
= 1 + 2X3 Y = 1 + 2X3 X 2

Remover influncia de X3 em Y e X2 Assim, obtm-se: Y* = Y Y X2* = X2 - X 2

4.

A correlao parcial entre X2 e Y a correlao simples entre Y* e X2*.

Conhecendo-se a definio de correlao parcial, pode-se derivar a relao entre a correlao parcial e a correlao simples ( rYX 2 , rYX 3 , rYX 3 ), de forma que: rYX 2 .X 3 rYX 2 rYX 2 .X 3 =
rYX 2 rYX 3 . rX 2 X 3
2 2 (1 rX )1/2 (1 rYX )1/2 2X3 3

, onde:

rYX 3 rX 2 .X3

rYX 2 .X 3 o coeficiente de correlao parcial

possvel tambm derivar a seguinte relao entre o coeficiente de ajustamento R2, que mede a mltipla correlao no modelo, e a correlao parcial:
2 rYX . = 2 X3

R 2 r 2 YX 3 ou 1-R2 = (1 r 2 YX3 ) (1 r 2 YX 2 .X 3 ) 2 1 r YX 3

Observa-se uso freqente do coeficiente de correlao parcial como apoio nas escolhas do procedimento de composio do modelo de regresso denominado Stepwise (as variveis adicionadas ao modelo devem maximizar R 2 ). Esse coeficiente d medida do impacto de cada varivel independente sobre a varivel dependente, sendo particularmente til com grande nmero de variveis independentes.

35

13. Teste de Chow: um Teste para a Estabilidade Estrutural dos Modelos

importante saber se a estabilidade estrutural do modelo se mantm ao longo do tempo em que se obtm informaes de suas variveis. O teste de Chow um teste da estatstica F que permite avaliar se um modelo adequado a um conjunto de informaes continua vlido para valores mais recentes amostrais. O procedimento do teste o seguinte: Combinar todas as (N1 + N2) informaes e ajustar um modelo de regresso a esse conjunto amostral. Calcular a soma do quadrado dos resduos (ESS0) com N1 + N2 k graus de liberdade, onde k o nmero de parmetros estimados (incluindo o termo constante). Ajustar dois modelos aos N1 e N2 subconjuntos amostrais, que no precisam ser de mesmo tamanho, calculando as respectivas somas do quadrado dos resduos (ESS1 e ESS2), com graus de liberdade N1-k e N2-k. Adicionar as somas do quadrado dos resduos desses dois subconjuntos amostrais e subtrair essa adio do valor ESS0 inicialmente calculado (modelo ajustado ao conjunto total de dados). Calcular a estatstica F:
F=

{ESS 0 ( ESS1 + ESS 2 )} / k , com k e N1 + N2 k graus de liberdade. ( ESS1 + ESS 2 ) /( N 1 + N 2 2k )

Se o valor da estatstica F for significativo a n.s. % , a hiptese de que no existe significativa diferena entre os modelos deve ser rejeitada e pode-se concluir que o modelo completo estruturalmente instvel. Observe-se que: S2 = ESS , onde ESS soma do quadrado dos resduos e S2 a Nk

estimativa amostral da varincia do erro para amostras de tamanho N.


14. O Modelo de Regresso Mltipla com Variveis Explanatrias Estocsticas

Suposio: Xs ~ distribuio de probabilidade. So pressupostos: 1. A distribuio de cada varivel explanatria independente dos verdadeiros parmetros de regresso.

36

2. Cada varivel explanatria distribuda independente dos verdadeiros erros no modelo. Pode-se afirmar que as propriedades dos estimadores de mnimos quadrados ordinrios (MQO) de consistncia e eficincia permanecem para grandes amostras, no sendo afetadas na condio de que os valores das variveis independentes e os erros sejam independentes um do outro. Os parmetros de regresso estimados so estimados condicionados a determinados valores de X`s. Sob os pressupostos acima, continuam a ser estimadores de mxima verossimilhana.
15. Violao dos Pressupostos Bsicos do Modelo de Regresso Clssico

preciso determinar quando os pressupostos so violados e quais os procedimentos de estimao so adequados nesses casos. Sejam exemplos de violao: 1) Em relao forma funcional: Yi = 1 + 2X2i + ... + k Xki + i erro de especificao erro de construo do modelo 2) Em relao s variveis explanatrias: X`s mdia e varincia finitas no correlacionadas com erros

(varivel estocstica) erros de medida soluo atravs de variveis instrumentais

no existe relao linear entre Xs forte relao linear entre variveis explanatrias (multicolinearidade) 3) Em relao ao pressuposto de normalidade dos resduos: i ~ N (0, 2) e distribudos independentemente E ( i) 0 muda intercepto (*)

ausncia de normalidade: os estimadores de MQO permanecem noviesados e consistentes mas nada se pode dizer sobre a verossimilhana.

37

Nesse caso diz-se que os testes so aproximadamente vlidos ou seja, so vlidos quando o tamanho da amostra N . Outras violaes so os casos de heteroscedasticidade e correlao serial, discutidos a seguir.
16. O Problema da Multicolinearidade

Uma forma de detectar multicolinearidade atravs da porcentagem de variao explicada (RSS/TSS) associada a alguma varivel sendo introduzida no modelo de regresso. Se a porcentagem RSS/TSS decrescer, a multicolinearidade explica este fato. Como regra prtica, quando o coeficiente de correlao simples entre duas variveis aleatrias independentes for 0,7, isso significa indcio de problema de multicolineariedade. A multicolinearidade um problema associado amostra de dados. A presena da multicolinearidade implica que h pouca informao na amostra para dar confiana na interpretao da situao em anlise. Se existe multicolineariedade, os resultados da regresso podem estar errados. Passos para avaliar a multicolineariedade: Passo no 1: Testar nova amostra de dados. H indicao de multicolineariedade, por exemplo, quando o teste t indica insignificncia estatstica dos estimadores e R2 ou estatstica F so altos. Passo no 2: Nessa situao, a matriz de correlao deve ser investigada. Todas as variveis independentes altamente correlacionadas devem ser retiradas exceto uma. Embora essa seja uma soluo, h perda de valor dos estimadores dos parmetros. importante ressaltar que: 1. possvel haver variveis independentes altamente correlacionadas (altos

coeficientes de correlao) e a regresso no ter problemas de multicolinearidade. 2. Se o teste t indicar significncia do estimador, sinal que a

multicolinearidade no sria para fins de previso.

38

Entretanto na presena de multicolinearidade os parmetros individuais no so valores satisfatrios. O exame dos desvios padro dos coeficientes pode indicar se a multicolinearidade est causando problemas. Assim, se vrios coeficientes tem altos desvios padro e, ao retirar-se duas ou mais variveis do modelo, observa-se baixarem os desvios padro, a multicolinearidade provavelmente a origem disto. Uma outra regra prtica, vlida para o caso de duas variveis independentes: Se a correlao simples entre duas variveis independentes for maior que a correlao de pelo menos uma delas com a varivel dependente, a multicolinearidade um problema. A multicolinearidade um problema computacional que se amplia quando duas ou mais variveis independentes esto altamente correlacionadas (nos clculos aparece a indeterminao 0/0). (a) Explicao do Problema

Considere-se o modelo: Yi = 1 + 2 X 2i + 3 X 3i + i , i = 1, ..., N

No caso extremo, por exemplo, tem-se: X 2i = + X 3i , uma relao exata. Se essa relao for conhecida: no h problema. Essa relao pode ser reescrita: x 2i = x 3i , x 3i = X 3i X 3 , por exemplo. Dessa forma,
2 2 y i x 3i x 3i y i x 3i x 3i 0 0 indeterminao. 2 = = e 3 = ... = 2 2 2 2 2 2 0 0 ( x 3i ) ( x 3i ) 2 2 x 3i 2 = , onde r23 o coeficiente de 2 2 2 x2 x2 2i x 3i ( x 2i x 3i ) 2i (1 r 23 )

fazendo

x 2i = X 2i X 2

) = Var ( 2

correlao simples entre X2 e X3, de forma que: r23 =


x2x3

( x x )
2 2 2 3

1 2

(Thomas, (1978), pgs. 132, 217).

39

) e Var ( ) , a aplicao Como r23 1 (alta correlao), e Var ( 2 3 dos mnimos quadrados falha neste caso. O problema da multicolinearidade razoavelmente fcil de reconhecer, mas difcil de resolver, pois exige solues como a retirada de variveis explicativas do modelo, o que no deve ser feito sob risco de retirar-se importante varivel por causa de seu baixo valor de t. Quando o modelo projetado para a previso, muitas vezes prefervel manter no modelo as variveis que a teoria indica que explicam a varivel independente e que sejam fceis de prever. Uma vez que a multicolinearidade tenha sido resolvida, deve-se verificar se outros pressupostos do modelo clssico foram violados.
17. O Problema de Heteroscedasticidade

A heteroscedasticidade ocorre quando as varincias so variveis.

Seja por

exemplo os gastos de indivduos de renda baixa e alta. esperado que exista uma impossibilidade de variar no caso de renda baixa e uma grande variabilidade nos gastos de indivduos de renda alta, com excedente em relao aos gastos obrigatrios mensais (Figura 18). baixa Gastos de indivduos de renda alta Figura 18- Variabilidade nos gastos de indivduos de acordo com a renda Em conjuntos de dados de sries temporais, raro observar-se a heteroscedasticidade, pois a relao com tempo. Entretanto, ela frequente em conjuntos de dados de corte transversal, como o exemplo citado acima. Na presena de heteroscedasticidade, assume-se; i ~ N (0, 2i) Var(i) = E(i2) = 2i

40

Em presena de 2i, o procedimento de MQO d maior peso, naturalmente, s observaes com maiores varincias, o que leva a estimadores no-viesados e consistentes, mas que no so eficientes (varincias do MQO no so as mnimas). , onde Y X ou, com a transformao de variveis, = + Na derivao de i i x , y = x + , logo y = y i = i + i , y i i i i i = x i yi x i2 + x i i x i2

) = + E( x i i ) = , logo 2 no importa na derivao do valor esperado. E ( i x i2


2 ) = , 2 no pode ser concludo. O uso da Entretanto, na derivao de Var ( x i2

) = expresso Var (

2 para obteno da varincia do estimador leva a estimativas x i2

tendenciosas das verdadeiras varincias e a aplicao dos testes a resultados incorretos. Dessa maneira so definidos procedimentos para a correo e teste da heteroscedasticidade. (a) Procedimentos para correo da heteroscedasticidade Varincias so conhecidas

Caso 1:

Var(i) = i2 conhecidas a priori. Uso dos Mnimos Quadrados Ponderados (caso especial dos mnimos quadrados generalizados). Seja o modelo a duas variveis: X = + Y i i
X Y i min i i
2

ou min

x y i i i

= x i yi , * (x i ) 2

xi =

xi i

yi =

yi , i

onde primeiro obtm-se a transformao das variveis dividindo-as por i, para em seguida subtra-las dos seus valores mdios.

41

No caso do modelo de regresso mltipla, obtm-se:


Yi =
* *

X ji Yi * * , X ji = , i = i , j = 1, ..., k i i i
* * * *

Yi = 1 X 1i + 2 X 2i +...+ i , onde X 1i =

1 ou seja, a equao ajustada no tem i

Var( i ) i2 intercepto, sendo que: Var(i*) = Var i = = 2 = 1. i2 i i

Caso 2:

Varincias desconhecidas mas estimadas nas amostras

Seja a Tabela 2, onde so tabulados os gastos com a casa de indivduos, agrupados em grupos de acordo com a variao nesses gastos, com as faixas de renda familiar variando entre R$ 5.000,00 e R$20.000,00. Aps proceder anlise dos dados em que observa-se que os gastos variam diferentemente por cada uma das faixas de renda, obtmse as varincias desses gastos por grupo, o que apresentado na Tabela 3. Tabela 2 Grupos 1 2 3 4 (Yi) gastos com a casa ($1.000) 1,8 2,0 2,0 2,0 2,1 3,0 3,2 3,5 3,5 3,6 4,2 4,2 4,5 4,8 5,0 4,8 5,0 5,7 6,0 6,2 R2 = 0,93 (Xi) renda familiar ($1.000) 5,0 10,0 Yi = + X i + i 15,0 20,0 F = 252,7

Yi = 890,0 + 0,237 Xi (4,4) (15,9) estimativa de MQO

Anlise do Dados (plotar) Heteroscedasticidade

As varincias estimadas por grupo representam uma possibilidade de correo para o Caso 2. A correo sugerida sege a correo do Caso 1, por exemplo. Tabela 31 2 3 4 Varincias estimadas por grupo 9.800 50.400 102.400 302.400

A correo sugerida segue a correo do Caso 1. 42

Caso 3:

Varincias do erro variam diretamente com uma varivel independente

Assume-se: Var(i) = C Xi2 uma das variveis independentes 0 Por exemplo: Var(i) = C X 2 2i em Yi = 1 + 2 X 2i +...+ k X ki + i onde a transformao das variveis do modelo define o novo intercepto:
2 X 2i =2 . X 2i

Aplica-se os mnimos quadrados ponderados com as variveis:


Yi =
*

Yi X 21

X ji =

X ji X 21

i =

i X 21

onde: Var(i*) = Var

Var( i ) i = =C 2 X 2i X 2i

A estimao com dados do exemplo do Caso 2 permite obter:


Yi 1 * = * + * + i Xi Xi Yi 1 = 0,249 + 752,9 Xi Xi

R2 = 0,76 Houve

F = 58,7 na varivel

transformao

dependente (R2 no deve ser comparado ao anterior). (b) Testes para Verificar Heteroscedasticidade

Hiptese Nula (Ho): 12 = 22 = ... = N2, em N observaes (Homocedasticidade) Hiptese Alternativa: Heteroscedasticidade Teste 1: Passos do teste: Teste de Bartlett (a partir dos dados amostrais).

43

1 Ng 1. Estima-se Sg2 = (Yi Y) 2 para cada grupo de observaes, g = 1, 2, ..., G, Ng i =1


2 g onde: Sg2 = G G

N log [ (N g /N) S g ] N g log S g 2. Teste S, sendo S =


g =1 g =1 G g =1

1 + [1/3 (G 1) ][ (1/N g ) (1/N)]

3. Na situao de homocedasticidade S ~ Qui-quadrado com (G-1) graus de liberdade Hiptese Nula: Varincias iguais em todos os grupos Se S > Scrtico (tabela 2) 4. Rejeio de Ho rejeito Ho

modificao de MQO

No exemplo do Caso 2: S = 10,7 Scrtico, 3 graus de liberdade = 7,81, 5% n.s.

Teste 2:

Teste de Goldfeld-Quandt

Hiptese Nula: Homocedasticidade Hiptese Alternativa: i2 = C Xi2

44

Procedimentos gerais do teste: Linha de regresso com dados

associados s baixas varincias * Clculo de duas linhas de regresso + linha de regresso com dados associados s grandes varincias Assim: 1. Ordenao dos dados de acordo com a magnitude de uma das variveis independentes (relacionada magnitude da varincia do erro). 2. Omite-se d informaes centrais (d 1/5 N), e ajusta-se 2 regresses aos e (N d) k graus de liberdade. 2 Nd dados 2

3 Calcula-se ESS1 (menores valores) e ESS2. Erros normalmente distribudos Erros no correlacionados serialmente

4. Pressupe-se

ESS 2 distribuio F[N-d-2k)/2 graus de liberdade no numerador e no denominador] ESS1

Se

ESS 2 > Fcrtico ESS1

rejeito Ho

Ao utilizar-se maiores valores de d, melhora-se o teste.

45

Seja o mesmo exemplo anterior (em que d = 0): 1. Rendas menores ($5.000 e $10.000) Yi = 600,00 + 0,276 Xi (3,1) R2 = 0,94 2. (11,3) ESS1 = 3,0 x 105

Rendas maiores ($15.000 e $20.000)


ESS 2 =6,7 ESS1 Fcrtico = 6,03 (8,8) graus de liberdade 6,7 > 6,3, logo, rejeito Ho

Yi = 1.540,0 + 0,20 Xi (1,4) R2 = 0,55 (3,1) ESS2 = 20,2 x 105

Teste 3:

Teste de White

O procedimento do teste de White determina que, em um primeiro passo, se avalie o ajustamento entre os resduos da regresso original estimada e as variveis explanatrias formuladas conforme o modelo: i2 = + X i2 + Z i2 + Xi Zi + i, que permite no-linearidades e para o qual se obtm o coeficiente de ajustamento ou determinao R2, sendo que Zi e Xi correspondem s variveis explanatrias da regresso original das quais se suspeita serem a origem da heteroscedasticidade. Em seguida obtida a estatstica Qui-quadrado para o teste, em que se calcula o valor: 2 = N R2, onde N o tamanho da amostra que ajustou a regresso que deu origem aos resduos i2 . Se N R2 for um valor significativo com p graus de liberdade e (1-n.s.)% de probabilidade significa que o modelo sugerido para relacionar o quadrado dos resduos e as p variveis explanatrias indica heteroscedasticidade (no modelo formulado, p=3).

46

Por exemplo, se Xi for a nica varivel da qual se suspeita ser a origem da heteroscedasticidade, deve-se calcular a estatstica 2 para o modelo: a) i2 = + X i2 + i , e avaliar sua significncia com 1 grau de liberdade, ou b) Sugere-se que o modelo inclua as variveis explanatrias X i e X i2 , e o teste seja feito com 2 graus de liberdade.

47

Exemplo Considere-se o modelo de regresso estimado:


+ DI + IS + I + E + P (highly trended time-series). D = S t 1 2 t 6 3 t 1 4 t 1 5 t 1 6 t 1

N = 88 S = 263,4

graus de liberdade = 82 R2 = 0,93 R 2 = 0,92 F5,82 = 220,6

Soma dos (Resduos2) = 5,7 x 106

Coeficiente

Valor

Desvio Padro

Mdia

Coeficientes parciais (de correlao)

1 2 3
4

12.091,0 0,109 -1.690,3 -76,2 5.585,6 -175,6

2.321,0 0,06 483,6 65,6 974,4 34,4

5,2 1,8 -3,5 -1,2 5,7 -5,1

1,0 15.507,9 1,96 5,28 2,96 105,1 0,19373 -0,36010 -0,12719


0,53486

5
6

-049147

(coef. corr. parcial)2 = (0,53)2 = 0,28 da varincia da varivel dependente SD.

Exerccio: Questo 1 escolher uma srie sazonal e estimar seus parmetros, R2, testes, ...

48

18.

O Problema da Correlao Serial

Na anlise de dados de sries temporais, principalmente, freqente a correlao entre os termos de erro em perodos de tempo adjacentes. A presena de correlao serial de 1 ordem significa que os erros em um perodo esto correlacionados diretamente aos erros no perodo seguinte. Por exemplo, a previso superestimada de taxa de vendas para um perodo provavelmente induz a superestimativas dos perodos seguintes (exemplo de correlao serial positiva). A correlao serial entre termos de erro positiva, na maioria das sries temporais. Isto deve-se, por exemplo, ao efeito de variveis omitidas ou erros de medida. Como regra geral, a presena de correlao serial no afeta a no-tendenciosidade e a consistncia dos estimadores de mnimos quadrados (MQO) mas afeta a eficincia (varincia). No caso de correlao serial positiva a perda de eficincia mascarada pelo fato de que as estimativas dos desvios padro obtidas (pelo MQO) so menores que os verdadeiros desvios padro (desvio padro viesado para menos). Com isso os parmetros da regresso podem ser considerados mais precisos do que realmente so. Alm disso, o intervalo de confiana mais estreito, fazendo com que a hiptese nula seja rejeitada quando ela no deveria s-lo. Intuitivamente, as duas situaes da Figura 19 ocorrem:

Figura 19- Exemplos de ajustamentos de modelos de regresso a dados serialmente correlacionados (positivamente) No caso de correlao serial positiva, R2 melhor do que deveria ser. Como representado na Figura 19, so observadas duas situaes de ajustamento ao longo do 49

> . Na mdia, entretanto, h ausncia de vis (ou < e (b) conjunto amostral: (a) seja, os estimadores esto corretos). Entretanto, a medida do sucesso da estimao estar super avaliada se a varincia estimada for utilizada em testes. Desta forma, devem ser introduzidas medidas de correo e de teste sobre a presena da correlao serial dos erros ou autocorrelao. a) Correo para a autocorrelao:

Assume-se erros ~ N (0, 2) mas E (t t-1) 0 Yt = 1 + 2 X 2t + ... + k X kt + t , t = 1, ..., T Assume-se que os erros correlacionem-se serialmente conforme: t = t 1 + v t , 0 1 Processo autoregressivo de 1 ordem,

onde v t ~ N(0, 2 v ); E(v t v t 1 ) = 0 e E(v t t ) = 0 . O efeito do erro num determinado instante de tempo sobre os demais perodos decresce no tempo. Isto fcil de observar por meio das covarincias dos erros. Assim, se: Var (t) = E (2t) = E [( t-1 + vt)2] = = E[22t-1 + v2t + 2 (t-1 . vt)] = 2 Var (t-1) + Var (vt) = 2 Var (t) + Var (vt) Var (t) = 2 = 2v , 1 2

Cov (t, t-1) = E (t, t-1) = = E [( t-1 + vt) . t-1] = E [ 2t-1 + vt . t-1] = E (2t-1) = Var(t) = 2 , de forma similar obtm-se: Cov (t, t-2) = E (t, t-2) = 2 2 Cov (t, t-3) = E (t, t-3) = 3 2 So vlidas as seguintes observaes adicionais no estudo de correlao serial: 1. Sobre o termo de erro para o primeiro perodo: No h dados sobre valores 2v ) 1 2

anteriores que o influenciaram. Assim, assume-se: 1 ~ N (0,

50

2.

Assume-se a seguinte expresso para obteno de : =


1 2

Cov ( t , t 1 ) , 2

sendo 2 = Var( t ) (I)

Var( t 1 )

Correo na hiptese: conhecido a priori

Neste caso, feito um ajustamento do procedimento de regresso por mnimos quadrados, aplicando o mtodo das diferenas generalizadas para reclculo das variveis, de forma que: Yt* = Yt Yt 1 Assim: Yt = .... Yt-1 = 1 + 2 X2t-1 + ... + k Xkt-1 + t-1 Essa equao multiplicada por x (-1), de forma que se obtm: Yt* = 1(1-) + 2 X*2t + ... + k X*kt + vt , onde vt no so correlacionados entre si, sendo: Y*t = Yt - Yt-1, X*2t = X2t - X2t-1, vt = t - t-1 var(t) = 2v 1 2 0<1.

Observa-se que o intercepto do modelo original (1) deve ser calculado a partir do intercepto obtido para a equao transformada Yt* . Quando: =Y = 1 primeira diferena. Obtm-se. i X i , pois nessa situao 1
2 k

o intercepto nulo. Ou seja: Y*t = 2 X*2t + ... + kX*kt + vt Y*t = Yt Yt-1, X*2t = X2t X2t-1, vt = t - t-1 (II) Correo na hiptese: no conhecido a priori

Neste caso so sugeridos trs procedimentos alternativos:

- O Procedimento de Cochrane - Orcutt 51

1 passo:

Estimao do modelo original por mnimos quadrados. Definio de erros estimados (resduos)

2 passo:

Utilizao dos resduos como dados de base para a estimao. t = t 1 + v t


) parmetro estimado (

3 passo:

) para compor as diferenas Uso do parmetro estimado (

generalizadas. Yt 1 Yt* = Yt X* kt = X kt X kt 1 4 passo: Estimar parmetros da equao transformada


) + 2X*2t + ... + vt Y*t = 1(1- , , , ... , 1 2 3 k

5 passo:

Definir e obter: X ... X t = Yt 1 2 2t k kt

6 passo:

Estimar parmetro da regresso. t = t 1 + v t Nova estimativa de

7 passo:

Pare o procedimento ou continue at que, 1, 2 estimativas de foram obtidas

por exemplo: - anterior 0,01 ou 0,005 Problema: valor obtido pela minimizao da soma dos quadrados dos resduos pode ser mnimo local (x mnimo global).

- O Procedimento de Hildreth-Lu

52

Os passos do procedimento so os seguintes: 1 passo: Escolha de valores alternativos para escolhido em um conjunto

de valores entre 0 e 1. 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Por exemplo =

2 passo:

Para cada , estimar Y*t = 1 (1- ) + 2X*2t + ... + vt e calcular a

soma dos quadrados dos resduos 3 passo: 4 passo: timo menor soma dos quadrados dos resduos. Pare o procedimento (estabelecendo critrio de parada) ou continue

estabelecendo nova variao de valores em torno do timo, recomeando no 1 passo. Esse procedimento pode garantir mxima verossimilhana. Como precauo, no entanto, deve-se ter ateno na escolha de valores dos coeficientes para definir timo de forma que sejam bem espaados e deve-se tambm variar o conjunto inicial. - O Procedimento de Durbin 1 passo: A partir das diferenas generalizadas do modelo linear:

Yt - Yt-1 = 1 (1-) + 2 (X2t - X2t-1) + ... + vt, que permite obter: Yt = 1 (1-) + Yt-1 + 2X2t - 2X2t-1 +...+ kXkt - kXkt-1 + vt,

aplicando a estimao de mnimos quadrados ( o coeficiente estima-se


estimado para a varivel Yt-1). 2 passo:
na equao: Substitui-se

Yt-1 = 1 (1- ) + 2 (X2t - X2t-1) +...+ k (Xkt - Xkt-1) + vt Yt -

53

Nova Varivel Dependente

Nova Varivel Independente

Nova Varivel Independente

Com esse conjunto de variveis estima-se novo conjunto de parmetros (mais eficiente que o anteriormente obtido). (b) Testes para correlao serial

Hiptese nula = 0 Hiptese Alternativa 0 (ou > 0 ou < 0) O teste mais popular para a correlao serial o teste de Durbin-Watson. Existem testes alternativos, como o teste de Durbin, que se aplicam a situaes especficas observados na amostra e modeladas (ver Durbin, J. (1970), Testing for Serial Correlation in Least-Squares Regression When Some of the Regressors are Lagged Variables, Econometrica, vol. 38, pp.410-421; Siegel, S. (1956), Nonparametric Statistics for the Behavioral Sciences, Mc Graw-Hill e Theil. H. (1965), The Analysis of Disturbances in Regression Analysis, Journal of the American Statistical Association, Vol. 60, pp. 1067-1079). (b1) Teste de Durbin-Watson No teste de Durbin-Watson, calculada a estatstica DW, cujo valor permite concluir sobre a presena ou no de significativa correlao serial. So procedimentos do teste: t , t 1 resduos da aplicao de MQO Sejam
t t 1 ) (
t =1 T 2

Calcula-se: DW =

t =2

2 t

, situando essa estatstica de acordo com valores

tabelados conforme a Figura 20. O teste no pode ser usado (por definio) quando o modelo de regresso inclui, como varivel explanatria, a varivel dependente defasada. Observa-se que, quando(Figura 20): t prximos a t -1 (autocorrelao positiva) baixos DW

54

t opostos a t -1 (autocorrelao negativa) altos DW Caso DW = 2 correlao serial de 1 ordem: ausente.

dL e dU obtidos na Tabela DW, a 5% n.s, k variveis, onde k= k-1 (exclui-se o intercepto) e de acordo com o tamanho (T) da amostra. 4 dL < DW < 4: rejeito Ho; h correlao serial negativa. 4 dU < DW < 4 dL: inconclusivo. 2 < DW < 4 - dU: no h. dU < DW < 2: no h. dL < DW < dU: inconclusivo. 0 < DW < dL: h correlao positiva. Figura 20- Variao de valores para a avaliao da presena de correlao serial As regies de indeterminao do teste devem-se seqncia de resduos ser influenciada pelas variveis independentes. Por outro lado, a anlise do modelo de
) podendo este resultado ser regresso a duas variveis leva concluso que DW 2 (1 -

obtido a partir da relao DW =

(
t =2

t T

t 1 ) 2 inicial.

2 t
t =1

Exemplo: COAL = 12,262 + 92,34 FIS + 118,57 FEU- 48,90 PCOAL + 118,91 PGAS (Demanda) (3,51) (6,46) (7,14) (-3,82) (3,18)

R2 = 0,692 F(4,91) = 51,0 DW = 0,95 (DW< dL, logo h correlao positiva) Hildreth-Lu = 0,6

55

COAL* = 16,245 + 75,29 FIS* + 100,26 FEU*- 38,98 PCOAL* + 105,99 PFAS* (3,3) (4,4) (3,7) (-2,0) (2,0) DW = 2,07 Ho aceita (2<DW< 4-dU) nas condies: 5% n.s., 96 observaes e 4 variveis independentes, para os valores de dL = 1,58 e dU = 1,75 tabelados.

(b2) O teste de Durbin Este teste aplica-se ao caso em que a varivel dependente defasada varivel independente no modelo. Para isto calcula-se a estatstica h que vai testar a presena de correlao serial no caso citado. Essa estatstica definida por: )}1/2 para N VAR ( ) <1, onde: { N/(1-N VAR ( h=
= (1-1/2 DW),

) a varincia estimada do coeficiente da varivel defasada Y t-1. VAR ( O teste vlido para amostras de grande tamanho (N>30) (embora na prtica seja aplicado tambm em amostras pequenas). A estatstica testada como um desvio da distribuio normal. Se h > 1,645, rejeita-se a hiptese nula de que os resduos no tem correlao serial a 5 % de nvel de significncia.
19. A Previso com o Modelo de Regresso

O modelo de regresso de uma equao (singular) base para dois tipos de previso: (a) as previses pontuais, s quais associam-se intervalos de confiana, dando origem a (b) previses de intervalos de confiana da previso, construdos de forma a que se observe uma margem de erro em torno da previso pontual, definindo bandas de (1n.s.)% de confiana (n.s. o nvel de significncia). As previses so guias para as decises e do orientao para a (re)construo do modelo de regresso, na medida que se tenha informao atual da situao em anlise. Elas se distinguem em ex post e ex ante, conforme o perodo previsto se baseie ou no no conjunto de dados amostrais correntes das variveis independentes (Figura 21):

56

(a) Perodo das previses ex post: usado para a avaliao do modelo de previso. Essas so previses ditas incondicionais (valores das variveis independentes conhecidos). (b) Perodo das previses ex ante: essas previses podem ser incondicionais ou condicionais. Seja por exemplo: S(t) = ao + b1 X(t-3) + b2 Y(t-4) Incondicional at 3 perodos no futuro S(t) = ao t b1 X(t) + b2 Y(t) condicional

T1 Perodo da estimao

T2

T3 (atual) Tempo T

expost

ex ante

Perodos de previso Figura 21- Distino entre previso ex post e ex ante Pode-se definir como sendo a melhor previso aquela com varincia mnima em seu erro de previso. Pode-se afirmar que as estimativas de MQO levam s melhores previses no tendenciosas com modelos lineares (BLUEs). O erro do procedimento de previso est associado aos seguintes pontos: 1. Natureza aleatria do termo aditivo do erro. 2. O processo de estimao envolve erro ao estimar parmetros que tendem aos verdadeiros parmetros, mas diferindo deles. 3. Previso condicional introduz erros ao calcular valores esperados para as variveis independentes ou explanatrias. 4. Erro de especificao do modelo ( do modelo real). O erro de previso , aqui, avaliado em trs situaes: (A) previso incondicional, (B) previso incondicional com erros serialmente correlacionados e (C) previso condicional, que traz inerente maior dificuldade.

57

(A) Previso Incondicional Na previso incondicional os valores assumidos pelas variveis independentes so conhecidos no perodo da previso. Nesse caso diz-se que os valores so previstos quase perfeitamente. Cita-se como exemplo de variveis explanatrias: ms do ano e populao no ms do ano, em um perodo de previso (mensal) total de 1 ano. Os modelos para previso incondicional so desejveis pois removem erros do processo de previso, ao serem construdos com base em variveis explanatrias de previso fcil e precisa. Seja: Yt = + Xt + t, t = 1, 2, ..., T t ~ N (0, 2), a varivel independente XT+1 conhecida. T+1 = E (YT+1) = + XT+1 Pressuposto: e conhecidos Y T+1 YT+1 erro de previso: T+1 = Y Nesse caso, so vlidas as seguintes propriedades do erro de previso: 1. T +1 ) = E ( Y E (e T +1 - YT +1 ) = 0 = E (-T+1) , ou seja: a previso de YT+1 um valor no-enviesado (isto : correto na mdia). 2. A varincia do erro de previso (p2 )
T +1 )2] = E [( T +1 )2] = 2 ou seja, a varincia de MQO. p2 = E [( e

Assim: erro de previso ~ N (0, 2) Para a avaliao da significncia estatstica dos valores previstos deve ser obtido o erro normalizado: = Y Y T +1 T +1 , onde ~ N (0, 1).

Constri-se o intervalo de confiana em torno do erro normalizado com 5% de nvel de significncia (Figura 22), de forma que: - 0,0 5 Y Y T +1 T +1 0,05, onde 0,05 o valor de crtico que se obtm segundo

a tabela da distribuio normal.

58

Y Y + Y T +1 0,05 T +1 T +1 0,05
* intervalo de previso

Yt = + X

Figura 22- A previso pontual e o intervalo de previso com bandas de 95 % de confiana para a previso incondicional Pode ser feita a avaliao do modelo de previso aps obter-se YT+1 e comparar-se seu valor com valores previstos para os limites do intervalo de previso. So possveis as situaes: O valor obtido intervalo de previso; com isto, conclui-se que o modelo satisfatrio. Se o valor estiver fora do intervalo, deve ser analisado se trata-se de um evento extraordinrio, ou se o modelo deve ser revisto. Novas observaes devem, neste caso, ser obtidas antes de uma concluso. Ao se utilizar os modelos de regresso para a previso possvel ter: * Modelos com estatsticas t com valores significativos e bom R2 mas que podem no explicar mudanas estruturais resultando em previses pobres. * Modelos com baixos R2 e algum(s) coeficiente(s) no significativos que podem fornecer boas previses pois embora os modelos no sejam muito explicativos, houve pouca variao em Yt, e a previso fcil de ser obtida.

59

No caso de violao do pressuposto: e conhecidos, tem-se a situao mais realista ou seja, supe-se que e so variveis aleatrias que podem ser estimadas e 2 desconhecido, podendo ser, tambm, estimado. Nesse caso, a previso de Yt+1 obtida por procedimento de dois estgios, apresentado a seguir, sendo que o valor previsto BLUE. (Johnston, J., Econometric Methods, pp. 38-40, 1972). O procedimento de 2 estgios: 1. Yt = + Xt + t
, 2 . , Com a aplicao dos Mnimos Quadrados Ordinrios obtm-se

2.

Y T +1 = E ( YT +1 ) = + XT+1 - ) XT+1 - T+1 - Y = ( T +1 = Y - ) + ( O erro de previso e T +1 T +1

T +1 so: As origens de erro em e

1) 2)

Presena de um termo T+1 aditivo, devido varincia de Y. Natureza aleatria dos coeficientes estimados, sensvel aos graus de liberdade do processo de estimao.

, O erro de previso, combinao linear de variveis normalmente distribudas


e T+1, tambm considerado normalmente distribudo. O valor esperado do erro de

previso :
- )XT+1] + E (-T+1) = E ( - ) = T +1 ) = E ( - ) + E [( - ) + XT+1 E ( E (e

0, pois XT+1 considerado conhecido e E(T+1) = 0.


T +1 (p2) pode ser obtida: A varincia de e

- )2] . X2T+1 + T +1 )2] = E [( - )2] + E [( p2 = E [( e - )] 2XT+1 - ) ( + E [(T+1)2] + E [( dependem de 1, ... , t mas so independentes de T+1. , Observe-se que Assim, ) + X2T+1 Var( ) + 2 , ) + 2Xt+1 COV ( , p2 = Var( sendo: 60

2 Xt )= Var( T (X t X) 2 )= , Cov( - X 2 (X t X) 2

)= Var(

2 , (X t X) 2

X mdia amostral .

ou

1 X 2 2XX T +1 + X 2 T +1 p = 1 + + (X t X) 2 T
2 2

(a)

distncia entre Xt+1 e X


1 (X T +1 - X) 2 p2 = 2 1 + + 2 T (X t X)

(b) Varincia na amostra de dados de X

(c) Tamanho da amostra (estimao)

Ou seja, o erro de previso sensvel a (a), (b) e (c). Dessa forma, (XT+1 - X ) permite ter uma medida da variao que pode-se assumir para o perodo de previso. Em pacotes estatsticos, so gerados valores para a varivel hzz , definida para o modelo a 2 variveis por hzz =
1 + T (Xz X) 2

X
t

2 t

T X

sendo p2 = 2 (1 + hzz), onde z o perodo da

previso. Para construir o intervalo de confiana em torno dos valores previstos, obtm-se o valor do erro normalizado tal que, se for conhecido, =
Y Y t +1 t +1 ~ N (0,1), e se 2 p

no conhecido, utiliza-se S2 estimativa amostral de 2 , sendo: S2 = 1 )2 (Yt Y t T2


2 2

1 (X t +1 X) 2 Assim, conhecida Sp = S 1 + + e o valor do erro normalizado : 2 T (X t X) Y Y T +1 T +1 , que segue a distribuio da estatstica t, com (T-2) graus de liberdade: Sp

61

t S Y Y +t S Y T +1 0.05 p T +1 T +1 0.05 p

o intervalo de previso com 95% de

confiana de conter o verdadeiro valor a ser observado da varivel independente (Figura 23). Como foi visto, ele varia com o tamanho da amostra, a varincia na amostra da varivel independente e com a diferena entre o valor da mdia amostral da varivel independente e o seu valor no perodo da previso.

e 2 so variveis , Figura 23 Intervalo de previso com bandas de confiana quando

aleatrias ExemploPreviso de padro mdio (Yi) x rendas familiares (Xi) N = 8, linha de regresso estimada: S2 = 0,111 X = 13,5 XN+1 6,5 10,0 X 13,5 17,0 20,5 24,00 N+1 Y 2,155 2,575 2,995 3,315 3,835 4,155 Sf2 0,158 0,133 0,125 0,133 0,158 0,259 (Xi - X )2 = 162 N+1 1,96 Sf Y 1,375 1,860 2,303 2,600 3,055 3,677 N+1 + 1,96 Sf Y 2,935 3,415 3,687 4,030 4,615 5,673 menor Sp2 = 1,375 + 0,120 Xi Y i

bem fora dos valores observados 62

(B) A Previso incondicional com erros serialmente correlacionados preciso ateno pois o erro da previso em sries com erros serialmente correlacionados ser menor do que quando a autocorrelao no for levada em conta. Seja: Yt = + Xt + t , onde os erros so serialmente correlacionados segundo: t = t-1 + vt vt ~ N (0, v2), E (vt vt-1) = 0 || < 1 Tome-se como pressuposto: , e conhecidos a priori = + X + T +1 Y T +1 T +1
T +1 = T , logo: Uma vez que T+1 = T + vT , pode-se escrever

= + X + . Y T +1 T +1 T Observe-se que, quanto mais para o futuro T+s, a informao sobre a correlao dos erros se torna pouco expressiva:
t+2 = t +1 = 2 t . . t +S = s t , s s 0

= + X + tambm pode ser derivada do modelo na A expresso Y T +1 T +1 T forma de diferenas generalizadas em (1) a seguir. Esse um resultado interessante, pois a correlao serial comumente corrigida introduzindo essa modificao nas variveis do modelo. Yt* = (1 - ) + Xt* + vt onde: Yt* = Yt - Yt-1 Xt* = Xt - Xt-1 63 (1)

Nessa forma, a previso para o perodo T+1 pode ser obtida pela equao (2): * = (1 - ) + X * Y T +1 T +1 onde: *T+1 = Y T+1 - YT Y X* T +1 = XT+1 - XT (3) (4) (2)

Assim, substituindo-se (2) em (3) pode-se escrever: * + YT = (1 - ) + X*T+1 + YT T+1 = Y Y T +1 Sabendo de (4) que X * T +1 = XT+1 - XT ,

T+1 = (1 - ) + (XT+1 - XT) + YT = Y


= (1 - ) + XT+1 + (YT - XT), devendo ser lembrado que YT = + XT + t YT - XT = + T , logo:

T+1 = (1 - ) + XT+1 + ( + T) = + XT+1 + T Y


Alm disso:

T+1 YT+1 = T - T+1 = - vT+1 E ( e T+1) = 0 T+1 = Y *e


* p2 = E [( T - T+1)2] = T+1 = T + vT+1

2 = 2 E (T2) + E ( T +1 ) 2 E (T T+1) =

= 2 E (T2) + E (2T+1) 2 2 E (T2) = = 2 2 + 2 2 2 2 = 2 - 2 2 = (1 - 2) 2, onde (1 - 2) o fator de reduo no erro de previso (em relao situao com ausncia de autocorrelao). Observe-se que (1 - 2) 2 = 2 v. Na prtica, h violao do pressuposto, pois , e no so conhecidos, embora possam ser estimados (veja: Goldberger, A.S. (1962), Best Linear Unbiased Prediction in the Linear Regression Model, Journal of the American Statistical Association, vol. 57, pp. 369-375).

64

pode ser calculado por: Nessa situao, o valor previsto Y T +1


(X = YT + (1 ) + XT ) Y T +1 T +1

ou

seja,

na

forma

das

diferenas

T+1) 0 quando T . Na prtica assume-se generalizadas. Pode ser provado que E ( e


= (isto , que foi estimado com exatido), para se obter a varincia do erro de previso

(na realidade h correlao entre parmetros estimados e os resduos). A varincia do erro de previso obtida por:
1 (X * X * ) 2 , onde o termo do erro vt ao invs de t, fazendo Sp2 = S2 1 + + T +1 * * 2 T (X X ) t

com que se obtenha S2 = Sv2 , pois Sp2 obtida a partir do modelo de diferenas generalizadas (baseado em Pindyck e Rubinfeld (1976), Economic Models and Economic Forecasts, pp. 172). (C) A Previso Condicional Os intervalos de

Neste caso reconhecida a natureza estocstica dos Xi`s.

previso crescem quando os valores assumidos para as variveis independentes Xi forem tambm previstos. difcil derivar resultados para o erro de previso no caso geral. Para o modelo a duas variveis, supe-se: Yt = + Xt + t , t = 1, 2, ..., T T+1 = XT+1 + uT+1 X t ~ N (0, 2), ut ~ N (0, u2), t e ut no correlacionados
- )] = E [( X t+1 Xt+1) ( t+1 Xt+1) ( - )] = 0 E [( X so as estimativas de MQO. , onde

Nesse caso, pode-se concluir que: X = , sendo a varincia do erro de previso: + Y T +1 T +1 1 (X X) 2 + u 2 2 2 p2 = 2 1 + + T +1 + u 2 (X t X) T Y T +1 no normalmente distribudo, envolvendo a soma de produtos de variveis normalmente distribudas.

65

Assim, uma estimativa robusta para o intervalo de previso pode ser obtida por: 1. Calcula-se os intervalos de previso que so obtidos a partir dos intervalos de confiana associados varivel dependente, considerando a varivel
* independente X T +1 conhecida dois desvios padro acima ( X T +1 ) e dois

desvios padro abaixo ( X ** T +1 ) do seu valor no perodo da previso (T+1) ou seja, os intervalos de confiana associados a:
(X * = + Y T +1 T +1 + 2 u )

(X ** = 2 ) , sendo + Y T +1 T +1 u

1 (X * T +1 X) 2 , com clculo similar para X ** T +1 . p2 2 1 + + 2 T (X t X)

2.

O intervalo final da previso a unio dos dois intervalos, isto , contm comuns a ambos os intervalos (Figura 24). todos os valores de Y T +1

Figura 24- Aproximao do intervalo de previso com base em bandas de confiana de 95% de confiana, assumindo Xt conhecido

66

You might also like