Um Esquema Eficiente de Amostragem em Modelos Dinâmicos Generalizados com Aplicações em Funções de T por Romy Elena Rodríguez Ravines - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub para obter uma versão completa.

covariável n˜ao tem distribuic¸˜ao conhecida.

Além disso, os modelos de defasagens distribu´ıdas s˜ao um caso particular dos ARDL e como

Pesaran & Shin (1999) mostram que existe forte evidência a favor do uso dos tradicionais ARDL

para a modelagem de séries n˜ao estacionárias, consideramos que é apropriado revisar a inferência

dos modelos de defasagens distribu´ıdas e compará-los com modelos de co-integrac¸˜ao.

Este cap´ıtulo está organizado da seguinte maneira. A sec¸˜ao 2.2 apresenta alguns dos princi-

7

pais modelos de defasagens distribu´ıdas. A sec¸˜ao 2.3 apresenta a definic¸˜ao geral dos DLM e, em

particular, as duas classes de modelos de func¸˜ao de transferência. A sec¸˜ao 2.4 discute o procedi-

mento de inferência em DLM. Em particular, destacamos a importância dos métodos de simulac¸˜ao

estocástica desenvolvidos nos últimos 15 anos. Na sec¸˜ao 2.5 apresentamos um exemplo que usa

os dados analisados em Zellner & Geisel (1970), usando o modelo de Koyck e o modelo de func¸˜ao

de transferência proposto. Finalmente, as conclus ˜oes e projetos futuros, relacionados com este

cap´ıtulo, s˜ao apresentados na sec¸˜ao 2.6.

2.2

Modelos de Defasagens Distribu´ıdas

A forma geral de um modelo de defasagens distribu´ıdas infinito é

Yt =

βiXt−i + t,

(2.1)

i=0

onde toda mudanc¸a em Xt afeta E[Yt] em todos os per´ıodos seguintes. O termo βi em (2.1) é

o i−ésimo coeficiente de reac¸˜ao. Usualmente assume-se que limi→∞ βi = 0 e

β

i=0 i = β < ∞.

Supondo que as mudanc¸as em Xt deixam de ter uma forte influência ap ós alguns per´ıodos de

tempo, por exemplo, m, ent˜ao o modelo se reduz a um modelo de defasagens distribu´ıdas finito, e

o limite superior do somat ório em (2.1) é m.

Um aspecto importante a ser levado em conta é o n úmero de parâmetros envolvidos neste tipo

de modelo. Com a finalidade de ser parcimonioso, assume-se que os coeficientes das variáveis

defasadas n˜ao s˜ao totalmente independentes e que est˜ao relacionados mediante alguma func¸˜ao

(Zellner, 1971). Existem diversas especificac¸ ˜oes para os modelos de defasagens infinitos e finitos.

Algumas delas est˜ao baseadas na teoria econ ômica, outras em hip óteses de natureza indutiva.

Nas sec¸ ˜oes seguintes s˜ao apresentados os modelos de defasagens distribu´ıdas mais conhecidos na

literatura.

2.2.1

Defasagens Distribu´ıdas Infinitas

Koyck (1954) prop ôs uma simplificac¸˜ao do modelo em (2.1). Assumiu que os βis decrescem expo-nencialmente com a passagem do tempo, isto é

βi = αλi, ∀i, onde 0 < λ < 1.

(2.2)

Logo,

Yt = αXt + αλ1Xt−1 + αλ2Xt−2 + . . . + t.

(2.3)

8

Um caso particular do modelo de defasagens distribu´ıdas de Koyck (o geométrico) é o modelo

econ ômico de ajustamento parcial. Por exemplo, seja Yt o estoque de capital no instante t e Y∗ o

t

estoque de capital desejado no mesmo instante t. De acordo com o modelo de ajustamento parcial,

a mudanc¸a no estoque de capital é proporcional à diferenc¸a entre o n´ıvel atual de capital desejado

e o n´ıvel passado; isto é,

Yt − Yt−1 = λ(Y∗ −

t

Yt−1) + t,

onde 0 < λ < 1,

onde t é um erro aleat ório. Se, adicionalmente, assume-se que o estoque de capital desejado é um

m últiplo de Xt, isto é Y∗ = αX

t

t, ent ˜

ao,

Yt = (1 − λ)Yt−1 + λαXt + t,

que é equivalente ao modelo de defasagens distribu´ıdas:

Yt = α

λ(1 − λ)iXt−i + νt,

i=0

onde νt = (1 − λ)νt−1 + t. Este modelo mostra a dependência do estoque de capital atual nos n´ıveis

atual e passados de Xt.

Outro exemplo de modelo de defasagens infinitas é o modelo proposto por Solow (1960). A

hip ótese de Solow sobre os βi é que eles s˜ao determinados por uma distribuic¸˜ao de Pascal, isto é,

βi = α r + i − 1 (1 − λ)rλi, 0 < λ < 1, ∀i, r > 0.

(2.4)

i

Da´ı, se α = 1, tem-se que

β0 = (1 − λ)r e βi = r + i − 1 λ β

i

i−1.

O modelo de defasagens de Solow possui um esquema flex´ıvel de ponderac¸˜ao dos coeficientes

βi. Em particular, se r = 1 tem-se o modelo de Koyck. Solow (1960) sugere que no contexto das

defasagens é muito importante localizar a moda da distribuic¸˜ao dos βi. Por esse motivo ele propôs

o uso da distribuic¸˜ao Pascal, onde a moda é sempre menor que a média, portanto é uma distribui-

c¸˜ao assimétrica à direita. Quanto maior é λ e menor é r, maior é a assimetria dessa distribuic¸˜ao.

Um modelo mais geral, conhecido como Defasagens Racionais, foi apresentado por Jorgenson

(1966). Ele considera que

Yt = µ + λ(L)Xt + Vt,

(2.5)

9

onde λ(L) é um polin ômio infinito. Recentemente Carter & Zellner (2002) propuseram o seguinte

modelo:

φ(L)Yt = µ + δ(L)Xt + Ut

(2.6a)

µ

δ(L)

Yt =

+

φ

X

U

(L)

φ(L) t + 1

φ(L) t,

(2.6b)

cuja caracter´ıstica principal é a de manter a mesma estrutura de defasagens infinita de (2.5), λ(L) =

δ(L)

φ

, mas com um processo mais geral para V

(L)

t. Carter & Zellner (2002) denominaram (2.6) como

modelo ARDLAR.

2.2.2

Defasagens Distribu´ıdas Finitas

Almon (1965) prop ôs uma aproximac¸˜ao conhecida como a distribuic¸˜ao de interpolac¸˜ao para os

coeficientes de um modelo de defasagens finito. A hip ótese de Almon é que os βi s˜ao bem aproxi-

mados por polin ômios de grau p < m, com p + 1 parâmetros, isto é:

p

βi =

αkik.

(2.7)

k=0

Esta aproximac¸˜ao polinomial fornece uma ampla variedade de formas para βi, porém, na prática

somente polin ômios de grau baixo s˜ao utilizados.

Mais recentemente e no contexto bayesiano, Chotikapanich & Griffiths (1999) propuseram o

modelo de defasagens distribu´ıdas flex´ıvel que coloca menos estrutura nos pesos e representa as

restric¸ ˜oes dos coeficientes nas suas distribuic¸ ˜oes a priori.

2.3

Modelos Lineares Dinâmicos

2.3.1

Definiç˜ao

Os modelos lineares dinâmicos (DLM) (West & Harrison, 1997) s˜ao uma classe ampla de modelos

com parâmetros variando no tempo, muito úteis para modelar dados de séries temporais e proble-

mas de regress˜ao com parâmetros variando ao longo do tempo. Uma representac¸˜ao geral de um

DLM é:

Yt = F θ

t t +

t

t ∼ N(0, V t)

(2.8a)

θt = Gtθt−1 + ωt

ωt ∼ N(0, Wt),

(2.8b)

10

onde, para todo t, Yt é um vetor l × 1, Ft é uma matriz n × l conhecida, Gt é uma matrix n × n

conhecida, θt é o vetor de estados e tem dimens˜ao n, t é o termo de erro da observac¸˜ao e ωt é o

termo de erro do sistema ou erro de evoluc¸˜ao. Freq üentemente t e ωt s˜ao interna e mutuamente

independentes. A equac¸˜ao (2.8a) é conhecida como equac¸˜ao da observac¸˜ao e define a distribui-

c¸˜ao de Yt condicional a θt. A equac¸˜ao (2.8b) é conhecida como equac¸˜ao do sistema e define a evoluc¸˜ao do vetor de estados. Neste cap´ıtulo estamos interessados na modelagem de séries de

tempo univariadas, neste caso o modelo acima se reduz para o caso em que l = 1.

Os modelos de defasagens distribu´ıdas podem ser expressos na forma de (2.8). O efeito de

qualquer regressor no instante t sobre a média da resposta nos instantes futuros pode ser expresso

como uma func¸˜ao de transferência. Na análise de func¸ ˜oes de transferência, o objetivo é estudar

como a trajet ória de uma variável end ógena é afetada pelos movimentos ou mudanc¸as de uma

variável ex ógena. Se esse efeito n˜ao tem uma forma estrutural ao longo do tempo, é dito que se

trata de uma func¸˜ao de transferência de forma livre. Entretanto, se os efeitos (ou coeficientes do

modelo de regress˜ao) est˜ao relacionados através de uma forma conhecida, é dito que se trata de

uma func¸˜ao de transferência de forma funcional. Ambos casos s˜ao descritos na sec¸˜ao seguinte.

2.3.2

Modelos de Funç˜ao de Transferência

Uma func¸˜ao de transferência de forma livre é um DLM de regress˜ao sobre um n úmero finito de

valores defasados. De acordo com West & Harrison (1997, p. 281), se a resposta média no instante t é definida por

m

E(Yt | θt) =

βiXt−i = β0Xt + β1Xt−1 + . . . + βmXt−m,

(2.9)

i=0

a matriz Ft em (2.8) é dada por F = (X

= θ = (β

t

t, Xt−1, . . . , Xt−m) e θt

0, β1, . . . , βm). Em (2.9), o efeito

do valor corrente da regressora Xt = X sobre a resposta média no instante futuro i, com a condic¸˜ao

Xt+1 = . . . = Xt+i = 0, define a func¸˜ao

β

iX

i = 0, 1, . . . , m;

0

i > m.

Neste caso, os coeficientes de regress˜ao βi n˜ao est˜ao relacionados (entre eles) e tem-se, pelo menos,

m quantidades desconhecidas. Uma maneira simples de adaptar a estrutura de regress˜ao para

incorporar uma relac¸˜ao funcional entre os βi é considerar uma regress˜ao, n˜ao diretamente em X,

mas numa variável de efeito constru´ıda para medir o efeito combinado dos valores passados e

corrente de X. Seja Xt o valor no instante t de uma variável escalar independente X. Como descrito

11

em West & Harrison (1997), um modelo de func¸˜ao de transferência geral para o efeito de X sobre Y é dado por

Yt = F θt + t, t ∼ N(0, σ2)

(2.10a)

θt = Gθt−1 + ψ X

t

t + ∂θt

(2.10b)

ψ = ψ

+ ∂ψ ,

(2.10c)

t

t−1

t

cujos termos foram definidos na sec¸˜ao 2.3.1. Em particular, t e ∂θt s˜ao os termos de erro da

observac¸˜ao e da evoluc¸˜ao, respectivamente, e ψ é um vetor, de dimens˜ao n, de parâmetros que

t

evoluem com a adic¸˜ao do termo ∂ψ , que segue uma distribuic¸˜ao normal com média zero e é

t

independente de t e ∂θt.

O vetor de estados carrega o efeito dos valores passados e corrente de X para Yt através da

equac¸˜ao (2.10a); este efeito é formado em (2.10b) com a soma de uma func¸˜ao linear dos efeitos passados θt−1, o efeito corrente ψ X

t

t e um termo de ru´ıdo. O modelo em (2.10) pode ser re-escrito

na forma padr˜ao dos DLM (West & Harrison, 1997, Cap. 9). A parametrizac¸˜ao acima é muito mais

flex´ıvel que (2.1), permitindo diferentes interpretac¸ ˜oes estocásticas para o efeito de Xt sobre Yt.

2.3.3

Funç ˜oes de Transferência e Defasagens Distribu´ıdas

Seguindo as descric¸ ˜oes acima apresentadas, nesta sec¸˜ao mostramos que os modelos de defasagens

distribu´ıdas da sec¸˜ao 2.2 podem ser representados como um DLM, na forma da equac¸˜ao (2.10). Por exemplo, o modelo de Koyck apresentado em (2.3) pode ser re-escrito como

Yt = Et + t

(2.11a)

Et = λEt−1 + αXt,

(2.11b)

onde Et = αXt + αλ1Xt−1 + αλ2Xt−2 + . . . e 0 < λ < 1. Neste modelo, a func¸˜ao de transferência

de X é αλiX. Aqui, com base na parametrizac¸˜ao em (2.10), temos n = 1, θt = Et, o efeito total,

ψ = α, o efeito corrente para todo t, F = 1, G = λ e ∂θ

t

t é igual a zero. Repare que este modelo

pode ser facilmente estendido para o caso em que α varia suavemente ao longo do tempo, isto

é, αt = αt−1 + ∂αt como em (2.10c) ou, mais geralmente, pode ser inclu´ıdo um ru´ıdo para Et em

(2.11b). Por exemplo, Et = λtEt−1 + αtXt + ∂Et, onde ∂Et segue uma distribuic¸˜ao normal com média

zero e variância σ2 . Note que a representac¸˜ao como DLM resulta numa estrutura muito geral para

E

o termo de erro. Assim, assumindo independência entre os termos de erro da observac¸˜ao e da

evoluc¸˜ao, ao substituir (2.10b) em (2.10a) obtém-se um processo ARMA.

12

O modelo de defasagens distribu´ıdas de Solow também pode ser escrito como um DLM. Neste

caso, temos (1 − λL)rEt = α(1 − λ)rXt e uma equac¸˜ao de evoluc¸˜ao pode ser considerada para λ e

r. Também, o modelo de Almon é um caso particular de uma func¸˜ao de transferência de forma

livre (2.9) já que é uma regress˜ao num n úmero finito e fixo de variáveis defasadas. Usando (2.7), a func¸˜ao de resposta de Yt é

p

α

kikXt−i

i = 0, 1, . . . , m;

k=0

0

i > m.

Um exemplo econométrico é apresentado em Migon (2000), onde é desenvolvido um modelo

para prever o valor das exportac¸ ˜oes do Brasil como uma func¸˜ao de uma tendência estocástica e

da taxa de câmbio real. A natureza da dinâmica do modelo foi introduzida através da hip ótese de

expectativas adaptativas. O modelo resultante foi uma func¸˜ao de transferência de primeira ordem

mais uma tendência.

2.4

Procedimento de Inferência

De acordo com o paradigma bayesiano, a especificac¸˜ao de um modelo fica completa depois da

determinac¸˜ao da distribuic¸˜ao a priori de todos os seus parâmetros. De acordo com o teorema de

Bayes, a distribuic¸˜ao a posteriori é proporcional ao produto dessa distribuic¸˜ao a priori vezes a

verossimilhanc¸a.

No contexto dos DLM, a inferência pode ser realizada em forma seq üencial, como é descrito

em West & Harrison (1997, Cap 4). Entretanto, nos modelos de func¸˜ao de transferência descritos na sec¸˜ao 2.3, a matriz de evoluc¸˜ao G (em (2.8b)) pode depender de quantidades desconhecidas, como em (2.11). Por esta raz˜ao é necessário fazer inferência sobre λ simultaneamente e, portanto,

outros algoritmos s˜ao necessários.

Até o final da década de 80, técnicas de integrac¸˜ao numérica eram utilizadas para aproximar as

constantes de normalizac¸˜ao das distribuic¸ ˜oes a posteriori e obter estimativas para os parâmetros.

As distribuic¸ ˜oes a posteriori dos modelos de defasagens distribu´ıdas s˜ao dif´ıceis de serem obtidas

analiticamente. No exemplo em Zellner & Geisel (1970) foi utilizada a transformac¸˜ao de Koyck,

que implica o ajuste da seguinte equac¸˜ao

Yt = λYt−1 + k(1 − λ)Xt + t − λ t−1,

(2.12)

onde λ, k e σ2 s˜ao os parâmetros de interesse. Devido à complexidade das distribuic¸˜oes a posteriori

marginais, eles tiveram que fazer uso de técnicas de integrac¸˜ao numérica bivariada para obter

13

amostras das distribuic¸ ˜oes de interesse. Contudo, dado que as quantidades desconhecidas s˜ao

três, os autores tiveram que integrar um dos parâmetros a fim de cair no caso bivariado.

Os métodos MCMC, como o amostrador de Gibbs (Gelfand & Smith, 1990), têm sido muito

utilizados na inferência bayesiana desde o in´ıcio dos anos 90. O software BUGS (Bayesian Analysis

using Gibbs Sampling) é uma ferramenta muito conhecida que nos auxilia com esta tarefa. Este

pacote foi desenvolvido por D. Spiegelhalter e alguns colegas do MRC Biostatistics Unit e está

dispon´ıvel de forma gratuita no s´ıtio http://www.mrc-bsu.cam.ac.uk/bugs.

Neste cap´ıtulo mostramos que a inferência sobre os DLM, em particular os modelos de func¸˜ao

de transferência, pode ser realizada via BUGS. O maior atrativo a´ı é a possibilidade de testar facil-

mente várias especificac¸ ˜oes de modelo, tais como estruturas auto-regressivas ou transic¸ ˜oes de es-

tados polinomiais, assim como avaliar a sensibilidade à escolha da distribuic¸˜ao a priori.

O BUGS executa a estimac¸˜ao da distribuic¸˜ao a posteriori dos DLM de forma razoável. Contudo,

um importante fato a ser levado em conta é que a convergência das cadeias pode ser muito lenta

devido à alta correlac¸˜ao entre os elementos de θ. Uma soluc¸˜ao prática para este caso é guardar

amostras a cada k iterac¸ ˜oes, utilizando um valor grande para k. Em resumo, BUGS é muito útil para

explorar novos modelos, porém rotinas computacionais mais espec´ıficas podem ser necessárias

para aplicac¸ ˜oes detalhadas e eficientes (Meyer & Yu, 2000).

2.5

Aplicaç˜ao: uma Funç˜ao Consumo

2.5.1

Dados e Modelos

De forma similar a Zellner & Geisel (1970), usamos o conjunto de dados apresentado em Griliches

et al. (1962, pp. 499-500), que corresponde à renda dispon´ıvel (Xt) e ao gasto (Yt) per-capita trimestral dessazonalizados nos Estados Unidos no per´ıodo 1947.I-1960.IV. A figura 4.1(b) mostra ambas

séries temporais. Seguindo a análise de Zellner & Geisel (1970) consideramos a seguinte func¸˜ao consumo:

Yt = kX∗ +

t

t,

(2.13)

onde, para o t−ésimo per´ıodo, t = 1, 2, . . . , T, Yt é o consumo real observado, X∗ é a renda real

t

“normal”, k é desconhecido e t é um ru´ıdo ou consumo transit ório. Como X∗ n˜ao é observável,

t

Zellner & Geisel (1970) assumiram que a renda real “normal” satisfaz a hip ótese de expectativas adaptativas:

X∗ −

=

t

X∗

(1 − λ)(X

),

(2.14)

t−1

t − X∗t−1

14

onde o parâmetro λ é tal que 0 < λ < 1. Combinando (2.13) e (2.14), obtemos Yt = k(1 − λ)(Xt + λXt−1 + λ2Xt−2 + . . . + λnXt−n + . . .) + t,

(2.15)

ou, de forma equivalente,

Yt = Et + t,

t ≥ 2

(2.16a)

Et = λEt−1 + ψXt,

(2.16b)

onde ψ = k(1 − λ) e Et = ψXt + λψXt−1 + λ2ψXt−2 + . . . .

320

300

300

280

280

260

260

240

240

220

220

200

200

1947

1950

1953

1956

1959

1947

1950

1953

1956

1959

(a) Renda

(b) Consumo

Figura 2.1: Renda dispon´ıvel (Xt) e Gasto (Yt) per-capita trimestral dessazonalizados nos Estados Unidos

no per´ıodo 1947.I-1960.IV.

A partir daqui desenvolvemos a análise de (2.15) assumindo que Xt é uma variável prede-

terminada, tal como na definic¸˜ao dada em Lancaster (2004, p.345): X é um vetor de variáveis predeterminadas que s˜ao dependentes de valores passados do vetor de erro mas n˜ao entre valores contemporâneos. Esta hip ótese nos permite trabalhar com uma única equac¸˜ao; contudo, na

sec¸˜ao 2.5.6 fazemos uso do método de variáveis instrumentais para eliminar a correlac¸˜ao entre a

regressora e os erros.

Nosso objetivo é usar a abordagem bayesiana para fazer inferência no modelo em (2.15) sob as

seguintes hip óteses de correlac¸˜ao serial do termo de erro t:

• Erro I:

ind

t

N(0, σ2);

I

• Erro II:

ind

t = ρ t−1 + νt, with νt

N(0, σ2 ).

II

15

Segundo o Erro I, os t’s s˜ao independentes e normalmente distribu´ıdos com média zero e variância

comum σ2. Segundo o Erro II existe auto-correlac¸˜ao entre os

I

t’s. Neste caso assumimos que

t

segue um processo auto-regressivo de primeira ordem com parâmetro desconhecido ρ e variância

σ2 .

II

Sob a abordagem bayesiana, os modelos acima ficam completamente especificados ap ós a

atribuic¸˜ao da distribuic¸˜ao a priori dos parâmetros. Para λ e k usamos uma distribuic¸˜ao beta com

parâmetros (1, 1), isto é λ ∼ Beta(1, 1) e k ∼ Beta(1, 1). Em outras palavras, assumimos que λ e

k s˜ao independentes e est˜ao uniformemente distribu´ıdos entre zero e um, a priori. Dado que n˜ao

temos informac¸˜ao sobre a variância do termo de erro, adotamos uma distribuic¸˜ao gama invertida

pouco informativa como priori, isto é σ2 ∼ IG(0, 0001; 0, 0001). Testamos também outras distribui-

c¸ ˜oes do tipo IG( , ) mas os resultados n˜ao foram influenciados por esta escolha. Para o modelo

II adicionamos uma priori para ρ, ρ ∼ Normal(0, 100), isto é, utilizamos uma priori relativamente

plana (flat) sem a restric¸˜ao de que ρ deva estar na regi˜ao de estacionariedade [−1, 1]. Em outras

palavras, permitimos que os dados determinem a regi˜ao com maior massa de probabilidade a

posteriori. Além disso, assumimos que no primeiro instante de tempo, E1 = y1, pois Et é o valor

esperado de Yt em (2.16). Na realidade esta n˜ao é mais do que uma aproximac¸˜ao. Em forma mais

geral, poder´ıamos ter atribu´ıdo uma distribuic¸˜ao a priori para E0, por exemplo, p(E0), o efeito an-

terior as observac¸ ˜oes, e utilizado a equac¸˜ao recursiva para obter uma distribuic¸˜ao a priori para E1,

p(E1|E0, λ, φ).

2.5.2

Resultados

Para obter as principais estat´ısticas da distribuic¸˜ao a posteriori de interesse, usamos o software

WinBUGS vers˜ao 1.4 (Spiegelhalter et al., 2003). No apêndice 2.7 apresentamos a rotina utilizada no WinBUGS para o modelo de Koyck. Para os modelos com estrutura de erros I e II, geramos

duas cadeias paralelas comec¸ando de valores diferentes. Iteramos as cadeias 10000 vezes, elimi-

namos as primeiras 5000 iterac¸ ˜oes como per´ıodo de aquecimento e guardamos as amostras a cada

10 iterac¸ ˜oes. Para verificar a convergência das cadeias, usamos a estat´ıstica de Gelman & Rubin

(1992), modificada por Brooks & Gelman (1998). Finalmente, comparamos nossos resultados com os obtidos por Zellner & Geisel (1970), que usaram a transformac¸˜ao de Koyck (KT), apresentada

em (2.12), e integrac¸˜ao numérica para aproximar a distribuic¸˜ao a posteriori de interesse.

A média, moda e desvio padr˜ao a posteriori de k e λ com o modelo com erro I s˜ao mostrados

nas segunda e terceira linhas da tabela 2.1. Nela observamos que as duas abordagens fornecem re-

sultados similares aos obtidos por Zellner & Geisel (1970). A figura 2.2 mostra as densidades a pos-16

teriori de k e λ obtidas com a transformac¸˜ao de Koyck (painéis 2.2(a) e 2.2(b)) e com a representac¸˜ao de func¸˜ao de transferência (painéis 2.2(c) e 2.2(d)), respectivamente. Nesta figura fica evidente a similaridade dos resultados. Observe que as duas modas das distribuic¸ ˜oes a posteriori s˜ao bem

identificadas.

Tabela 2.1: Estat´ısticas a posteriori associadas com os parâmetros no modelo (2.15) com Erro I Parâmetro

média

d.p.

2, 5%

50, 0%

97, 5%

ˆ

Rb

Publicado em Zellner & Geisel (1970)a

k

0,948

0,020

0,940 - 1,000

λ

0,508

0,254

0,380 - 0,900

Usando a transformac¸˜ao de Koyck’s no WinBUGS

k

0,942

0,016

0,930

0,936

0,995

1,037

λ

0,419

0,219

0,074

0,385

0,895

1,019

Usando a func¸˜ao de transferência no WinBUGS

k

0,942

0,017

0,930

0,936

0,996

1,351

λ

0,413

0,222

0,063

0,372

0,895

1,051

a os valores na coluna 50% correspondem às modas.

b ˆ

R é o fator de reduc¸˜ao de escala (na convergência, ˆR = 1).

A tabela 2.2 mostra estat´ısticas a posteriori de alguns parâmetros do modelo (2.15) com Erro II: k, λ e ρ. Nessa tabela observamos uma vez mais que as duas representac¸˜oes, a transformac¸˜ao

de Koyck e a func¸˜ao de transferência, s˜ao equivalentes e fornecem a mesma moda para k, porém

as amostras das distribuic¸ ˜oes a posteriori obtidas com a representac¸˜ao de func¸˜ao de transferência

est˜ao mais concentradas em torno de suas médias. Contudo, os resultados para λ s˜ao muito dife-

rentes, provavelmente porque Zellner & Geisel (1970) marginalizaram a distribuic¸˜ao a posteriori em ρ, enquanto, nós fazemos inferência de forma conjunta. Amostras das densidades a posteriori

de k, λ e ρ obtidas sob as duas representac¸ ˜oes paramétricas do modelo em (2.15) com Erro II (KT,

TF) s˜ao apresentadas na figura 2.3. Fica evidente que ambas representac¸ ˜oes s˜ao equivalentes.

17

2.0

60

1.5

40

1.0

20

0.5

0

0.0

0.92

0.94

0.96

0.98

1.00

0.0

0.2

0.4

0.6

0.8

1.0

k

λ

(a) k- KT

(b) λ - KT

70

2.0

60

50

1.5

40

30

1.0

20

0.5

10

0

0.0

0.92

0.94

0.96

0.98

1.00

0.0

0.2

0.4

0.6

0.8

1.0

λ

λ

(c) k - TF

(d) λ - TF

Figura 2.2: Amostras a posteriori dos parâmetros k e λ sob o modelo (2.15) com Erro I. A linhas pontilhadas correspondem à média a posteriori. (KT = usando a transformac¸˜ao de Koyck, TF usando

a parametrizac¸˜ao como func¸˜ao de transferência).

2.5.3

Seleç˜ao de Modelos

Dado que as estimativas sobre λ s˜ao sens´ıveis às hipóteses utilizadas para o termo de erro, é

necessário selecionar o “melhor” modelo entre os que foram ajustados na sec¸˜ao anterior. Neste

cap´ıtulo usamos dois critérios de selec¸˜ao de modelos diferentes. O primeiro é o DIC, abreviac¸˜ao

do inglês Deviance Information Criterion (Spiegelhalter et al., 2001). O DIC é dado por DIC = ¯

D+pD =

D( ¯

θ) + 2pD, onde ¯D é a média a posteriori da func¸˜ao desvio (deviance) dada por D = −2 log f (y|θ) ,

onde f (y|θ) é a verossimilhanc¸a condicionada avaliada nos valores amostrados dos parâmetros.

D( ¯

θ) é obtido ao substituir a média a posteriori de θ na func¸˜ao desvio, de forma que D( ¯θ) =

18

Tabela 2.2: Estat´ısticas a posteriori associadas com os parâmetros no modelo (2.15) com Erro II Parâmetro

média

d.p.

2, 5%

50, 0%

97, 5%

ˆ

R b

Publicado em Zellner & Geisel (1970)a

k

0,878

0,201

0,940

λ

0,597

0,184

0,610

Usando a transformac¸˜ao de Koyck’s no WinBUGS

k

0,958

0,014

0,938

0,954

0,992

1,002

λ

0,754

0,087

0,562

0,764

0,893

1,001

ρ

0,790

0,141

0,454

0,811

0,991

1,002

Usando a func¸˜ao de transferência no WinBUGS

k

0,959

0,018

0,933

0,956

0,998

1,001

λ

0,737

0,125

0,462

0,762

0,899

1,001

ρ

0,751

0,106

0,548

0,750

0,955

1,001

a os valores na coluna 50% correspondem às modas.

b ˆ

R é o fator de reduc¸˜ao de escala (na convergência, ˆR = 1).

−2 log f (y| ¯

θ) , e pD = ¯D − D( ¯θ). A vers˜ao 1.4 do WinBUGS calcula o DIC de forma automática. O

modelo com o menor DIC deve ser selecionado.

O segundo critério usado para comparar os modelos foi proposto por Gelfand & Ghosh (1998)

e é denominado EPD, abreviac¸˜ao do inglês Expected Predictive Deviance. O EPD é obtido mini-

mizando a perda a posteriori de um dado modelo. Quando se considera uma func¸˜ao de perda

quadrática, o EPD pode ser calculado explicitamente. Nesse caso, se Yi,rep representa valores

replicados do i−ésimo dado observado, y

n

i,obs, temos EPD =

n

σ2 + κ

i=1 i

κ+1

i=1(µi − yi,obs)2, onde

µi = E[Yi,rep|yi,obs] e σ2 = Var[Y

i

i,rep|yi,obs]), s ˜

ao a média e a variância da distribuic¸˜ao preditiva, res-

pectivamente. O modelo que minimiza o EPD é selecionado.

A tabela 2.3 mostra os valores do DIC e EPD, considerando uma perda quadrática, obtida para

cada modelo. Observamos que os valores calculados n˜ao diferem muito sob as duas representac¸ ˜oes.

Notamos também que os menores DIC e EPD foram obtidos com o modelo de Erro II, sugerindo

que é mais apropriado assumir que os termos de erro t em (2.13) est˜ao auto-correlacionados.

Maior atenc¸˜ao deve ser prestada a este modelo, por exemplo deve-se pesquisar sua sensibilidade

19

30

4

2.5

25

3

2.0

20

1.5

15

2

1.0

10

1

5

0.5

0

0

0.0

0.92

0.94

0.96