Pesquisas sob amostragem informativa utilizando o FBST por Daniel Mendes Azerêdo - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub para obter uma versão completa.

amostral

a

menos

que

P r(Ii = 1 | yi, xi, ψ) = P r(Ii = 1 | xi, ψ) para todo yi e nesse caso a amostragem

condicionada a xi n˜ao é informativa.

Como os parâmetros da funç˜ao de densidade de probabilidade amostral incluem os

parâmetros da funç˜ao de densidade de probabilidade populacional, esses parâmetros po-

dem ser estimados calculando-se a máxima verossimilhança ou utilizando qualquer outro

2.3 Distribuiç˜

ao marginal amostral

23

método de estimaç˜ao de medidas amostrais utilizando a distribuiç˜ao amostral. A princi-

pal vantagem de fazer a inferência utilizando a distribuiç˜ao amostral é que ela permite a

utilizaç˜ao de procedimentos eficientes de inferência.

Observe que P r(Ii = 1 | yi, xi, ψ) geralmente n˜ao é a mesma que a probabilidade

de seleç˜ao πi = P r(Ii = 1 | ZU) que depende de todos valores populacionais de Z.

Considerando essas probabilidades πi como realizaç˜oes de variáveis aleatórias, a seguinte

relaç˜ao é válida

P r(Ii = 1 | yi, xi, ψ) =

P r(Ii = 1 | yi, xi, ψ, πi) fp(πi | yi, xi, ψ) dπi = Ep(πi | yi, xi, ψ),

(2.12)

pois P r(Ii = 1 | yi, xi, ψ, πi) = πi. Substituindo (2.12) em (2.11), tem-se uma express˜ao

alternativa para a funç˜ao de densidade de probabilidade amostral

fs(yi | xi, θ, ψ) = Ep(πi | yi, xi, ψ)fp(yi | xi, θ) Ep(πi | xi, ψ),

(2.13)

onde o valor esperado no denominador segue de maneira análoga a (2.12).

Uma caracter´ıstica importante de (2.13) é que para uma dada funç˜ao de densidade

de probabilidade populacional, a funç˜ao de densidade de probabilidade amostral corres-

pondente é complemente determinada pela esperança condicional Ep(πi | yi, xi, ψ), já que

Ep(πi | xi, ψ) = Ep(πi | yi, xi, ψ) fp(yi | xi, θ) dyi.

Quando a funç˜ao de densidade de probabilidade populacional n˜ao depende de variáveis

concomitantes, tem-se que Yi ∼ fp(yi | θ) e a relaç˜ao (2.13) é reduzida para

fs(yi | θ, ψ) = Ep(πi | yi, ψ)fp(yi | θ) Ep(πi | ψ).

(2.14)

Nesse caso, o denominador é um número fixo, embora possa depender de parâmetros

desconhecidos.

24

Amostragem informativa

Exemplo 2.3.1. Modelos com regress˜

ao linear

Considere a distribuiç˜ao populacional dada por

fp(yi | xi, β0, β, σ2) = N(β0 + xTi β, σ2),

(2.15)

e que as probabilidades de inclus˜ao na amostra tem valor esperado

E

2

p(πi | yi, xi, α1, α2) = exp[α1yi + α2yi + h(xi)],

para alguma funç˜ao h(xi) .

Utilizando a relaç˜ao (2.13), tem-se que a distribuiç˜ao amostral é dada por

fs(yi | xi, β0, β, σ2, α1, α2) = N (β0 + α1σ2 + xTi β)/τ, σ2/τ ,

onde τ = 1 − 2 α2 σ2 .

Observe que apesar dos valores amostrais ainda terem distribuiç˜ao normal,

Es(yi | xi, β0, β, σ2, α1, α2) = (β0 + α1σ2 + xTi β)/τ = β0 + xTi β = Ep(yi | xi, β0, β, σ2) e a variância também muda em funç˜ao do fator fixo τ .

No caso em que α2 = 0 , a regress˜ao considerando a distribuiç˜ao populacional é a

mesma, exceto pelo intercepto que passa a ser (β0 + α1σ2) . Se α1 também é nulo, a amostragem n˜ao é informativa e os modelos populacional e amostral coincidem.

Exemplo 2.3.2. Modelos Gama sob amostragem com probabilidade proporci-

onal ao tamanho

Considere que a distribuiç˜ao populacional é Gama com parâmetro de forma α e média

µi , tal que

fp(yi | α, µi) ∝ yα−1 exp(

i

−αyi/µi).

(2.16)

Se as probabilidades de seleç˜ao da amostra tem valores esperados Ep(πi | yi) ∝ yi ent˜ao, utilizando a relaç˜ao (2.13) , a distribuiç˜ao amostral de Yi é também uma distribuiç˜ao Gama com parâmetro de forma (α + 1) e média µi(α + 1) α .

Considerando log(µi) = β0 + xTi β com xi um vetor de dados conhecidos, ent˜ao α + 1

α + 1

Es(yi | xi, α, µi, β0, β) = µi

= exp β

+ xT

α

0 + log

α

i β

.

(2.17)

Observe que nesse caso somente o intercepto das distribuiç˜oes populacional e amostral é

diferente.

2.4 Distribuiç˜

ao marginal respondente

25

Exemplo 2.3.3. Modelos com regress˜

ao log´

ıstica

Considere Y uma variável de resposta categorizada assumindo valores 0, 1, . . . , L − 1 , X o conjunto de variável concomitantes e suponha que P r(Y = l | X, α, β) pode ser

modelado usando regress˜ao log´ıstica de forma que

L−1

P r(yi = l | xi, α, β) = exp(αl + xTi βl)

exp αj + xTi βj ,

(2.18)

j=0

onde α0 = 0 e β0 = 0 para garantir unicidade. Assim, o modelo (2.18) define a distribuiç˜ao populacional antes do processo de amostragem.

Suponha que a seleç˜ao da amostra é realizada por amostragem de Poisson com proba-

bilidades P r(Ii = 1 | yi = l, xi) = Pl , para cada l = 0, . . . , L − 1 . Assim, L−1

P r(yi = l | Ii = 1, xi, α, β) = Pl exp αl + xTi βl

Pj exp αj + xTi βj

j=0

L−1

= exp γl + xTi βl

exp γj + xTi βj

(2.19)

j=0

onde γ0 = 0 e γk = [log(Pk/P0) + αk] , para k > 0 .

Portanto, de acordo com (2.19) , a distribuiç˜ao amostral é novamente log´ıstica com o mesmo coeficiente de inclinaç˜ao que a distribuiç˜ao populacional e com diferentes interceptos. Obviamante, quando Pk = P0 para todo k , as distribuiç˜oes populacional e amostral s˜ao iguais.

2.4

Distribuiç˜

ao marginal respondente

A definiç˜ao de funç˜ao de densidade de probabilidade amostral dada por (2.13) pode

ser estendida, considerando-se o caso de n˜ao-resposta, para distinguir entre a seleç˜ao da

amostra e a probabilidade de n˜ao-resposta. Para isso, considere novamente r o vetor

indicador de respostas, isto é, ri = 1 se a unidade i ∈ S responder e ri = 0 caso contrário.

Geralmente a probabilidade de resposta P r(ri = 1|Ii = 1) é desconhecida e só pode ser

estimada utilizando hipóteses estritas.

Segundo Pfeffermann e Sikov [33], considerando a variável indicadora de resposta r, a

26

Amostragem informativa

funç˜ao de densidade de probabilidade respondente é definida por

fr(yi | xi, θ, ψ, φ) = f(yi | xi, θ, ψ, φ, Ii = 1, Ri = 1)

P r(R

=

i = 1 | yi, xi, φ, Ii = 1)fs(yi | xi, θ, ψ)

(2.20)

P r(Ri = 1 | xi, φ, Ii = 1)

P r(R

=

i = 1 | yi, xi, φ, Ii = 1)P r(Ii = 1 | yi, xi, ψ)fp(yi | xi, θ) .

P r(Ri = 1 | xi, φ, Ii = 1)P r(Ii = 1 | xi, ψ)

(2.21)

As funç˜oes de densidade de probabilidade (2.13), (2.20) e (2.21) referem-se à distri-

buiç˜ao marginal da medida yi. Essas definiç˜oes generalizam a funç˜ao de densidade de

probabilidade conjunta de duas ou mais medidas associadas com diferentes unidades.

A modelagem das probabilidades de n˜ao-resposta foi feita por Greenlees, Reece e

Zieschang [12] considerando uma distribuiç˜ao log´ıstica dependendo da variável resposta

Y e das variáveis Z do processo de amostragem considerando o modelo populacional

fp(yi | xi, θ) com distribuiç˜ao normal. Nesse trabalho, a funç˜ao de verossimilhança foi

constru´ıda considerando os elementos da amostra respondentes e os n˜ao-respondentes

utilizando máxima verossimilhança para estimar os parâmetros do modelo. Em seguida,

o valor esperado para os elementos n˜ao-respondentes foi estimado utilizando técnicas

numéricas de integraç˜ao.

Posteriormente, Beaumont [3] também considerou a modelagem da probabilidade de

n˜ao-resposta por uma funç˜ao log´ıstica considerando o caso em que os res´ıduos do modelo

populacional fp(yi | xi, θ) tem distribuiç˜ao normal.

Por outro lado, o trabalho de Tang, Little e Raghunathan [41] n˜ao considera a mo-

delagem da probabilidade de n˜ao-resposta argumentando que na prática o mecanismo

de dados faltantes n˜ao é bem entendido e que a forma funcional da probabilidade de

n˜ao-resposta é desconhecida. Nesse trabalho, a estimaç˜ao dos parâmetros dos modelo foi

realizada considerado uma pseudoverossimilhança baseada na distribuiç˜ao das covariáveis

do problema.

Diferentemente dos trabalhos de Greenlees, Reece e Zieschang [12], Beaumont [3] e

Tang, Little e Raghunathan [41] citados anteriomente, ao utilizar as distribuiç˜oes (2.20) e

(2.21) n˜ao é necessário conhecer os valores das covariáveis nas unidades n˜ao-respondentes

2.5 Relaç˜

oes gerais de invariância

27

e nem modelar a distribuiç˜ao das covariáveis amostradas.

É importante enfatizar que nos casos de amostragem informativa, a distribuiç˜ao amos-

tral dada por (2.13) refere-se à distribuiç˜ao das medidas amostrais, definidas pelo modelo

populacional e o processo de seleç˜ao da amostra, considerando a amostra de entrevista-

dos fixa. Isso implica, por exemplo, que os conglomerados amostrados em dois estágios

e as covariáveis observadas {xi, i ∈ S} est˜ao fixadas em relaç˜ao ao modelo. O mesmo

é válido para o caso das unidades respondentes, que dependem também do processo de

n˜ao-resposta. Por outro lado, a distribuiç˜ao aleatorizada dos dados, condicionada aos

valores populacionais {yi, xi, i ∈ U}, que s˜ao tratados como valores fixos, e os elemen-

tos estocásticos usados na inferência referem-se a seleç˜ao aleatória da amostra (ou dos

respondentes). A utilizaç˜ao dessa distribuiç˜ao n˜ao está condicionada aos conglomerados

amostrados ou às covariáveis observadas.

2.5

Relaç˜

oes gerais de invariância

Na presente Seç˜ao s˜ao apresentadas condiç˜oes gerais, propostas por Pfeffermann,

Krieger e Rinott [28], sob as quais a distribuiç˜ao amostral pertence à mesma fam´ılia

da distribuiç˜ao populacional.

Para isso, considere que a funç˜ao de densidade de probabilidade populacional pertence

a fam´ılia exponencial, isto é,

K

fp(yi | xi, θi) = ai(θi) exp

θki bki(yi) + ci(yi) ,

(2.22)

k=1

onde θi = (θ1i, . . . , θKi)′ define a parametrizaç˜ao natural da fam´ılia com valores no espaço

de parâmetros Θ ⊂ RK com bki(.) e cki(.) sendo funç˜oes conhecidas.

Além disso, suponha que as probabilidades de inclus˜ao da amostra tenham valor es-

perado

K

Ep(πi | yi, xi, ψi) = ri exp

ψki bki(yi) ,

(2.23)

k=1

onde os ri’s s˜ao constantes que podem depender de xi, mas n˜ao de yi, e os {ψki} s˜ao os

parâmetros do processo de amostragem.

28

Amostragem informativa

Proposiç˜

ao 2.5.1. Se a funç˜ao de densidade de probabilidade populacional de Yi pertence

a fam´ılia exponencial definida por (2.22) e a probabilidade de inclus˜ao da amostra satisfaz (2.23), ent˜ao a funç˜ao de densidade de probabilidade amostral de yi pertence a mesma fam´ılia exponencial com parâmetros θ∗ = θ

ki

ki + ψki (com a condi¸

c˜ao que θ∗ik ∈ Θ ).

O resultado estabelecido na Proposiç˜ao 2.5.1 é semelhante a uma quest˜ao familiar

de identificaç˜ao das distribuiç˜oes a priori em inferência bayesiana. Cox e Hinkley [7]

considera a fam´ılia de distribuiç˜oes a priori na qual a distribuiç˜ao a posteriori pertence a mesma fam´ılia como invariante sob amostragem. No presente contexto, esta terminologia

é perfeitamente adequada.

A dependência de xi nas equaç˜oes (2.22) e (2.23) ocorre geralmente por meio de θki e

ψki respectivamente. Esta dependência pode ocorrer mais explicitamente para uma classe

de modelos de regress˜ao de Y em X se as seguintes relaç˜oes s˜ao consideradas verdadeiras

θki = φ0k + x′iφk e ψki = γ0k + x′iγk.

(2.24)

Corolário 2.5.1. Considerando válidas as condiç˜oes do Proposiç˜ao 2.5.1 e as igualdades em (2.24), a funç˜ao de densidade de probabilidade amostral pertence a mesma fam´ılia com

parâmetros θik = (φ0k +γ0k)+x′i(φk +γk) . Em particular, se as funç˜oes ψki n˜ao dependem de xi , isto é γk = 0 , os coeficientes de xi na parametrizaç˜ao natural da funç˜ao de densidade de probabilidade amostral s˜ao os mesmos da funç˜ao de densidade de probabilidade

populacional.

2.6

Distribuiç˜

oes amostrais em projetos amostrais ge-

rais

Na presente Seç˜ao, considere conhecida a forma da esperança condicional

Ep(πi|yi, xi, ψ). Obviamente isso pode n˜ao ser verdade na prática, particularmente quando

os πi’s dependem também de variáveis utilizadas no projeto amostral que n˜ao est˜ao con-

tidas entre as variáveis concomitantes X.

Uma vantagem importante da utilizaç˜ao de probabilidade amostral é que, exceto em

casos de n˜ao-resposta, as probabilidades de seleç˜ao da amostra s˜ao sempre conhecidas.

2.6 Distribuiç˜

oes amostrais em projetos amostrais gerais

29

Considerando que elas est˜ao dispon´ıveis para o analista pelo menos nas unidades da amos-

tra, as esperanças condicionais Ep(πi | yi, xi, ψ) podem ser estimadas por meio dos dados

amostrais.

2.6.1

Seleç˜

ao com probabilidade proporcional ao tamanho

Suponha que os πi’s s˜ao medidas de tamanho, consideradas medidas de alguma funç˜ao

de densidade de probabilidade g(π). Sob algumas condiç˜oes de regularidade, a esperança

Ep(πi | yi, xi, ψ) pode ser aproximada por polinômios de baixa ordem em funç˜ao de yi,

das componentes de xi e dos parâmetros ηT = (η0, . . . , ηd) e λT = (λ11, . . . , λl(p)p), ou por exponenciais de tais polinômios, por meio das séries de Taylor.

Para o primeiro caso, considere xi = (xi1, xi2, . . . , xim). Assim,

d

m

Ep(πi | yi, xi, η, λ) ≈

ηjyj +

h(x

i

ip | λ),

(2.25)

j=0

p=1

onde d é o grau do polinômio em yi e h é um polinômio em funç˜ao de xip | λ dado por

l(p)

h(xip | λ) =

λkp xkip = λ1p xip + λ2p x2ip + λ3p x3ip + · · · + λl(p)p xl(p),

(2.26)

ip

k=1

com l(p) igual ao grau do polinômio em xip e {ηj} e {λkp} s˜ao parâmetros desconhecidos

do mecanismo de seleç˜ao da amostra.

Substituindo

(2.25)

em

(2.13)

e

supondo

a

existência

dos

momentos

E(j) = Ep(Y ji | xi, θ), a funç˜ao de densidade de probabilidade amostral pode ser aproxi-

mada por

d

η

+

m

h(x

j=0

j yji

p=1

ip | λ) fp(yi | xi, θ)

fs(yi | xi, θ, η, λ) ≈

.

(2.27)

η0 +

d

η

h(x

j=1

j Ep(yji | xi, θ) +

m

p=1

ip | λ)

Como a distribuiç˜ao definida em (2.27) depende dos parâmetros do processo amostral

que geralmente s˜ao desconhecidos, o processo de inferência deve considerar a estimaç˜ao

desses parâmetros. Para isso, a distribuiç˜ao amostral de zi | yi, xi, η, λ deve ser inclu´ıda

no modelo. Assim, como πi = P r(Ii = 1 | ZU) = Czi, onde C = n é constante, tem-se

N z

30

Amostragem informativa

que os valores esperados de πi e a distribuiç˜ao amostral de zi | yi, xi, η, λ s˜ao dados por

Ep(πi | zi, yi, xi, η, λ) = C Ep(zi | zi, yi, xi, η, λ) = C zi,

(2.28)

Ep(πi | yi, xi, η, λ) = C

zi fp(zi | yi, xi, η, λ)dzi

d

m

= C

ηjyj +

h(x

i

ip | λ)

,

(2.29)

j=0

p=1

E

f

p(πi | zi, yi, xi, η, λ)fp(zi, yi, xi, η, λ)

s(zi | yi, xi, η, λ)

=

Ep(πi | yi, xi, η, λ)

z

=

i fp(zi | yi, xi, η, λ)

.

(2.30)

d

η

+

m

h(x

j=0

j yji

p=1

ip | λ)

Consequentemente, considerando ψT = (η0, . . . , ηd, λ11, . . . , λl(m)m) os parâmetros do

processo de amostragem, θ os parâmetros da distribuiç˜ao populacional e a distribuiç˜ao a

priori f (θ, ψ), a distribuiç˜ao conjunta a posteriori é dada por

n

n

f (θ, ψ | y, X, Z) ∝ f(θ, ψ)

fs(yi | xi, θ, ψ)

fs(zi | yi, xi, ψ).

(2.31)

i=1

i=1

Nesse caso, o vetor de parâmetros (θ, ψ) da funç˜ao de densidade de probabilidade

amostral fs(yi | xi, θ, ψ) é formado pelo vetor de parâmetros θ da funç˜ao de densidade

de probabilidade populacional fp(yi | xi, θ) e pelo vetor de parâmetros ψ do processo de

seleç˜ao da amostra. Logo, a funç˜ao de densidade de probabilidade amostral pode depender

de mais parâmetros do que a funç˜ao de densidade de probabilidade populacional.

Por outro lado, considere a aproximaç˜ao

d

m

Ep(πi | yi, xi, η, λ) ≈ exp

ηjyj +

h(x

i

ip | λ)

,

(2.32)

j=0

p=1

onde d é novamente o grau do polinômio definido em yi e os polinômios h(xip | λ) est˜ao

definidos em (2.26).

Essa situaç˜ao é mais frequente quando a seleç˜ao da amostra é realizada em vários

estágios, tais que as probabilidades de inclus˜ao final s˜ao o produto das probabilidades de

seleç˜ao em todos os estágios. Se o vetor xi contém as variáveis de seleç˜ao da amostra

2.6 Distribuiç˜

oes amostrais em projetos amostrais gerais

31

utilizadas nos vários estágios, é natural expressar as esperanças Ep(πi | yi, xi, η, λ) como

a funç˜ao multiplicativa de yi e xi. Assim,

exp

d

η

+

m

h(x

j=0

j yji

p=1

ip | λ) fp(yi | xi, θ)

fs(yi | xi, θ, η, λ) ≈

.

(2.33)

Ep exp

d

η

+

m

h(x

j=0

j yji

p=1

ip | λ)

| xi

A desvantagem da aproximaç˜ao (2.32) e da express˜ao resultante (2.33) é que alguns

dos parâmetros da funç˜ao de densidade de probabilidade populacional n˜ao podem ser

identificados pelas observaç˜oes amostrais de Y e X sozinhas. Por exemplo, no caso da

regress˜ao linear do exemplo 2.3.1, o intercepto β0 da regress˜ao populacional n˜ao pode

ser separado do intercepto (β0 + α1σ2) da regress˜ao amostral a menos que o coeficiente

amostral α1 seja estimado separadamente.

Quando o número de parâmetros da funç˜ao de densidade de probabilidade amostral

é muito grande, é mais fácil estimar esse parâmetros em dois passos. No primeiro passo,

os coeficientes {ηj} e {λkp} s˜ao estimados das probabilidades observadas πi, utilizando

as relaç˜oes (2.25) e (2.32). No segundo passo, os parâmetros da funç˜ao de densidade de

probabilidade populacional s˜ao estimados pela máxima verossimilhança ou por qualquer

outro método utilizando as estimativas de {ηj} e {λkp} encontradas no primeiro passo.

2.6.2

Seleç˜

ao com amostragem estratificada

Na presente seç˜ao, considera-se probabilidades de seleç˜ao constantes dentro de cada

estrato. Com isso, Ep(πi | yi, xi, ψ) n˜ao pode ser considerada cont´ınua em y e x para

a utilizaç˜ao de aproximaç˜oes por séries de Taylor, como no caso de amostragem com

probabilidade proporcional ao tamanho.

Seja Zi = q(Yi, xi, ψ) uma variável aleatória com xi podendo ser fixo ou aleatório

e ψ uma vetor de parâmetros. Considere a(0) < a(1) < · · · < a(L) os L percentiles da

distribuiç˜ao Z com a(0) = −∞ e a(L) = ∞. Esses percentiles definem uma divis˜ao dos

valores populacionais em L estratos U1, U2, . . . , UL de tamanhos N1, N2, . . . , NL baseados

nos valores realizados z1, z2, . . . , zN . A divis˜ao é tal que a unidade i pertence ao estrato

Ul se e somente se a(l−1) < zi < a(l), definindo assim a variável O tal que Oi = l indica

32

Amostragem informativa

que a unidade i pertence ao estrato l, isto é,

1, z

i < a(1)

2, a(1)

≤ zi < a(2)

.

.

.

Oi =

(2.34)

i,

a(i−1)

≤ zi < a(i)

.

.

.

 L,

zi ≥ a(L−1)

Supondo amostragem estratificada desproporcional, a amostragem é informativa pois

a divis˜ao dos estratos está relacionada com a variável resposta. Considerando os tamanhos

amostrais nl e Pl = nl/Nl as proporç˜oes amostradas em cada estrato l = 1, . . . , L, tem-se

Ep(πi | yi, xi, ψ) = P r(i ∈ S | yi, xi, ψ)

L

=

Pk P r(Oi = k | yi, xi, ψ)

k=1

L

=

Pk P r a(k−1) ≤ zi < a(k) | yi, xi, ψ .

(2.35)

k=1

Analogamente, tem-se

Ep(πi | xi, ψ) = P r(i ∈ S | xi, ψ)

L

=

Pk P r(Oi = k | xi, ψ)

k=1

L

=

Pk P r a(k−1) ≤ zi < a(k) | xi, ψ

k=1

L

a(k)

=

Pk

fp(z | xi, ψ)dz .

(2.36)

k=1

a(k−1)

Assim, a funç˜ao de densidade de probabilidade amostral de Yi|xi é dada por

P

1 fp(yi | xi, θ)

Ep(πi | xi, ψ) se zi ≤ a(1)

P2 fp(yi | xi, θ) Ep(πi | xi, ψ) se a(1) < zi ≤ a(2)

fs(yi | xi, θ, ψ) =

.

(2.37)

.

.

 PL fp(yi | xi, θ)

Ep(πi | xi, ψ) se a(L−1) < zi.

2.6 Distribuiç˜

oes amostrais em projetos amostrais gerais

33

Similarmente, a distribuiç˜ao amostral de zi | yi pode ser definida por

E

f

p(πi | zi, yi, ψ)fp(zi | yi, ψ)

s(zi | yi, ψ) =

,

(2.38)

Ep(πi | yi, ψ)

onde

Ep(πi | zi, yi, ψ) = P r(i ∈ S | zi, yi, ψ) = P r(i ∈ S | ψ, Oi = k) = Pk,

(2.39)

e Ep(πi | yi, ψ) = Ep(πi | yi, xi, ψ) dado por (2.35) pois

P r(a(k−1) < zi ≤ a(k) | yi, xi, ψ) = P r(a(k−1) < zi ≤ a(k) | yi, ψ).

(2.40)

34

Amostragem informativa

Cap´ıtulo 3

FBST

Testes de significância para hipóteses precisas s˜ao procedimentos frequentemente uti-

lizados para medir a consistência dos dados com alguma hipótese precisa. Esses procedi-

mentos comp˜oem um problema antigo e controverso na inferência estat´ıstica, pois tanta a

escola bayesiana quanto a frequentista têm apresentado frequentemente soluç˜oes para esse

problema sem considerar quest˜oes fundamentais tais como a medida da hipótese precisa.

O objetivo do presente Cap´ıtulo é apresentar uma medida bayesiana coerente para o

valor de evidência para hipóteses precisas e um teste de significância baseado neste valor

de evidência chamado FBST ( Full Bayesian Significance Test), proposto por Pereira e

Stern [24]. Esse método foi apresentado considerando que testes de significância para

hipóteses precisas precisam ser realizados.

O FBST é intuitivo, tem uma caracterizaç˜ao geométrica e pode ser implementado

utilizando modernas técnicas de otimizaç˜ao e integraç˜ao numérica. Além disso, o método

é completamente bayesiano, pois é necessário conhecer somente o espaço paramétrico

representado pela funç˜ao de densidade a posteriori, e consiste na análise de conjuntos de credibilidade.

O FBST tem sido aplicado com sucesso em inúmeros problemas estat´ısticos relevan-

tes, tais como: teste de homogeneidade e independência em tabela de contingência; com-

paraç˜ao de coeficientes de variaç˜ao (veja Pereira e Stern [25]); problema de Behrens-Fisher

multivariado; teste de equil´ıbrio de Hardy-Weinberg; seleç˜ao de variáveis; teste de inde-

pendência da distribuiç˜ao de Holgate (Poisson bivariada) (veja Stern e Zacks [39]) e teste

de Weibull (veja Irony et al. [14])

35

36

FBST

3.1

Definiç˜

ao intuitiva do FBST

Na presente Seç˜ao é apresentada a vers˜ao intuitiva do FBST introduzida por Pereira

e Stern [24] juntamente com um exemplo de um problema de inferência o qual este teste

já foi utilizado anteriormente.

Para isso, considere um espaço estat´ıstico onde Θ ⊂ Rm é o espaço paramétrico, χ ⊂ Rk é o espaço amostral, θ ∈ Θ é o parâmetro, f(θ) é a funç˜ao de densidade a priori sobre Θ, x é um vetor com os dados observados e Lx(θ) é a verossimilhança gerada pelos dados x.

Definiç˜

ao 3.1.1. Uma hipótese precisa H estabelece que θ pertence a uma subvariedade ΘH de dimens˜ao menor que Θ .

A hipótese H é precisa quando o subconjunto ΘH tem medida de Lebesgue nula.

Na construç˜ao do FBST todos os conjuntos de mesma natureza s˜ao tratados da mesma

maneira e, como consequência disso, os conjuntos que definem hipóteses precisas têm

sempre medida nula. Nesta construç˜ao, ao invés de mudar a natureza do H supondo

probabilidade positiva nesse conjunto, trabalha-se com o conjunto tangente T dos pontos

que têm os valores da funç˜ao densidade de probabilidade a posteriori maiores que qualquer valor dessa funç˜ao restrita ao conjunto ΘH.

Após a observaç˜ao dos dados x, o único ente relevante para a avaliaç˜ao do valor de

evidência bayesiano a favor de H, ev, é a funç˜ao densidade de probabilidade a posteriori

de θ dado x, denotada por

fn(θ|x) ∝ f(θ)Lx(θ).

(3.1)

Definiç˜

ao 3.1.2. Considere uma hipótese precisa H : θ ∈ ΘH ,

f ∗ = sup fn(θ|x) e T = {θ ∈ Θ | fn(θ|x) > f∗}.

θ∈ΘH

O valor de evidência bayesiano contra H , considerando os dados amostrais x conhecidos, é definido pela probabilidade a posteriori do conjunto tangente, isto é,

ev = P r(θ ∈ T |x) =

fn(θ|x)dθ.

T

3.1 Definiç˜

ao intuitiva do FBST

37

Observe que o valor de evidência a favor de H, ev = 1 − ev, n˜ao é uma evidência

contra a hipótese alternativa H (que n˜ao é precisa). Equivalentemente, ev n˜ao é evidência

a favor de H embora seja contra H.

Definiç˜

ao 3.1.3. O FBST (Full Bayesian Significance Test) é um procedimento que re-

jeita a hipótese precisa H quando ev é pequeno.

Para ilustrar a utilizaç˜ao do FBST, segue um exemplo de um problema de inferência

trabalhado primeiramente por McNemar [21] e posteriormente discutido por Irony, Pereira

e Tiwari [13] e por Pereira, Stern e Wechsler [26].

Exemplo 3.1.1. Dois professores, Ed e Joe, do Departamento de Odontologia avaliaram

a habilidade de 224 estudantes em fazer obturaç˜oes dentais. Cada estudante foi avaliado pelos dois professores e o resultado da avaliaç˜ao deve ser aprovado (A) ou reprovado (R),

pois o departamento quer avaliar se os professores s˜ao igualmente exigentes. A tabela

abaixo apresenta os resultados.

Joe

A

R

Total

A

62

41

103

Ed

R

25

96

121

Total 87 137

224

Nesse exemplo, tem-se quatro classes de classificaç˜ao com probabilidades θ11 , θ12 , θ21 e θ22 . A hipótese H a ser testada é a chance dos dois professores reprovarem (ou aprovarem) a mesma quantidade de alunos. Assim, H : θ1, = θ

que é equivalente a ˆ

A H : θ

2,•

12 = θ21

(contra H : θ12 = θ21 ).

Considerando uma distribuiç˜ao a priori uniforme, isto é, f (θ) = Dirichlet(1, 1, 1, 1) , a funç˜ao de densidade a posteriori é fn(θ|x) = Dirichlet(63, 42, 26, 97) .

O primeiro passo para calcular o valor de evidência é obter um valor f ∗ = fn(θ∗|x) , satisfazendo a hipótese H , que maximize a funç˜ao de densidade a posteriori

Γ(224)

f

62

41

25

96

n(θ11, θ12, θ21, θ22|x) =

θ

θ

θ

θ

.

Γ(62)Γ(41)Γ(25)Γ(96) 11

12

21

22

38

FBST

Assim, deseja-se resolver o seguinte problema de otimizaç˜ao com restriç˜oes de igual-

dade

Maximizar fn(θ11, θ12, θ21, θ22|x)

Sujeito a

θ12 = θ21

θ11 + θ12 + θ21 + θ22 = 1

Resolver esse problema com restriç˜oes é equivalente a resolver o seguinte problema de

otimizaç˜ao sem restriç˜oes

Maximizar g

66

96

n(θ12, θ22|x) ∝ (1 − 2θ12 − θ22)62θ12

θ22 ,

cuja soluç˜ao é θ∗12 = 33/224 e θ∗22 = 96/224 .

Portanto, a distribuiç˜ao a posteriori atinge valor máximo condicionada a hipótese H

1

no ponto θ∗ =

(62, 33, 33, 96) e o valor máximo obtido é 622 .

224

Com isso, o conjunto tangente é definido por T = {θ ∈ Θ; fn(θ|x) > 622} , onde

Θ = {θ = (θ11, θ12, θ21, θ22); θ11 + θ12 + θ21 + θ22 = 1 e θij > 0} .

Finalmente, integrando numericamente obtem-se ev = 0, 2641 .

3.2

Definiç˜

ao invariante do FBST

Na presente Seç˜ao, apresenta-se uma vers˜ao invariante do FBST sob transformaç˜oes

no sistema de coordenadas no espaço de parâmetros proposta por Madruga, Pereira e

Stern [20], que é uma generalizaç˜ao da Definiç˜ao 3.1.2 de valor de evidência apresentada

na Seç˜ao anterior. Para isso, considere r(θ) uma funç˜ao densidade de referência em Θ.

Definiç˜

ao 3.2.1. A funç˜ao sn(θ|x) = fn(θ|x)/r(θ) é chamada de surpresa relativa a

posteriori para uma dada funç˜ao densidade de probabilidade r(θ) definida em Θ .

Definiç˜

ao 3.2.2. Considere uma hipótese precisa H : θ ∈ ΘH ,

s∗ = sup sn(θ|x) e T = {θ ∈ Θ|sn(θ|x) > s∗}.

(3.2)

θ∈ΘH

O valor de evidência invariante contra a hipótese H , considerando os dados amostrais x conhecidos, é definida por

ev =

fn(θ|x)dθ.

(3.3)

T

3.2 Definiç˜

ao invariante do FBST

39

O conjunto T formado pelos pontos θ ∈ Θ com surpresa relativa maior que qualquer

ponto de ΘH é chamado conjunto de surpresa relativa mais alta ( highest relative surprise set - HRSS).

Definiç˜

ao 3.2.3. A vers˜ao invariante do FBST é um procedimento que rejeita a hipótese

precisa H quando ev = 1 − ev é pequeno.

Proposiç˜

ao 3.2.1. A Definiç˜ao 3.2.2 de valor de evidência contra H é invariante com

respeito a ˆ

A reparametrizaç˜oes das coordenadas de θ .

Prova. Considere φ é uma funç˜ao bijetora, continuamente derivável e integrável tal que ω = φ(θ) é uma reparametrizaç˜ao de θ e J(ω) é a matriz Jacobiana dessa transformaç˜ao, isto é,

∂θ

1

· · ·

∂θ1

∂θ

∂ω1

∂ωn

.

.

J(ω) =

Φ−1(ω) =

=  .

. .

.

.

.

.

 .

∂w

∂ω

∂θn

· · ·

∂θn

∂ω1

∂ωn

Como a funç˜ao de densidade a posteriori de ω , dado x , pode ser escrita como

˜

fn(ω) = fn(φ−1(ω))|J(ω)|

e a funç˜ao densidade de referência após a reparametrizaç˜ao é

˜

r(ω) = r(φ−1(ω))|J(ω)|,

ent˜ao a funç˜ao surpresa relativa é

˜

f

f

˜

s

n(ω)

n(φ−1(ω))

n(ω) =

=

.

˜

r(ω)

r(φ−1(ω))

Considere ΩH = φ(ΘH) , tem-se

˜

s∗ = sup ˜

sn(ω) = sup sn(θ) = s∗.

ω∈ΩH

θ∈ΘH

Portanto, φ(TΘ) = TΩ e o valor de evidência sob parametrizaç˜ao é

1 − ˜ev =

˜

fn(ω)dω =

fn(θ)dθ = 1 − ev = ev.

TΩ

Note que a definiç˜ao invariante do FBST está de acordo com a definiç˜ao intuitiva do

FBST quando a densidade de referência é a densidade uniforme.

40

FBST

3.3

Funç˜

ao de perda para o FBST

Na presente Seç˜ao, s˜ao apresentadas funç˜oes de perdas para teste de significância

para hipóteses precisas utilizando o FSBT. Para isso será considerado somente a funç˜ao

densidade de probabilidade a posteriori sobre Θ, sem a necessidade de introduzir uma

probabilidade positiva para ΘH como no teste de Jeffrey. Essas funç˜oes de perdas fo-

ram propostas por Madruga, Esteves e Wechsler [19] e est˜ao em harmonia com a teoria

bayesiana de decis˜ao de Rubin [37].

Considere a hipótese precisa H : θ = θ0 contra a hipótese H : θ = θ0 e o espaço de

decis˜ao D = {Aceitar H (d0), N˜ao Aceitar H (d1)}.

Definiç˜

ao

3.3.1. A

funç˜ao

de

perda

L

em

D × Θ

definida

por

L( N˜ao Aceitar H, θ) = a [1 − I(θ ∈ T (x))] e L( Aceitar H, θ) = b + c I(θ ∈ T (x)) , com a, b e c constantes positivas, é chamada funç˜ao de perda LP1 .

Um aspecto importante das funç˜oes de perda LP1 é que elas punem pesadamente quem

aceita a hipótese precisa H quando θ é mais provável que θ0, isto é, quando θ pertence a

T (x).

Teorema 3.3.1. A minimizaç˜ao da esperança a posteriori da funç˜ao de perda LP1 é um procedimendo equivalente ao FBST.

Prova. O risco a posteriori de aceitaç˜ao é

Ef [L(d

[L( Aceitar H, θ)|x]

n

0, θ)|x]

= Efn

=

[b + c I(θ ∈ T (x))] fn(θ|x)dθ

Θ

=

b fn(θ|x)dθ +

c fn(θ|x)dθ

Θ

T (x)

= b + c (1 − ev(ΘH|x)).

Por outro lado, o risco a posteriori de n˜ao aceitaç˜ao é

Ef [L(d

[L( N˜ao Aceitar H, θ)|x]

n

1, θ)|x]

= Efn

=

a [1 − I(θ ∈ T (x))] fn(θ|x)dθ

Θ

=

a fn(θ|x)dθ −

a fn(θ|x)dθ

Θ

T (x)

= a ev(ΘH|x).

3.3 Funç˜

ao de perda para o FBST

41

O teste consiste em aceitar a hipótese H se, e somente se, Ef [L(d

[L(d

n

0, θ)|x] < Efn

1, θ)|x] ,

isto é, se

b + c

ev(ΘH|x) >

.

(3.4)

a + c

Considerando a desigualdade (3.4), observa-se que se a < b ent˜ao a decis˜ao será sempre

n˜ao aceitar a hipótese H, pois ev(ΘH|x) tem valores no intervalo [0, 1]. Em particular, se

tomar a decis˜ao de n˜ao aceitar H é sempre prefer´ıvel do que aceitar H, mesmo com θ n˜ao

pertencendo a T (x), ent˜ao a decis˜ao será sempre n˜ao aceitar H.

Por outro lado, se a >> b e c é relativamente pequeno, ent˜ao para a aceitaç˜ao de H

n˜ao é necessário um valor muito grande de ev(ΘH|x). Isso acontece quando a decis˜ao é

tomada considerando que d0 é preferivel a d1 e que θ pertencer a T (x) n˜ao é um problema.

Exitem variaç˜oes das funç˜oes de perda LP1 cujas interpretaç˜oes s˜ao diferentes da

apresentada aqui que ainda satisfazem o FBST. Considere, por exemplo, a minimizaç˜ao

da esperança a posteriori de L′ definida por L′(N˜ao Aceitar H, θ) = a − d I(θ ∈ T (x)) e L′(Aceitar H, θ) = L(Aceitar H, θ) resultará novamente no FBST.

Uma abordagem diferente para o FBST é considerá-lo como um problema de es-

timaç˜ao. Mais precisamente, considerar ev(ΘH|x) como um estimador de I(θ ∈ ΘH).

Com isso, o espaço de decis˜ao D′ é formado pelas funç˜oes A-mensuráveis φ : X → [0, 1].

Para mostrar que a medida de evidência do FBST é uma soluç˜ao bayesiana desse problema

define-se a seguinte funç˜ao de perda

Definiç˜

ao 3.3.2. Seja φ(x) um estimador da funç˜ao I(θ ∈ ΘH) e T c(x) o conjunto complementar de T (x) . A funç˜ao de perda L em D′ × Θ definida por L(φ(x), θ) =

[I(θ ∈ T c(x)) − φ(x)]2 é chamada funç˜ao de perda LP2 .

Observe que a substituiç˜ao de I(θ ∈ ΘH) por I(θ ∈ T c(x)) = 1 − I(θ ∈ T (x)) na

express˜ao da funç˜ao de perda LP2 resultará na express˜ao da funç˜ao de perda quadrática

usual, cuja soluç˜ao otimal é o verdadeiro estimador bayesiano P (θ ∈ ΘH|x). O termo

I(θ ∈ T c(x)) incorpora a idéia original do FBST que pontos pertencentes a T c(x) devem

garantir a hipótese precisa H enquanto pontos pertencentes a T (x) devem desacreditar a

hipótese H.

42

FBST

Teorema 3.3.2. A medida de evidência do FBST minimiza a esperança a posteriori da

funç˜ao de perda LP2 .

Prova. O risco a posteriori é dado por

Ef [L(φ(x), θ)|x] =

L(φ(x), θ) f

L(φ(x), θ) f

n

n(θ|x)dθ +

n(θ|x)dθ

T c(x)