Pesquisas sob amostragem informativa utilizando o FBST por Daniel Mendes Azerêdo - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub para obter uma versão completa.

Pesquisas sob amostragem

informativa utilizando o FBST

Daniel Mendes Azeredo

Tese apresentada

ao

Instituto de Matemática e Estat´ıstica

da

Universidade de S˜

ao Paulo

para

obtenc

¸˜

ao do t´ıtulo

de

Doutor em Ciências

Área de Concentraç˜

ao: Matemática Aplicada

Orientador: Prof. Dr. Julio Michael Stern

Durante a elaboraç˜ao deste trabalho o autor recebeu aux´ılio financeiro da CNPq

S˜ao Paulo, maio de 2013

Pesquisas sob amostragem informativa

utilizando FBST

Esta vers˜ao da tese contém as correç˜oes e alteraç˜oes sugeridas

pela Comiss˜ao Julgadora durante a defesa da vers˜ao original do trabalho,

realizada em 28/05/2013. Uma cópia da vers˜ao original está dispon´ıvel no

Instituto de Matemática e Estat´ıstica da Universidade de S˜ao Paulo.

Banca Examinadora:

• Prof. Dr. Júlio Michael Stern (orientador) - IME USP

• Prof. Dr. Carlos Alberto de Bragança Pereira - IME USP

• Prof. Dr. Marcelo de Souza Lauretto - EACH USP

• Prof. Dr. Fabio Nakano - EACH USP

• Profa. Dra. Laura Leticia Ramos Rifo - UNICAMP

Saber viver

N˜ao sei... se a vida é curta ou longa para nós,

mas sei que nada do que vivemos tem sentido,

se n˜ao tocarmos o coraç˜ao das pessoas.

Muitas vezes basta ser:

colo que acolhe,

braço que envolve,

palavra que conforta,

silêncio que respeita,

alegria que contagia,

lágrima que corre,

olhar que acaricia,

desejo que sacia,

amor que promove.

E isso n˜ao é coisa de outro mundo,

é o que dá sentido à vida.

É o que faz com que ela n˜ao seja nem curta,

nem longa demais,

mas que seja intensa,

verdadeira,

pura...

Enquanto durar.

Cora Coralina [1889-1985]

Agradecimentos

Antes de mais nada, agradeço à toda minha fam´ılia pelo carinho, dedicaç˜ao e amor que

sempre me ofereceram. Agradeço especialmente à minha m˜ae, uma mulher extraordinária,

uma incansável trabalhadora e um exemplo de vida. Minha gratid˜ao especial também ao

meu pai, aos meus irm˜aos, às minhas queridas avós (Maria e Cleusa), à minha tia Ivete e

à minha amorosa namorada Fab´ıola, por toda atenç˜ao, carinho e incentivo.

Agradeço de maneira muito especial ao meu dedicado orientador, professor Julio Mi-

chael Stern, por toda a paciência, dedicaç˜ao, incentivo e incalculável ensinamento durante

nossas reuni˜oes ao longo desses mais de quatro anos de trabalho juntos.

Minha gratid˜ao também aos incomparáveis docentes e funcionários do Instituto de

Matemática e Estat´ıstica da Universidade de S˜ao Paulo, por toda a dedicaç˜ao, atenç˜ao,

apoio e pelos ensinamentos que me acompanhar˜ao por toda minha vida. Em especial

agradeço ao professor Alexandre Megiorin Roma pela orientaç˜ao no programa de mestrado

e no primeiro semestre do doutorado; aos professores Marcelo Lauretto e Fabio Nakano

pelas significativas consideraç˜oes durante o exame de qualificaç˜ao e aos professores Joyce

da Silva Bevilacqua e Claudio Hirofume Asano pela oportunidade de trabalharmos juntos

e pelos inúmeros ensinamentos na arte de ensinar Cálculo Numérico.

Pela generosa ajuda nos momentos de dúvida e dificuldade durante a elaboraç˜ao desse

trabalho, gostaria de agradecer aos amigos Renato Viana Boy, Ivan Mamede Carlos, Nilton

Manuel Évora do Rosário, Marlon Wisner Valgas, Diane Rizzotto Rossetto, Flavia Maria

Ré, Pedro da Silva Peixoto, Wellington Carlos de Jesus, Carla Reis, Nelson Leonardo

Navarrete, Eduardo Oda, Ricardo de Lima Ribeiro, Marcelo Caetano, Francisco Sokol,

vi

Marcello Souza de Oliveira, Nils Mir˜a, Larissa Sartori, Marline Silva, Silvio Rodrigues de

Faria Junior e Camila Bertini Martins.

Meus sinceros agradecimentos também ao seu Lauro e à Dona Sueli, que juntamente

com toda sua fam´ılia me acolheram como um filho em S˜ao Paulo, tornando poss´ıvel os

nossos memoráveis almoços de domingo em fam´ılia.

N˜ao tenho como expressar minha gratid˜ao para com todo o corpo docente e os fun-

cionários do Instituto de Matemática e Estat´ıstica da Universidade Federal de Goiás

(UFG), por me tolerarem pacientemente durante os quatro anos da graduaç˜ao e por toda

a dedicaç˜ao na arte de ensinar Matemática e formar professores e pesquisadores nessa

área. Em especial aos professores e amigos Geci José Pereira da Silva e Rosely Maria

Barbosa Goes.

N˜ao poderia deixar de agradecer também a todos os amigos que tive o imenso prazer

de conhecer e conviver na UFG, que prefiro n˜ao tentar colocar os nomes deles aqui porque

tenho certeza que vou esquecer de citar alguém, por toda a ajuda, apoio e torcida. Entre

eles, agradeço imensamente aos onze amigos que terminaram o curso de bacharelado em

Matemática comigo, pelo companherismo e amizade durante os momentos dif´ıceis.

E, por fim, seria um relapso muito grande da minha parte se n˜ao agradecesse a Conselho

Nacional de Pesquisa e Desenvolvimento - CNPq pela bolsa de doutorado que possibilitou

a elaboraç˜ao do presente trabalho.

A todos, o meu muito obrigado.

Resumo

Azeredo, D. M. Pesquisas sob amostragem informativa utilizando o FBST. 2013.

107 f. Tese (Doutorado). Instituto de Matemática e Estat´ıstica. Universidade de S˜ao

Paulo, S˜ao Paulo, 2013.

Pfeffermann, Krieger e Rinott [28] apresentaram uma metodologia para modelar proces-

sos de amostragem que pode ser utilizada para avaliar se este processo de amostragem é

informativo. Neste cenário, as probabilidades de seleç˜ao da amostra s˜ao aproximadas por

uma funç˜ao polinomial dependendo das variáveis resposta e concomitantes. Nesta aborda-

gem, nossa principal proposta é investigar a aplicaç˜ao do teste de significância FBST ( Full

Bayesian Significance Test), apresentado por Pereira e Stern [24], como uma ferramenta

para testar a ignorabilidade amostral, isto é, para avaliar uma relaç˜ao de significância

entre as probabilidades de seleç˜ao da amostra e a variável resposta. A performance desta

modelagem estat´ıstica é testada com alguns experimentos computacionais.

Palavras-chaves: Amostragem informativa; Distribuiç˜ao amostral; Amostragem PPT; Ig-

norabilidade amostral; FBST.

Abstract

Azeredo, D. M. Surveys under informative sampling using the FBST. 2013.

107 f. Tese (Doutorado). Instituto de Matemática e Estat´ıstica. Universidade de S˜ao

Paulo, S˜ao Paulo, 2013.

Pfeffermann, Krieger and Rinott [28] introduced a framework for modeling sampling

processes that can be used to assess if a sampling process is informative. In this set-

ting, sample selection probabilities are approximated by a polynomial function depending

on outcome and auxiliary variables. Within this framework, our main purpose is to in-

vestigate the application of the Full Bayesian Significance Test (FBST), introduced by

Pereira and Stern [24], as a tool for testing sampling ignorability, that is, to detect a

significant relation between the sample selection probabilities and the outcome variable.

The performance of this statistical modelling framework is tested with some simulation

experiments.

Keywords: Design variables; Informative sampling; Sample distribution; PPS sampling;

Sampling ignorability; FBST - Full Bayesian Significance Test.

Sumário

Lista de figuras

xiii

Lista de tabelas

xv

1 Introduç˜

ao

1

2 Amostragem informativa

15

2.1

Projetos amostrais informativos e ignoráveis . . . . . . . . . . . . . . . . . 16

2.2

Mecanismos de n˜ao-resposta informativos e ignoráveis . . . . . . . . . . . . 19

2.3

Distribuiç˜ao marginal amostral . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4

Distribuiç˜ao marginal respondente . . . . . . . . . . . . . . . . . . . . . . . 25

2.5

Relaç˜oes gerais de invariância . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.6

Distribuiç˜oes amostrais em projetos amostrais gerais . . . . . . . . . . . . . 28

2.6.1

Seleç˜ao com probabilidade proporcional ao tamanho . . . . . . . . . 29

2.6.2

Seleç˜ao com amostragem estratificada . . . . . . . . . . . . . . . . . 31

3 FBST

35

3.1

Definiç˜ao intuitiva do FBST . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2

Definiç˜ao invariante do FBST . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3

Funç˜ao de perda para o FBST . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.4

Consistência do FBST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

xi

xii

Sumário

3.5

Aspectos computacionais do FBST . . . . . . . . . . . . . . . . . . . . . . 44

3.5.1

Otimizaç˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5.2

Integraç˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 Simulaç˜

oes numéricas

49

4.1

Distribuiç˜ao das probabilidades de seleç˜ao da amostra conhecida . . . . . . 50

4.2

Distribuiç˜ao das probabilidades de seleç˜ao da amostra desconhecida . . . . 52

4.3

Seleç˜ao da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.4

Implementaç˜ao das simulaç˜oes . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.5

Resultados das simulaç˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5 Consideraç˜

oes finais

65

Referências bibliográficas

72

Índice

73

A Artigo resultante da tese

75

Lista de Figuras

1.1

Exemplo de amostragem informativa. . . . . . . . . . . . . . . . . . . . . .

5

4.1

Polinômios aproximadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

xiii

xiv

Lista de Figuras

Lista de Tabelas

4.1

Viés relativo porcentual (amostragem aleatória simples com substituiç˜ao). . 58

4.2

Viés relativo porcentual (amostragem proporcional ao tamanho com subs-

tituiç˜ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3

Viés relativo porcentual (amostragem sucessiva). . . . . . . . . . . . . . . . 59

4.4

Viés relativo porcentual (método de Sampford). . . . . . . . . . . . . . . . 59

4.5

Viés relativo porcentual (amostragem rejeitiva). . . . . . . . . . . . . . . . 60

4.6

Viés relativo porcentual (amostragem sistemática). . . . . . . . . . . . . . 60

4.7

Viés relativo porcentual: casos aceitos × casos rejeitados (amostragem pro-

porcional ao tamanho com substituiç˜ao). . . . . . . . . . . . . . . . . . . . 61

4.8

Viés relativo porcentual: casos aceitos × casos rejeitados (amostragem su-

cessiva). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.9

Viés relativo porcentual: casos aceitos × casos rejeitados (método de Samp-

ford). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.10 Viés relativo porcentual: casos aceitos × casos rejeitados (amostragem re-

jeitiva). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.11 Viés relativo porcentual: casos aceitos × casos rejeitados (amostragem sis-

temática). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

xv

xvi

Lista de Tabelas

Cap´ıtulo 1

Introduç˜

ao

Pesquisas por amostragem s˜ao frequentemente realizadas em áreas relacionadas a

agricultura, economia, educaç˜ao, pol´ıtica, saúde e vários outros tópicos de interesse.

Organizaç˜oes governamentais nacionais e internacionais e agências privadas coletam in-

formaç˜oes por meio dessas pesquisas em quest˜oes como produç˜ao industrial e agr´ıcola,

taxas de desemprego, popularidade de pol´ıticos que ocupam cargos públicos eleg´ıveis,

eficácia de medicamentos no tratamento de doenças, relaç˜ao entre incidência de doenças

e fatores de risco, e intenç˜ao de votos durante o per´ıodo eleitoral.

As informaç˜oes dessas pesquisas s˜ao essenciais, por exemplo, para planejamento econô-

mico e agr´ıcola, desenvolvimento de procedimentos médicos e educacionais e melhoria

de serviços públicos. O objetivo principal dessas pesquisas é estimar caracter´ısticas da

populaç˜ao estudada utilizando as informaç˜oes coletadas em uma amostra.

A grande vantagem em utilizar pesquisas por amostragem é que, quando realizadas

com um projeto amostral representativo, elas podem fornecer em pouco tempo, com um

baixo custo e boa precis˜ao, informaç˜oes importantes para problemas práticos. Por pro-

jeto amostral entende-se o procedimento utilizado para selecionar as unidades de uma

populaç˜ao que ser˜ao inclu´ıdas na amostra e o mesmo é representativo quando a amostra

selecionada tem as mesmas propriedades que a populaç˜ao de interesse.

Diante da dificuldade em avaliar se um projeto amostral é representativo sem conhecer

as informaç˜oes da populaç˜ao de interesse, é prefer´ıvel trabalhar com o conceito de pro-

jeto amostral probabil´ıstico, que s˜ao os procedimentos onde cada poss´ıvel amostra tem

uma probabilidade conhecida de ocorrer. O caso mais simples de amostra probabil´ıstica

1

2

Introduç˜

ao

ocorre quando os elementos da populaç˜ao s˜ao sorteados sequencialmente com mesma pro-

babilidade de pertecerem a amostra. Neste caso diz-se que a amostra foi sorteada por

Amostragem Aleatória Simples. A escolha da amostra com probabilidade igual em todas

as unidades da populaç˜ao é um procedimento que simplifica muito o desenvolvimento das

propriedades associadas ao projeto amostral.

Entretanto, em algumas situaç˜oes é conveniente sortear a amostra com probabilida-

des de seleç˜ao desiguais. Uma forma de projeto amostral com probabilidades desiguais

amplamente utilizado é Amostragem Aleatória Estratificada que consiste na divis˜ao da

populaç˜ao em subgrupos, chamados estratos, segundo alguma caracter´ıstica conhecida da

populaç˜ao em estudo e, dentro de cada um desses estratos s˜ao selecionadas amostras com

tamanhos convenientes. O resultado da pesquisa é mais eficaz quanto mais homogêneos

forem os estratos escolhidos. A grande vantagem em utilizar esse método é o aumento da

eficiência e precis˜ao das estimativas e a desvantagem é que para isso é necessário conhecer

os resultados de uma pesquisa anterior com informaç˜oes das caracter´ısticas que se deseja

pesquisar na populaç˜ao de interesse.

Quando essas informaç˜oes da populaç˜ao n˜ao est˜ao dispon´ıveis ou est˜ao desatualiza-

das e o custo de atualizá-las é muito alto, a amostragem pode ser facilitada dividindo a

populaç˜ao em grupos, denominados conglomerados, segundo algum critério conveniente.

Geralmente, os conglomerados s˜ao escolhidos como regi˜oes geográficas. Esta forma de pro-

jeto amostral com probabilidades de seleç˜ao desiguais, denominada Amostragem Aleatória

por Conglomerados, consiste na divis˜ao da populaç˜ao em conglomerados e, no sorteio dos

conglomerados para a amostra. Posteriormente, dentro de cada conglomerado escolhido,

pode ser feita a coleta das informaç˜oes desejadas em todas as unidades da populaç˜ao ou

pode ser realizado um novo sorteio para determinar as unidades da populaç˜ao pertencentes

aos conglomerados que responder˜ao à pesquisa.

Escolher um projeto amostral adequado é uma das partes mais importantes em pes-

quisas por amostragem, pois o planejamento e operaç˜ao do processo de amostragem cos-

tumam ser a parte de maior custo da pesquisa e, por isso, o projeto amostral deve ser

realizado com o objetivo de minimizar este custo condicionado aos limites aceitáveis de

incerteza das informaç˜oes desejadas.

Depois de planejar o projeto amostral, um problema muito comum que pode ocorrer

durante a coleta de dados de uma pesquisa por amostragem é uma falha na obtenç˜ao

3

de respostas válidas das unidades da amostra. Quando há uma algum tipo de falha na

resposta de um ou mais itens da pesquisa, esse tipo de dado faltante é chamado n˜ao-

resposta ao item. Basicamente, existem dois tipos de n˜ao-resposta ao item: completa e

parcial.

A n˜ao-resposta completa ocorre quando todas as variáveis da pesquisa est˜ao faltando

ou n˜ao há informaç˜ao útil suficiente dispon´ıvel. Neste caso a unidade amostrada é identi-

ficada como completamente n˜ao-respondente, mesmo que alguma informaç˜ao tenha sido

coletada, pois ela foi considerada insuficiente. Isto ocorre geralmente quando uma unidade

da amostra se recusa a responder a pesquisa ou encerra prematuramente a entrevista. A

n˜ao-resposta parcial ocorre quando algumas, mas n˜ao todas, as variáveis da pesquisa tem

informaç˜oes faltantes. Isto é comum em casos que a unidade da amostra se recusa a

responder alguma quest˜ao considerada delicada ou n˜ao sabe a resposta de alguns itens.

Um aspecto importante a ser considerado nos processos de amostragem é como geren-

ciar e reduzir a proporç˜ao de n˜ao-respostas, pois elas podem aumentar o viés e reduzir

a precis˜ao das estimativas obtidas. Essa proporç˜ao de n˜ao-respostas tende a ser menor

quando o assunto da pesquisa está relacionado com reformas educacionais, mudanças

nos impostos, melhorias regionais, quest˜oes pol´ıticas e eleitorais e tópicos similares. As

altas proporç˜oes de n˜ao-respostas geralmente ocorrem em pesquisas relacionadas às ca-

racter´ısticas pessoais, como rendimentos, patrimônios, doenças pré-existentes e quest˜oes

relacionadas à sexualidade.

Neste sentido, o objetivo principal ao considerar os casos de n˜ao-resposta ao item

(completa ou parcial) é reduzir o viés provocado pela n˜ao-resposta, que ocorre se as

probabilidades de n˜ao-resposta de um item estiver relacionada com a variável resposta.

Para compreendermos por que modelar dados de pesquisa pode ser complicado, su-

ponhamos que o modelo assumido para ajustar os valores populacionais ( distribuiç˜ao

populacional ) é especificado precisamente. Se no processo de amostragem, as unidades da

amostra forem sorteadas por amostragem aleatória simples e todas essas unidades amos-

tradas responderem, ent˜ao o modelo populacional pode ser considerado adequado também

para dados provenientes da amostra e pode ser ajustado utilizando qualquer método es-

tat´ıstico apropriado para o problema, como métodos de m´ınimos quadrados, de máxima

verossimilhança ou bayesianos.

4

Introduç˜

ao

Entretanto, a maioria dessas pesquisas utiliza mecanismos complexos de seleç˜ao da

amostra, nos quais as unidades da populaç˜ao s˜ao sorteadas com probabilidades de escolha

distintas no processo de amostragem podendo, em alguns casos, acontecer dessas probabi-

lidades de seleç˜ao ou mesmo as probabilidades de n˜ao-resposta ao item estarem associadas

à variável resposta. Consequentemente, o modelo adequado para os dados coletados no

processo de amostragem pode ser muito diferente do modelo válido para a populaç˜ao.

Apesar disso, muitas vezes a inferência é feita ignorando o mecanismo pelo qual a

amostra foi escolhida e as n˜ao-respostas foram obtidas e, por consequência, as unidades

da amostra s˜ao analisadas como se fossem independentes e identicamente distribu´ıdas e

o mecanismo de n˜ao-respostas é considerado aleatório. Isso nem sempre é verdade, pois

tanto o processo de seleç˜ao da amostra quanto o mecanismo de n˜ao-respostas podem

ser informativos, isto é, as probabilidades de seleç˜ao da amostra ou as probabilidades

de n˜ao-resposta nas unidades da amostra podem estar correlacionadas com a variável

resposta do modelo. Nesse caso, o modelo válido para os dados obtidos é diferente do

modelo populacional. Quando o projeto amostral e o mecanismo de n˜ao-respostas n˜ao

s˜ao informativos, diz-se que os mesmos s˜ao ignoráveis.

Dessa maneira, define-se o modelo amostral (ou distribuiç˜ao amostral ) como sendo o modelo válido para os dados coletados no processo de amostragem sem considerar o mecanismo de n˜ao-respostas. Quando a amostragem é informativa, este modelo é diferente

do modelo populacional e deve ser utilizado no processo de inferência. Analogamente,

define-se modelo respondente (ou distribuiç˜ao respondente) como sendo o modelo válido para os dados amostrais considerando o mecanismo de n˜ao-respostas. Quando o mecanismo de n˜ao-respostas é informativo, este modelo é diferente dos modelos populacional e

amostral, e deve ser considerado para estimaç˜ao dos parâmetros do modelo populacional.

Claramente, quando nem o processo de amostragem e nem o mecanismo de n˜ao-respostas

s˜ao informativos, as distribuiç˜oes populacional, amostral e respondente coincidem. Ou-

trossim, quando a amostragem n˜ao é informativa, os modelos populacional e amostral

coincidem n˜ao sendo sempre verdade o mesmo para o modelo respondente.

Para exemplificar a importância do processo de amostragem, foi realizada uma si-

mulaç˜ao computacional considerando uma populaç˜ao com N = 500 indiv´ıduos tal que a

variável resposta yi tem distribuiç˜ao normal com média 0, 5 + 1, 5xi e variância 1 com xi

tendo distribuiç˜ao uniforme no intervalo [0, 1] para cada i = 1, . . . , N . Dessa populaç˜ao

index-21_1.png

5

foram sorteadas três amostras, cada uma de tamanho n = 100: na primeira amostra todos

os indiv´ıduos da populaç˜ao foram sorteados com a mesma probabilidade de seleç˜ao e to-

dos as respostas estavam completas; na segunda amostra os indiv´ıduos foram selecionados

com probabilidade proporcional a exp(5yi); e na terceira amostra os elementos da amostra

foram sorteados com probabilidade de proporcional a exp(−5yi). Com isso, a segunda e a

terceira seleç˜ao da amostra s˜ao informativas, pois as probabilidades de seleç˜ao da amos-

tra est˜ao associadas com a variável resposta e portanto as distribuiç˜oes populacional e

amostral s˜ao diferentes. A Figura 1.1 mostra cada uma das amostras selecionadas e a reta

representado a distribuiç˜ao utilizada para gerar os dados populacionais.

Figura 1.1: Exemplo de amostragem informativa.

Por conseguinte, realizar inferência estat´ıstica sem considerar o mecanismo de seleç˜ao

da amostra e o mecanismo de n˜ao-resposta quando pelo menos um deles é informativo pode

6

Introduç˜

ao

produzir estimativas viciadas para os parâmetros de interesse, resultando em consideraç˜oes

distorcidas do fenômeno em estudo.

Para superar essa dificuldade em trabalhar com os procedimentos padr˜ao de inferência

quando a amostragem é informativa, Pfeffermann, Krieger e Rinott [28] propuseram uma

express˜ao para calcular a distribuiç˜ao amostral definindo-a em funç˜ao da distribuiç˜ao

populacional e dos valores esperados para as probabilidades de inclus˜ao na amostra. Pos-

teriormente, Pfeffermann e Sikov [33] estenderam esta metodologia para os casos em que o

mecanismo de n˜ao-resposta também é informativo, definindo uma express˜ao para o modelo

respondente em funç˜ao da distribuiç˜ao populacional, das probabilidades de inclus˜ao na

amostra e das probabilidades de n˜ao-resposta. A principal vantagem em fazer inferência

utilizando essas metodologias é que isso permite a utilizaç˜ao dos procedimentos básicos

de inferência estat´ıstica.

Desenhos amostrais complexos têm sido muito utilizados em pesquisas sociais e médicas

com estrutura hierárquica para fornecer estimativas n˜ao só da populaç˜ao de interesse,

mas também de uma ampla variedade de subpopulaç˜oes ( dom´ınios). Dom´ınios podem

ser definidos por regi˜oes geográficas, grupos sócio-demográficos ou outras subpopulaç˜oes.

Exemplos de dom´ınios geográficos ( áreas) incluem pa´ıses, estados, munic´ıpios, distritos escolares, regi˜oes metropolitanas e regi˜oes de serviço de saúde. Por outro lado, dom´ınios

sócio-demográficos podem se referir a grupos espec´ıficos divididos por idade, raça ou

gênero em uma área geográfica espec´ıfica.

Pfeffermann, Moura e Silva [31], por exemplo, analisaram um estudo educacional de

proficiência de alunos que utiliza um projeto amostral informativo hierárquico com dois

n´ıveis, com escolas no primeiro n´ıvel de amostragem e alunos no segundo n´ıvel. A amos-

tragem das escolas foi realizada com probabilidade proporcional ao tamanho das escolas

(quantidade de alunos), propiciando que as escolas com maior número de alunos tives-

sem maior probabilidade de pertencer à amostra e dificultando que escolas rurais (maior

custo de amostragem e menor quantidade de alunos) estivessem na amostra. Entretanto,

como nesse estudo o tamanho das escolas estava relacionado com a proficiência dos alunos

(variável resposta do modelo), a amostragem é informativa e as escolas da amostra n˜ao

representam apropriadamente as escolas da comunidade analisada. Depois de escolhidas

as escolas da amostra, a amostragem dos alunos das escolas sorteadas foi realizada por

amostragem estratificada desproporcional. Contudo, observou-se que os estratos escolhi-

7

dos também estavam associados com a proficiência dos alunos, ocorrendo novamente um

caso de amostragem informativa no segundo n´ıvel hierárquico do modelo.

Em um trabalho mais recente, Pfeffermann e Sikov [33] analisaram uma pesquisa de

despesas domiciliares baseadas em caracter´ısticas socio-demográficas considerando proba-

bilidades iguais de seleç˜ao da amostra (modelo populacional igual ao modelo amostral) e

definindo como domic´ılios respondentes aqueles que responderam ao questionário na pri-

meira tentativa de entrevista e como n˜ao-respondentes os domic´ılios que n˜ao responderam

na primeira tentativa de entrevista, mas responderam em uma das tentativas seguintes.

Nessa pesquisa observou-se que as probabilidades de n˜ao-resposta estavam associadas com

a variável resposta do modelo e para modelar essa probabilidade de n˜ao-resposta, dada

a variável resposta e as covariáveis, foi considerada uma distribuiç˜ao log´ıstica. Como os

dados dos domic´ılios respondentes e n˜ao-respondentes s˜ao conhecidos, foi poss´ıvel com-

parar as estimativas obtidas para os parâmetros do modelo ajustando todos os dados

coletados para a amostra (respondentes e n˜ao-respondentes) utilizando o modelo popu-

lacional com as estimativas obtidas ajustando somente os dados amostrais respondentes

utilizando a distribuiç˜ao respondente. Com isso, observou-se que as estimativas obtidas

para os parâmetros utilizando o modelo respondente nos casos de n˜ao-resposta informativa

e as estimativas obtidas utilizando o modelo populacional com todos os dados da amostra

tiveram precis˜ao semelhante.

Além disso, amostragem informativa tem sido considerada também em modelos hierár-

quicos utilizados em problemas de estimaç˜ao em pequenas áreas ( Small Area Estimation).

O termo pequenas áreas denota qualquer dom´ınio em que estimativas utilizando somente

dados amostrais desse dom´ınio espec´ıfico n˜ao podem ser realizadas com a precis˜ao ade-

quada. Mesmo quando uma pesquisa tem tamanho amostral suficientemente grande para

fazer estimativas para toda a populaç˜ao desse dom´ınio, esse tamanho amostral pode n˜ao

ser grande o suficiente para fazer estimativas para subgrupos desse dom´ınio e raramente

é poss´ıvel ter uma amostra com tamanho suficientemente grande para garantir boas esti-

mativas para cada subgrupo considerando somente dados desse subgrupo.

Após a estimaç˜ao das propriedades dos parâmetros do modelo, surge o controverso

problema de inferência estat´ıstica de teste de significância para hipóteses precisas. Se-

gundo Kempthorne [15] e Cox [8], testes de significância s˜ao procedimentos para medir a consistência dos dados com alguma hipótese precisa. A idéia básica de significância é uma

8

Introduç˜

ao

ordenaç˜ao para o espaço amostral de acordo com o aumento da consistência dos dados

em relaç˜ao à hipótese.

Uma medida de evidência completamente bayesiana para testes de significância de

hipóteses precisas, cujo teste de significância foi intitulado FBST ( Full Bayesian Signifi-

cance Test), foi proposta por Pereira e Stern [24] e consiste na análise de conjuntos de

credibilidade. Por completamente bayesiano entende-se que é necessário conhecer somente

o espaço paramétrico, representado pelo distribuiç˜ao a posteriori, sem a necessidade de

nenhum artif´ıcio como supor probabilidade positiva para hipóteses precisas.

Deve-se enfatizar que, no caso geral do FBST, a distribuiç˜ao a posteriori é suficiente

para calcular o valor de evidência, sem qualquer complicaç˜ao devido à dimensionalidade

dos parâmetros ou do espaço amostral. Além disso, sob algumas condiç˜oes de regularidade,

esse cálculo é invariante sob transformaç˜oes no sistema de coordenadas no espaço de

parâmetros ou reparametrizaç˜oes da hipótese a ser testada, isso é importante pois alguns

procedimentos estat´ısticos n˜ao satisfazem essa propriedade. Pereira e Lindley [23], por

exemplo, discutem o problema de teste de homogeneidade para proporç˜oes mostrando

como diferentes parametrizaç˜oes da hipótese podem produzir respostas diferentes.

Além disso, o FBST é intuitivo, tem uma fácil interpretaç˜ao geométrica, pode ser facil-

mente implementado utilizando modernas técnicas de integraç˜ao e otimizaç˜ao numérica,

e é um procedimento exato, isto é, n˜ao utiliza no cálculo do valor de evidência qualquer

aproximaç˜ao assintótica.

Um outro importante aspecto do FBST é que esse teste permite a incorporaç˜ao de ex-

periência prévia ou opini˜oes de especialistas por meio da distribuiç˜ao a priori. Porém, se o objetivo for medir a consistência dos dados com a hipótese nula sem envolver a distribuiç˜ao

a priori, a distribuiç˜ao a posteriori pode ser substitu´ıda pela funç˜ao de verossimilhança desde que a integral dessa funç˜ao seja limitada.

O FBST utiliza uma probabilidade a posteriori bem definida para qualquer subcon-

junto do espaço de parâmetros e n˜ao viola o Pr´ıncipio da Verossimilhança, isto é, toda a

informaç˜ao obtida a partir das observaç˜oes pode ser representada pela funç˜ao de verossi-

milhança.

Como foi mostrado por Madruga, Esteves e Wechsler [19], o FBST é consistente sob

o ponto de vista da teoria bayesiana da decis˜ao de Rubin [37], pois existe uma funç˜ao de

9

perda espec´ıfica que avalia aspectos da teoria da decis˜ao para o FBST. Apesar do FBST

satisfazer os aspectos da teoria de decis˜ao, ele foi originalmente definido baseado somente

no pr´ıncipio jur´ıdico Onus Probandi, também conhecido como Presunç˜ao de Inocência, que estabelece que ninguém será considerado culpado até o trânsito em julgado de sentença

penal condenatória.

No presente trabalho, pretende-se discutir maneiras coerentes de tratar as seguintes

quest˜oes que surgem na inferência de dados coletados por amostragem:

1. Supondo que o modelo populacional é especificado precisamente e dado um conjunto

de dados obtidos por amostragem, o processo de coleta da amostra é informativo?

Como avaliar isso?

2. Se a amostragem for informativa, como obter modelos que melhoram a estimativa

dos parâmetros do modelo?

3. Qual desses modelos melhor ajusta os dados, de acordo com algum critério dado?

Para discutir essas quest˜oes utilizou-se a metodologia proposta por Pfeffermann, Kri-

eger e Rinott [28] para inferência de dados sob amostragem informativa, definindo-se a

distribuiç˜ao válida para a amostra selecionada (distribuiç˜ao amostral) em funç˜ao da dis-

tribuiç˜ao populacional e do valor esperado para as probabilidades de seleç˜ao da amostra.

Foram considerados os casos em que a distribuiç˜ao das probabilidades de seleç˜ao da amos-

tra é conhecida e também os casos em que essa informaç˜ao n˜ao está dispon´ıvel para quem

está fazendo a análise dos dados.

Para esses casos de falta de informaç˜ao, sob algumas condiç˜oes de regularidade, o valor

esperado das probabilidades de seleç˜ao da amostra pode ser modelado por um polinômio

aproximador de baixo grau dependendo da variável resposta e das variáveis concomitantes

via séries de Taylor. Com isso, é poss´ıvel definir a distribuiç˜ao amostral da variável

resposta com os coeficientes desse polinômio aproximador inclu´ıdos entre os parâmetros

a serem estimados no modelo.

Assim, considerando que o modelo válido para a populaç˜ao estudada (distribuiç˜ao po-

pulacional) é especificado corretamente, se ao ajustar o modelo amostral todos os valores

estimados para os coeficientes do polinômio aproximador forem iguais a zero, excluindo o

termo independente do polinômio, ent˜ao o modelo que melhor ajusta os dados é o modelo

10

Introduç˜

ao

populacional e, portanto, a amostragem n˜ao é informativa. Caso contrário, se algum dos

coeficientes for diferente de zero ent˜ao existe um modelo que ajusta melhor os dados que

o modelo populacional considerado. Nesse caso, a amostragem é informativa e o modelo

amostral deve ser considerado na inferência dos dados. Observe que avaliar a informati-

vidade do processo de amostragem utilizando os coeficientes do polinômio aproximador

conforme descrito acima só é poss´ıvel quando o modelo populacional é especificado corre-

tamente.

Entretanto, avaliar se cada uma das estimativas para os parâmetros do polinômio

aproximador podem ser consideradas iguais a zero, e consequentemente decidir se a amos-

tragem é informativa ou ignorável, n˜ao é uma tarefa t˜ao simples mesmo quando as estima-

tivas dos parâmetros est˜ao bem próximas de zero. Para decidir isso, é necessário avaliar

quais s˜ao as consequências causadas por considerar cada uma dessas estimativas iguais a

zero na distribuiç˜ao amostral.

Para essa avaliaç˜ao o presente trabalho prop˜oe a utilizaç˜ao do teste de significância

FBST para avaliar qual é o polinômio de menor grau que deve ser utilizado na distribuiç˜ao

amostral de forma que seja poss´ıvel garantir estimativas satisfatórias para os parâmetros

do modelo populacional. Essa avaliaç˜ao consiste em comparar os polinômios de um de-

terminado grau d com o polinômio de grau d + 1 para avaliar se o coeficiente do termo

de grau d + 1 pode ser considerado igual a zero. Em termos de teste de significância, isso

é equivalente a considerar a distribuiç˜ao amostral com o polinômio aproximador de grau

d + 1 e avaliar a hipótese precisa definida pelo coeficiente de termo de grau d + 1 igual a

zero.

Além disso, no presente trabalho foram realizadas simulaç˜oes computacionais com

o objetivo de avaliar: os efeitos práticos de ignorar o processo de seleç˜ao da amostra;

a sensibilidade de modelar o valor esperado das probabilidades de inclus˜ao da amostra

aproximando por polinômios; o viés entre as estimativas aceitas e as estimativas rejei-

tadas pelo FBST. Essas simulaç˜oes computacionais foram realizadas considerando 500

populaç˜oes geradas aleatoriamente com distribuiç˜ao normal e 6 métodos diferentes para

selecionar amostras dessas populaç˜oes sendo 5 deles informativos e o outro n˜ao informa-

tivo. Assim, de cada populaç˜ao gerada computacionalmente foram sorteadas 6 amostras e

cada uma dessas amostras foi analisada considerando três abordagem diferente, s˜ao elas:

11

i) O processo de amostragem é ignorado, ou seja, o modelo populacional é utilizado

para estimar os parâmetros do modelo;

ii) A distribuiç˜ao das probabilidades de seleç˜ao da amostra n˜ao está dispon´ıvel para

quem faz a análise dos dados. Nesse caso, o modelo amostral da variável resposta

é ajustado modelando o valor esperado dessas probabilidades de seleç˜ao por po-

linômios aproximadores e o FBST é utilizado para decidir o polinômio de menor

grau apropriado para a inferência dos dados;

iii) A distribuiç˜ao das probabilidades de seleç˜ao da amostra é conhecida durante o pro-

cesso de inferência e a distribuiç˜ao amostral da variável resposta é definida utilizando

essa informaç˜ao.

Nestas simulaç˜oes computacionais, os modelos de inferência utilizando a distribuiç˜ao

amostral, considerando desconhecida a distribuiç˜ao do valor esperado das probabilidades

de seleç˜ao da amostra, mostraram-se eficientes quando o grau do polinômio aproxima-

dor é suficientemente grande de forma a garantir que as estimativas fossem aceitas pelo

FBST, pois foram obtidas estimativas com precis˜ao semelhante ao modelo utilizando a

distribuiç˜ao amostral com a distribuiç˜ao do valor esperado das probabilidades de seleç˜ao

da amostra conhecida.

Nos casos em que as amostras foram selecionadas sob amostragem n˜ao informativa,

todos os modelos utilizando a distribuiç˜ao amostral conseguiram estimar os parâmetros

com a mesma precis˜ao que os modelos utilizando a distribuiç˜ao populacional, pois nesses

casos os paramêtros da funç˜ao que modela o valor esperado das probabilidades de seleç˜ao

da amostra foram estimados iguais a zero. Além disso nos casos em que foram utiliza-

dos polinômios aproximadores, o FBST aceitou todas as hipóteses que avaliavam se os

coeficiente do polinômio aproximador eram iguais a zero.

Nos demais casos, as amostras foram selecionadas utilizando métodos de amostragem

informativos e por isso as estimativas utilizando o modelo populacional apresentaram um

viés elevado quando comparadas com as estimativas obtidas utilizando os modelos amos-

trais. Além disso, as estimativas encontradas utilizando uma aproximaç˜ao polinomial com

o grau do polinômio suficientemente grande para modelar o valor esperado das probabili-

dades de seleç˜ao da amostra ficaram bem próximas das estimativas obtidas considerando

o valor esperado dessas probabilidades de seleç˜ao conhecido.

12

Introduç˜

ao

Feito isso, foram comparadas também as estimativas aceitas com as estimativas rejei-

tadas utilizando o FBST para certificar que esse teste de significância está identificando

corretamente as estimativas próximas do valor utilizado para gerar os dados populacio-

nais. Essa comparaç˜ao mostrou que o viés das estimativas aceitas foi sempre menor que

o viés dos estimativas rejeitadas utilizando esse teste.

Por conseguinte, os objetivos iniciais do presente trabalho foram alcançados tendo

como contribuiç˜oes principais o desenvolvimento de uma metodologia intuitiva para ava-

liar se o processo de amostragem probabil´ıstica de uma pesquisa é informativo e, quando

isso acontece, foram propostas maneiras de escolher um modelo que melhor ajusta os dados

coletados considerando uma metodologia que n˜ao viola o Pr´ıncipio da Verossimilhança,

permite a incorporaç˜ao de experiência prévia e a opini˜ao de especialistas, pode ser facil-

mente implementada utilizando modernas técnicas de otimizaç˜ao e integraç˜ao numérica e

permite o uso das ferramentas padr˜ao de inferência bayesiana.

Além disso, é importante ressaltar que as simulaç˜oes computacionais foram realizadas

utilizando o software estat´ıstico R e o pacote de otimizaç˜ao ALGENCAN (implementado

na linguagem de programaç˜ao FORTRAN), ambos dispon´ıveis tanto para Linux quanto

para MAC OS e Windows.

Como consequência a este trabalho, pretendemos comparar os resultados obtidos para

avaliar a informatividade do processo de seleç˜ao da amostra e também para decidir qual

o polinômio de menor grau que ajusta os dados com precis˜ao satisfatória utilizando o

FBST com os testes de informatividade propostos por Pfeffermann [27] e por Pfeffermann

e Sverchkov [29]. Além disso, a metodologia utilizada no presente trabalho para avaliar

a informatividade do processo de amostragem pode ser estendida para os casos de n˜ao-

resposta ao item utilizando os modelos de inferência propostos por Pfeffermann e Sikov

[33] para modelar os dados e o FBST para avaliar se a relaç˜ao entre as probabilidades de

n˜ao-resposta ao item ocorrida durante o processo de coleta dos dados e a variável resposta

é significante.

O presente trabalho está dividido da seguinte maneira: no Cap´ıtulo 2 s˜ao apresen-

tados formalmente os conceitos de amostragem informativa e n˜ao-resposta informativa,

incluindo as condiç˜oes necessárias para considerar que um desenho amostral e os casos

de n˜ao-resposta sejam considerados informativos. Além disso, a metodologia proposta

por Pfeffermann, Krieger e Rinott [28] para realizar inferência considerando esse tipo

13

de amostragem e a extens˜ao dessa metodologia para os casos de n˜ao-resposta informa-

tiva proposta por Pfeffermann e Sikov [33] também s˜ao discutidas. No Cap´ıtulo 3, s˜ao

apresentados conceitos, propriedades e técnicas computacionais úteis na implementaç˜ao

do teste de significância para hipóteses precisas FBST. No Cap´ıtulo 4, s˜ao descritas as

simulaç˜oes computacionais realizadas no presente trabalho com o objetivo de avaliar o

comportamento dos modelos de inferência sob amostragem informativa utilizando o valor

de evidência do FBST. E por fim, no Apêndice, está uma cópia de um artigo ainda em

desenvolvimento com os resultados desta tese.

14

Introduç˜

ao

Cap´ıtulo 2

Amostragem informativa

Existe uma grande variedade de situaç˜oes nas quais a análise de dados deve considerar

o mecanismo de coleta dos dados e das respostas ao invés de simplesmente modelar dire-

tamente os dados observados. Isso ocorre quando as probabilidades de seleç˜ao da amostra

ou de n˜ao-resposta est˜ao associadas com os valores da variável resposta do modelo, mesmo

quando condicionadas às variáveis auxiliares.

Na amostragem estratificada e na amostragem por conglomerados, por exemplo, as

unidades da amostra s˜ao selecionadas com probabilidades diferentes. Se essas probabili-

dades est˜ao relacionadas com a variável resposta, o projeto amostral é informativo e o

modelo apropriado para ajustar os dados da amostra coletada é diferente do modelo para

ajustar os dados populacionais. Nesse caso, a informaç˜ao que descreve como os dados

foram coletados deve ser considerada no processo de inferência dos dados.

Pesquisas em que as probabilidades de n˜ao-resposta est˜ao relacionadas com a variável

resposta costumam ocorrer, por exemplo, em problemas de econometria em que o objetivo

é estimar salários ou rendimentos. Nesse tipo de pesquisa é comum as probabilidades

de n˜ao-resposta estarem diretamente relacionadas com salários e rendimentos, pois os

indiv´ıduos com maior renda tendem a evitar responder quest˜oes sobre isso.

O objetivo do presente cap´ıtulo é discutir condiç˜oes suficientes para garantir que o

modelo de seleç˜ao da amostra e o mecanismo de n˜ao-resposta possam ser ignorados no

processo de inferência dos dados, além de maneiras apropriadas de realizar essa inferência

quando pelo menos um desses dois processos é informativo. Para isso, apresentamos um

método de inferência, proposto por Pfeffermann, Krieger e Rinott [28] para o caso de

15

16

Amostragem informativa

amostragem informativa e posteriormente discutido para os casos em que o mecanismo de

n˜ao-resposta é informativo por Pfeffermann e Sikov [33], para estimar os parâmetros da

distribuiç˜ao populacional sob amostragem ou mecanismo de n˜ao-resposta informativos no

qual é poss´ıvel expressá-lo por um modelo de distribuiç˜ao correspondente, explorando a

relaç˜ao entre os dois.

2.1

Projetos amostrais informativos e ignoráveis

Na presente Seç˜ao, apresentamos as definiç˜oes e notaç˜oes referentes ao processo de

amostragem e n˜ao-resposta dos dados de uma pesquisa juntamente com as condiç˜oes sob

as quais esses processos podem ser ignorados no processo de inferência.

Considere uma populaç˜ao finita representada por U = {1, 2, . . . , N} onde N, o ta-

manho da populaç˜ao, é conhecido. Associado com cada unidade k ∈ U, existe uma

quantidade desconhecida yk e o vetor populacional contendo todas essas quantidades des-

conhecidas é representado por yT = (y1, . . . , yN ), onde y é um vetor coluna e yT é o seu

transposto. Além disso, para cada unidade k ∈ U s˜ao supostas p quantidades xk1, . . . , xkp

representadas pelo vetor xT = (x

k

k1, . . . , xkp) contendo informaç˜oes que podem ajudar

a explicar a variável yk. Denotamos por X a matriz de ordem N × p cujas linhas s˜ao

formadas pelos vetores xT .

k

Com o objetivo de obter informaç˜oes sobre uma funç˜ao linear AT y, onde AT =

(a1, . . . , aN ) é conhecida, uma amostra S ⊂ U com n unidades de U é selecionada

utilizando em cada unidade k ∈ U as quantidades z1, . . . , zm representadas pelo vetor

zT = (z

k

1, . . . , zm) que contem informaç˜oes sobre o processo de seleç˜ao da amostra. Assim,

denotamos por ZU a matriz de ordem N × m cujas linhas s˜ao formadas pelos vetores

zT para todo os valores de k

k

∈ U. Esta matriz ZU pode conter variáveis determinando

estratos, conglomerados, variáveis quantitativas, algumas ou todas as covariáveis X e, em

casos especiais, o vetor y também. Em geral, os valores populacionais ZU s˜ao conhecidos

pelo profissional que planeja e realiza o processo de amostragem, n˜ao sendo conhecidos

necessariamente por quem faz a análise dos dados.

Para representar os elementos da amostra S utiliza-se o vetor de inclus˜ao

i = (i1, i2, . . . , iN ) das variáveis indicadoras do processo de amostragem, isto é, ik = 1 se

2.1 Projetos amostrais informativos e ignoráveis

17

a unidade k ∈ U é selecionada na amostragem e ik = 0 caso contrário.

Quando os casos de n˜ao-respostas no processo de amostragem s˜ao considerados, define-

se para cada k ∈ U o vetor lk contendo as variáveis explicativas do processo de n˜ao-

resposta. Dessa maneira, denotamos por L a matrix cujas linhas s˜ao formadas pelos

vetores lk, com k ∈ U, contendo as variáveis referentes à n˜ao-resposta. Essa matriz

L referente ao processo de n˜ao-resposta é raramente conhecida, apesar de poder conter

elementos de y, X e Z.

Assim, qualquer subconjunto S = {k ∈ U | ik = 1} da populaç˜ao U caracte-

riza uma amostra dessa populaç˜ao e para cada amostra S define-se [ys, Xs, Zs, Ls] =

{(yk, xk, zk, lk) | k ∈ S} e [y¯s, X¯s, Z¯s, L¯s] = {(yk, xk, zk, lk) | k /

∈ S}. Observe que

S = S(i).

Vamos considerar yT como realizaç˜ao do vetor aleatório Y T = (Y1, . . . , YN ) cuja

distribuiç˜ao depende de um parâmetro θ desconhecido. Assim, quando θ é conhecido,

Y1, . . . , YN s˜ao mutuamente independentes. Depois de considerar y como realizaç˜ao de

um vetor aleatório, o objetivo do estudo é predizer o valor de

A

k∈S

kyk, a parte n˜

ao

observada de AT y, utilizando toda a informaç˜ao das variáveis auxiliares contida na matriz

X. Por esse motivo, é desejável considerar modelos que relacionam y com X.

Para analisar os métodos de seleç˜ao da amostra considere por conveniência o caso

de resposta completa, a extens˜ao dos resultados para o caso de n˜ao-resposta segue de

maneira análoga. Assim, considere o modelo de probabilidade conjunta dividido em duas

partes: o modelo para os dados completos, y, (incluindo componentes observadas e n˜ao

observadas) condicionado às variáveis auxiliares representadas pela matriz X e ao conjunto

de parâmetros θ; e o modelo para o vetor de inclus˜ao, i, condicionado a X, y e ao conjunto

de parâmetros ψ. Com isso, a verossimilhança dos dados completos é definida como o

produto das verossimilhanças desses dois fatores, isto é,

f (y, i | X, θ, ψ) = f(y | X, θ)f(i | X, y, ψ).

(2.1)

A express˜ao (2.1) é útil na construç˜ao do modelo de probabilidade, mas n˜ao é a ve-

rossimilhança dos dados a menos que y seja completamente observado. Assim, os dados

que s˜ao realmente conhecidos consistem do conjunto (ys, i) e a verossimilhança apropri-

ada para inferência Bayesiana, denominada verossimilhança dos dados observados, pode

ser obtida integrando (2.1) sobre os itens n˜ao amostrados y¯s considerando as unidades

18

Amostragem informativa

amostradas fixadas, isto é,

f (ys, i | X, θ, ψ) =

f (ys, y¯s | X, θ)f(i | X, ys, y¯s, ψ)dy¯s.

(2.2)

Observe que a express˜ao (2.2) é muito geral e n˜ao imp˜oe nenhuma restriç˜ao no meca-

nismo de seleç˜ao da amostra. Se o mecanismo de seleç˜ao da amostra é ignorado, ent˜ao a

verosssimilhança dos dados observados pode ser escrita como

f (ys | X, θ) =

f (ys, y¯s | X, θ)dy¯s.

(2.3)

Assim, ignorar o mecanismo de seleç˜ao da amostra nesse caso significa omitir

f (i | X, ys, y¯s, ψ) no lado direito de (2.2), considerando a inferência baseada somente

em (2.3). Claramente a inferência considerando (2.2) geralmente n˜ao é a mesma que a

inferência baseada em (2.3) onde os poss´ıveis efeitos do mecanismo de seleç˜ao da amostra

s˜ao considerados.

Seguindo Rubin [34], [35] e [36], dizemos que um projeto amostral (ou mecanismo

de seleç˜ao da amostra) é ignorável se a inferência baseada na funç˜ao de densidade de

probabilidade de Y |X descrita em (2.3) é equivalente a inferência baseada em (2.2). Neste

caso, as probabilidades de seleç˜ao da amostra dependem somente de X de maneira que

f (i | X, ys, y¯s, ψ) = f(i | X, ψ).

(2.4)

Na prática, dizer que um projeto amostral é ignorável n˜ao significa que ele n˜ao for-

nece informaç˜oes úteis, mas que as probabilidades de seleç˜ao da amostra n˜ao fornecem

informaç˜oes adicionais daquelas já fornecidas pelo processo de amostragem.

A condiç˜ao (2.4) é uma condiç˜ao muito forte para garantir ignorabilidade do meca-

nismo de seleç˜ao da amostra. Em um artigo sobre dados faltantes, Rubin [34] estabelece

duas condiç˜oes necessárias e suficientes sob as quais o processo de dados faltantes pode

ser ignorado. Uma delas é a condiç˜ao de dados faltantes ao acaso ( missing at random), f (i | X, y, ψ) = f(i | X, ys, ψ)

(2.5)

isto é, f (i | X, y, ψ) avaliada nos dados observados (X, i, ys) independe de y¯s.

A segunda condiç˜ao é a de parâmetros distintos, que é satisfeita quando os parâmetros

ψ do processo de dados faltantes s˜

ao independentes dos parâmetros θ do processo de

2.2 Mecanismos de n˜

ao-resposta informativos e ignoráveis

19

geraç˜ao dos dados, condicionados aos valores das covariáveis X, isto é,

f (ψ | X, θ) = f(ψ | X).

(2.6)

É importante compreender que apesar de toda inferência ser realizada condicionada aos

dados observados, n˜ao é correto afirmar que a maneira como esses dados foram coletados

n˜ao faz diferença na inferência. A quest˜ao central é que a definiç˜ao de dados obser-

vados deve incluir informaç˜oes de como esses dados foram coletados, pois em muitas

situaç˜oes essas informaç˜oes têm importância fundamental em como esses valores devem

ser interpretados na modelagem da funç˜ao de verossimilhança.

2.2

Mecanismos de n˜

ao-resposta informativos e ig-

noráveis

Na presente Seç˜ao, apresentamos as condiç˜oes sob as quais o mecanismo de n˜ao-

resposta de uma pesquisa pode ser considerado ignorável. Essas condiç˜oes foram propos-

tas por Little [17] como uma extens˜ao dos resultados de Rubin [34] distinguindo entre a

seleç˜ao da amostra e o processo de n˜ao-resposta. Posteriormente, Sugden e Smith [40] es-

tabeleceram condiç˜oes sob as quais um processo de amostragem que depende das variáveis

de desenho Z pode ser considerado ignorável, conhecendo somente informaç˜oes parciais

do projeto amostral.

Para analisar os mecanismos de n˜ao-resposta do modelo, é conveniente dividir a

variável resposta y em dois grupos u e v, onde u s˜ao as variáveis completamente ob-

servadas na amostragem e v s˜ao as variáveis sujeitas à n˜ao-resposta.

O padr˜ao de n˜ao-respostas de y é descrito pelo vetor indicador de respostas r, onde

rk = 1 se a unidade k ∈ S responde e rk = 0 caso contrário. Os valores amostrados de u,

v e r s˜

ao denotados por us, vs e rs, respectivamente, enquanto os valores n˜ao amostrados

s˜ao denotados por u¯s, v¯s e r¯s, respectivamente. Além disso, os valores amostrados para

vs podem ser divididos em valores respondentes vsr e dados faltantes vs¯r .

Para avaliar o mecanismo de n˜ao-resposta, vamos considerar novamente a verossimi-

lhança dos dados completos. Assim,

20

Amostragem informativa

f (y, i, r | Z, θ, ψ, φ) = f(u, v, i, r | Z, θ, ψ, φ)

= f (u, v | Z, θ)f(i | Z, u, v, ψ)f(r | Z, u, v, i, φ).

(2.7)

Os dois primeiros fatores do lado direito de (2.7) s˜ao análogos a (2.1) e o último

fator modela o padr˜ao de n˜ao-respostas r através da distribuiç˜ao condicional de r dado

(Z, u, v, i) e indexados pelo conjunto de parâmetros φ.

Assim, a distribuiç˜ao dos dados (i, us, rs, vsr) pode ser obtida integrando (2.7) sobre

as componentes faltantes de u, r e v, denotadas por u¯s, r¯s, v¯s e vs¯r. Logo,

f (i, us, rs, vsr | Z, θ, ψ, φ) =

f (us, u¯s, vsr, vs¯r, v¯s | Z, θ)

× f(i | Z, us, u¯s, vsr, vs¯r, v¯s, ψ)

(2.8)

× f(rs | Z, us, u¯s, vsr, vs¯r, v¯s, i, φ)

× du¯s dv¯s dvs¯r,

onde a distribuiç˜ao das n˜ao-respostas está restrita as unidades amostradas rs.

A maioria dos métodos para tratar casos de n˜ao-resposta s˜ao baseados em modelos

que n˜ao consideram conjuntamente distribuiç˜oes para a amostra e para as n˜ao-respostas

e s˜ao restritos a distribuiç˜ao marginal dos valores observados us e vsr. Nesse caso, tem-se

f (us, vsr | Z, θ) =

f (us, u¯s, vsr, vs¯r, v¯s | Z, θ) du¯s dv¯s dvs¯r.

(2.9)

Estendendo a terminologia utilizada na Seç˜ao anterior, diz-se que um projeto amostral

e o mecanismo de n˜ao-resposta s˜ao ignoráveis se a inferência sobre θ baseada em (2.9)

é equivalente a inferência baseada na verossimilhança dos dados completos (2.8). Con-

sequentemente, as inferências sobre θ baseadas em (2.8) e (2.9) s˜ao equivalentes se estas

express˜oes diferem somente por fatores independentes de θ.

Em virtude disso, Little [17] utilizou a teoria de Rubin [34] para estabelecer as seguintes

condiç˜oes suficientes para garantir ignorabilidade do mecanismo de amostragem e de n˜ao-

resposta:

1. θ, ψ e φ s˜ao conjuntos de parâmetros distintos. Para teoria bayesiana, eles s˜ao

distribuidos independentemente a priori.

2.2 Mecanismos de n˜

ao-resposta informativos e ignoráveis

21

2. A distribuiç˜ao amostral f (i | Z, u, v, ψ) n˜ao depende dos itens n˜ao observados u¯s,

v¯s e vs¯r.

3. A distribuiç˜ao das n˜ao-respostas das unidades amostradas f (rs|Z, u, v , i , φ) n˜ao

depende dos itens n˜ao observados u¯s, v¯s e vs¯r.

Essas condiç˜oes podem ser enfraquecidas se θ tiver algumas propriedades especiais.

Por exemplo, suponha que a distribuiç˜ao conjunta de us e vs pode ser fatorada como

f (us, vs | Z, θ) = f(us | Z, θ1)f(vs | us, Z, θ2).

(2.10)

Se θ1 e θ2 s˜ao parâmetros distintos (no caso de inferência bayesiana, θ1 e θ2 s˜ao

independentes a priori ), ent˜ao o mecanismo de amostragem e de n˜ao-respostas pode ser

ignorado para inferência sobre θ1 quando a condiç˜ao 1 é válida juntamente com as duas

seguintes condiç˜oes (que s˜ao mais fracas que as condiç˜oes 2 e 3)

4. A distribuiç˜ao amostral f (i | Z, u, v, ψ) n˜ao depende dos itens n˜ao amostrados u¯s

e v¯s.

5. A distribuiç˜ao respondente f (rs | Z, u, v, i, φ) n˜ao depende dos itens n˜ao amostra-

dos u¯s e v¯s.

Consequentemente, os mecanismos de n˜ao-resposta para vs que dependem dos itens

amostrados e n˜ao dependem dos valores faltantes vs¯r, apesar de n˜ao poderem ser ignorados

para inferência sobre θ2, podem ser ignorados em inferências sobre θ1, o parâmetro da

distribuiç˜ao de us.

Exemplo 2.2.1. Considere uma pesquisa com amostragem estratificada tal que Z é uma

variável indicando o estrato, que pode ser por exemplo uma regi˜ao geográfica, e cada

estrato J contém NJ indiv´ıduos com nJ deles sendo sorteados por amostragem aleatória simples. Além disso, considere que existem duas variáveis: u , indicando escolaridade e completamente observada, e v , indicando renda familiar e parcialmente observada. Ent˜ao visto que a distribuiç˜ao f (i|Z, u, v, ψ) é conhecida e depende somente de Z , as condiç˜oes 2 e 4 s˜ao satisfeitas. Por outro lado, se a distribuiç˜ao f (rs|Z, u, v, i, φ) depende da regi˜ao e da escolaridade e n˜ao depende da variável resposta (renda domiciliar), ent˜ao a condiç˜ao

3 é satisfeita e o mecanismo de n˜ao-resposta é ignorável apesar dos valores da variável

22

Amostragem informativa

resposta n˜ao serem necessariamente uma amostra aleatória das unidades selecionadas em

cada regi˜ao.

Para resumir as condiç˜oes discutidas durante a presente Seç˜ao, pode-se dizer que dada

a probabilidade de seleç˜ao da amostra, para a maioria dos problemas a distribuiç˜ao res-

pondente pode ser ignorada se ela n˜ao depende dos valores dos itens que s˜ao faltantes

para algumas unidades. Quase todos os procedimentos para tratar n˜ao-resposta faz essa

consideraç˜ao, mesmo que implicitamente. Em particular, a probabilidade de n˜ao-resposta

é considerada constante dentro de subclasses definidas pelos valores das variáveis da amos-

tragem Z ou em variáveis completamente observadas us.

2.3

Distribuiç˜

ao marginal amostral

Na presente Seç˜ao, a funç˜ao de densidade de probabilidade populacional poderá depen-

der de valores conhecidos de variáveis auxiliares xi tais que Yi | Xi = xi ∼ fp(yi | xi, θ).

Os vetores xi podem incluir algumas variáveis do projeto amostral bem como outras

variáveis auxiliares.

Segundo Pfeffermann, Krieger e Rinott [28], quando a funç˜ao de densidade de pro-

babilidade populacional depende de variáveis concominantes, a funç˜ao de densidade de

probabilidade amostral de Yi considerando o caso de resposta completa pode ser escrita,

utilizando-se o Teorema de Bayes, como

fs(yi | xi, θ, ψ) = f(yi | xi, θ, ψ, Ii = 1)

= P r(Ii = 1 | yi, xi, ψ)fp(yi | xi, θ) P r(Ii = 1 | xi, ψ). (2.11)

Segue da equaç˜ao (2.11) que a funç˜ao de densidade de probabilidade populacional é di-

ferente

da

funç˜ao

de

densidade

de

probabilidade