Estudos de simetria na associação genética usando dados de trios por Maria Jacqueline Batista - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub para obter uma versão completa.

Estudos de simetria

na associaç˜

ao genética

usando dados de trios

Maria Jacqueline Batista

TESE APRESENTADA

AO

INSTITUTO DE MATEM ÁTICA E ESTATÍSTICA

DA

UNIVERSIDADE DE S ˜

AO PAULO

PARA

OBTENC

¸ ˜

AO DO TÍTULO

DE

DOUTOR EM CIÊNCIAS

Programa: Estat´ıstica

Orientadora: Profa. Dra. Júlia Maria Pavan Soler

Durante o desenvolvimento deste trabalho a autora recebeu apoio financeiro da

CAPES e FAPESP processo N◦ 06/53612-0

S˜ao Paulo, dezembro de 2011

Estudos de simetria na associaç˜

ao

genética usando dados de trios

Esta tese contém as correç˜oes e alteraç˜oes

sugeridas pela Comiss˜ao Julgadora durante a defesa

realizada por Maria Jacqueline Batista em 02/12/2011.

O original encontra-se dispon´ıvel no Instituto de

Matemática e Estat´ıstica da Universidade de S˜ao Paulo.

Comiss˜ao Julgadora:

• Profa. Júlia Maria Pavan Soler (Orientadora) - IME/USP

• Prof. Carlos Alberto de Bragança Pereira - IME/USP

• Prof. Dalton Francisco de Andrade - INE/CTC/UFSC

• Profa. Clarice Garcia Borges Demétrio - ESALQ/USP

• Profa. Suely Ruiz Giolo - DEST/UFPR

“Aleluia!

Louvai, ó servos do Senhor, louvai o nome do Senhor.

Bendito seja o nome do Senhor, agora e para sempre.

Desde o nascer ao pôr-do-sol, seja louvado o nome do Senhor.

O Senhor é excelso sobre todos os povos,

sua glória ultrapassa a altura dos céus.”

Salmos 112, 1-4

“Jesus olhou para eles e disse:

aos homens isto é imposs´ıvel,

mas a Deus tudo é poss´ıvel.”

Mateus 19,26

“O coraç˜ao do homem

disp˜oe o seu caminho,

mas é o Senhor que

dirige seus passos.”

Provérbios 16,9

“Louvai o Senhor,

porque Ele é bom,

cantai à glória de Seu nome,

porque Ele é amável.”

Salmos 134,3

“Este é o dia que o Senhor fez: seja para nós dia de alegria e de

felicidade.

Senhor, dai-nos a salvaç˜ao; dai-nos a prosperidade, ó Senhor!

Bendito seja o que vem em nome do Senhor!

Da casa do Senhor nós vos bendizemos.

O Senhor é nosso Deus, ele fez brilhar sobre nós a sua luz.

Organizai uma festa com profus˜ao de coroas. E cheguem até os ângulos

do altar.

Sois o meu Deus, venho agradecer-vos. Venho glorificar-vos, sois o meu

Deus.

Dai graças ao Senhor porque ele é bom, eterna é sua misericórdia.”

Salmos de agradecimento 117, 134, 112.................. Salmos 117, 24-29

A Deus,

minha filha Ana Yasmin, meu querido marido Juvêncio,

meus pais: Otac´ılio e Socorro, meu irm˜ao J´

ulio,

e minha avozinha querida Ana M. Batista (In memoriam).

Agradecimentos

Agradeço,

A Deus Todo Poderoso, pela saúde e oportunidade. À M˜

ae Imaculada pelas graças alcançadas.

À minha fam´ılia, alicerce de tudo: minha m˜

ae Socorro, meu pai Otac´ılio e meu irm˜ao Júlio. À minha

avozinha: Ana, por toda dedicaç˜

ao e amor (muitas saudades). Amo vocês.

Ao meu amado marido Juvêncio, por tudo: paciência, amor, carinho, conselhos... E por neste doutorado

ter nascido nossa filha Ana Yasmin, amo muito vocês dois! Meu nego, saiba que a nossa fam´ılia é a maior alegria da minha vida. Porque fam´ılia é tudo.

A D. Gracilene, pela força, e por ficar com minha filha enquanto eu tinha que viajar para resolver as

pendências desta tese.

À minha orientadora, profa. Júlia Maria, sou muito agradecida a ela, n˜ao somente por ter me guiado

neste tema e dado energia na orientaç˜

ao deste trabalho, mas também por ser uma amiga em todos os

momentos desta trajetória, foi muito bom conhecê-la e aprender com ela.

Aos professores do IME-USP, em especial, Julio Singer, Elisabeti Kira e Antônio Carlos e os do DEMA-

UFC, em especial Ana Maria, Maur´ıcio Mota, André Shiguemoto, Júlio Barros, Rosa Mota, S´ılvia Freitas,

Jo˜ao Welliandre e Ronald Nojosa (agradeço em especial as palavras de incentivo e implementaç˜ao com-

putacional que foi de GRANDE ajuda, agradeço também a sua esposa Francilene pelo apoio), e também

as meninas da secretaria, Margeri e Luisa.

Aos meus amigos do IME-USP, em especial, a Michelli e Horácio, Tatiana e Alessandro, Patr´ıcia e

Raydonal, Lane e Marcelo, Luz Marina, Rafael, Michel, Caio, Alexandre, Gleiciane, Tatiana, Gérman e

Lizandra.

À Núbia que me ajudou em todas as fases deste trabalho, com palavras, hospedagem, programas com-

putacionais, ou seja, ela faz parte deste trabalho, muito obrigada!

index-8_1.png

index-8_2.png

viii

Ao Laboratório de Genética e Cardiologia Molecular do Instituto do Coraç˜ao da Faculdade de Medicina

da Universidade de S˜ao Paulo (InCor-USP), pelos dados reais, em especial aos Drs. José Eduardo Krieger

e Alexandre C. Pereira.

À banca examinadora, prof. Carlos Alberto de Bragança Pereira, prof. Dalton Francisco de Andrade,

profa. Clarice Garcia Borges Demétrio e em especial a profa. Suely Giolo, pelo apoio e INCENTIVO no

decorrer deste trabalho.

À FAPESP e CAPES pelo aux´ılio financeiro.

ao dá para citar todos os nomes que merecem agradecimentos, pois s˜ao muitas pessoas, mas saibam que

todas est˜

ao no meu coraç˜

ao ♥.

Batista, M.J.

IME/USP

Resumo

Estudos de simetria na associaç˜

ao genética usando dados de trios

O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis

preditoras de alta dimens˜

ao e esparso, fatores de risco genéticos para doenças complexas. Um delineamento

amostral útil nestes estudos é coletar dados de trios, que s˜

ao pequenos núcleos familiares (pai e m˜ae, livres

da doença, e filho afetado) e, em cada indiv´ıduo, obter dados do genótipo de marcadores moleculares,

sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milh˜

ao de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento

em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa

do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando

um teste de simetria em tabelas de contingência 2 × 2 (conhecido, em Genética, como teste TDT, do

inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes s˜ao usados para construir uma estat´ıstica de somas acumuladas padronizadas (CUSUM) que permite a

seleç˜ao de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com

a doença. Como um terceiro passo da análise, nas regi˜

oes selecionadas no passo dois, s˜ao realizadas

análises de simetria via testes exatos considerando tabelas 2 × 2 e 4 × 4 (pares de SNPs). A formulaç˜

ao

do TDT em termos de testes de simetria é uma inovaç˜

ao na área de Genética e facilita a extens˜

ao do

caso uniloco para o multilocos. A contribuiç˜

ao deste trabalho reside ainda na formulaç˜ao exata do teste

que é útil em situaç˜oes de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso

inferências parciais foram realizadas a partir de decomposiç˜

oes apropriadas da funç˜ao de verossimilhança.

A modelagem do problema em termos do modelo log´ıstico permitiu concluir que n˜ao é necessário corrigir

a associaç˜ao para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando

recursos dos aplicativos PLINK e R. A aplicaç˜

ao é realizada utilizando dados de 71 trios da populaç˜

ao

brasileira, em que os indiv´ıduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indiv´ıduos, est˜

ao dispon´ıveis dados genéticos de uma plataforma de SNPs.

Palavras-chave: Mapeamento genético, Análise multilocos, Estudos de simetria, Dados de trios, Teste

TDT.

Abstract

Symmetry studies in the genetic association using data from trios

Currently, the great challenge of Genetic Epidemiology is to identify, in a high dimensional and sparse

space of predictor variables, genetic risk factors for complex diseases. A useful sampling design in these studies is to collect data from trios, which are small nuclear families (father and mother, free from disease, and affected child), and obtain genotypic information from each individual. The molecular markers platform most commonly used for this purpose is of SNPs (Single Nucleotide Polymorphisms), with about

1 million genetic predictor variables. This work proposes a multi-stage procedure to identify SNPs asso-

ciated with disease using data from trios. The first step of the procedure is based on a series of single locus analysis (for each predictor variable) using a test for symmetry in 2 × 2 contingency tables (known in genetics as TDT (Transmission Disequilibrium Test). In a second stage of the analysis, the results of these tests are used to construct a standard statistic of the cumulative sums (CUSUM), which allows the

selection of sets of adjacent SNPs (ie, sets of predictor variables), possibly associated with the disease.

As a third step of the analysis, in the regions selected in step two, are performed an extended analysis of symmetry considering 4 × 4 contingency tables. The TDT formulation in terms of symmetry tests is an

innovation in the genetics area and facilitates the extension of the single locus analysis to the multiloci case. The contribution of this work lies in the exact formulation of the symmetry test for square contingency tables that is useful in situations of small sample sizes that often occur in data from trios. In this case, partial inferences were performed from appropriate decompositions of the likelihood function. The

structural modeling of the problem in terms of logistic model allowed us to conclude that there is no need to adjust the association for data from parents, but only for the effect of covariates evaluated in each parental haplotype. The procedure is implemented using resources of the R statistical environment and

Plink. The application is performed using real data from 71 trios of the Southeast Brazilian population, in which affected child was defined in terms of the occurrence of one congenital heart disease, and in each of the 213 individuals, genomic data were collected using Affymetrix SNP 6.0 platform.

Keywords: Genetic mapping, Multiloci analysis, Symmetry studies, Data trios, Test TDT.

Índice

Agradecimentos

vii

Resumo

ix

Abstract

x

Lista de Tabelas

xiii

Lista de Figuras

xiv

1 Introduç˜

ao

1

1.1 O contexto genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2 Motivaç˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.3 Proposta de trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2 Delineamento com Trios em Genômica

10

2.1 Estrutura de delineamentos com trios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.2 Teste de desequil´ıbrio de transmiss˜

ao (TDT) . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.2.1 Risco relativo do haplótipo no n´ıvel genot´ıpico . . . . . . . . . . . . . . . . . . . . .

12

2.2.2 Risco relativo do haplótipo no n´ıvel cromossômico . . . . . . . . . . . . . . . . . . .

14

2.3 Marcadores moleculares - SNPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

3 Teste TDT - Um Estudo de Simetria

19

3.1 Caso Uniloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

3.1.1 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

3.1.2 Teste exato - Tabelas 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.1.3 Modelo log´ıstico - Tabelas 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

index-12_1.png

index-12_2.png

xii

3.2 Caso Multiloco - Análise Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2.1 TDT generalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2.2 Teste exato - Tabelas 4 × 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.2.3 Modelo log´ıstico - Tabelas 4 × 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

4 Seleç˜

ao de Regi˜

oes Candidatas

40

4.1 Métodos de seleç˜

ao de regi˜

oes candidatas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

4.1.1 Método de alto escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.1.2 Método CUSUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

4.1.3 Procedimento multiestágios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

5 Aplicaç˜

ao

47

6 Consideraç˜

oes Finais

61

A Genética - Conceitos Básicos e Revis˜

ao

65

A.1 Equil´ıbrio de Hardy-Weinberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

A.2 Análise de ligaç˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

A.3 Desequil´ıbrio de ligaç˜

ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

B Demonstraç˜

oes de Algumas Express˜

oes

71

C Rotinas Computacionais

77

Referências Bibliográficas

94

Batista, M.J.

IME/USP

Lista de Tabelas