Sistemas computacionais para atenção visual Top-Down e Bottom-up usando redes neurais artificiais por Alcides Xavier Benicasa - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub para obter uma versão completa.

Sistemas Computacionais para Atenção Visual

Top-Down e Bottom-UP usando

Redes Neurais Artificiais

Alcides Xavier Benicasa

SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP

Data de Depósito:

Assinatura:

Sistemas Computacionais para Atenção Visual Top-Down

e Bottom-UP usando Redes Neurais Artificiais

Alcides Xavier Benicasa

Orientadora: Profa. Dra. Roseli Aparecida Francelin Romero

Co-orientador: Prof. Dr. Zhao Liang

Tese apresentada ao Instituto de Ciências Matemáticas

e de Computação - ICMC-USP, como parte dos

requisitos para obtenção do título de Doutor em

Ciências - Ciências de Computação e Matemática

Computacional. EXEMPLAR DE DEFESA.

USP – São Carlos

Setembro de 2013

Ficha catalográfica elaborada pela Biblioteca Prof. Achille Bassi

e Seção Técnica de Informática, ICMC/USP,

com os dados fornecidos pelo(a) autor(a)

Benicasa, Alcides Xavier

B467s

Sistemas Computacionais para Atenção Visual Top-

Down e Bottom-Up usando Redes Neurais Artificiais /

Alcides Xavier Benicasa; orientador Roseli

Aparecida Francelin Romero; co-orientador Zhao

Liang. -- São Carlos, 2013.

218 p.

Tese (Doutorado - Programa de Pós-Graduação em

Ciências de Computação e Matemática Computacional) --

Instituto de Ciências Matemáticas e de Computação,

Universidade de São Paulo, 2013.

1. Atenção Visual Bottom-Up e Top-Down. 2.

Eviesamento Top-Down. 3. Atenção Baseada em Objetos.

4. Reconhecimento de Objetos. I. Romero, Roseli

Aparecida Francelin, orient. II. Liang, Zhao, co-

orient. III. Título.

iv

Ao amor de minha vida Elen,

e ao amor de nossas vidas,

nossa querida filha Alícia.

v

vi

Agradecimentos

Inicialmente agradeço aos amores de minha vida Elen e Alícia, pois sem este

amor eu não existiria.

Agradeço especialmente à minha amada esposa Elen, pois seu apoio, paciên-

cia e confiança tornou possível a busca por forças para trabalhar “duro” e concluir

mais esta fase de minha vida.

Agradeço também em especial à minha querida mãe Eunice que, apesar

da distância, sempre esteve ao meu lado com muito amor, pensamentos de fé e

carinho. Agradeço também ao meu pai Osvaldo (em memória), que à sua maneira,

mostrou-me o caminho certo à percorrer.

Agradeço aos meus irmãos Vanderli, Marli, Walter, Luiz e Sueli, que sempre

acreditaram em mim. Agradeço também a meu cunhado Edilson, pela ajuda incon-

dicional sempre que solicitada.

Gostaria de expressar minha profunda gratidão à minha orientadora, Profa.

Dra. Roseli Ap. Francelin Romero e ao meu co-orientador, Prof. Dr. Zhao Liang.

Agradeço à Profa. Dra. Roseli pela oportunidade, orientação e inspiração para con-

duzir esta pesquisa. Agradeço ao Prof. Dr. Zhao por seu otimismo e disponibilidade

demonstrados em todos os momentos desta jornada. Gostaria de agradecer a ambos,

Profa. Dra. Roseli e Prof. Dr. Zhao pelas oportunidades do passado, presente e

futuro que, não existiriam sem vossos apoios.

Agradeço também ao amigo Marcos Quiles, pelas discussões construtivas,

parcerias e idéias surgidas durante minha permanência na USP. Agradeço também

a todos os colegas do LAR, em especial ao amigo Jorge Kanda pelo companheirismo

durante as disciplinas.

Agradecimentos aos funcionários do ICMC e em especial às secretárias da

Pós-Graduação, por todo o apoio e atenção disponibilizada.

Finalmente, agradeço aos colegas e amigos do Departamento de Sistemas de

Informação da Universidade Federal de Sergipe - Campus de Itabaiana, pela libera-

ção parcial de carga horária, sem o qual a realização desta tese seria praticamente

impossível. Agradeço também à Universidade Federal de Sergipe, pelo afastamento

vii

concedido no ano de depósito da tese, sendo de suma importância para a escrita

e conclusões finais deste trabalho. Ao programa de bolsas de pós-graduação para

docentes e técnicos administrativos da Universidade Federal de Sergipe (THESIS),

à CAPES, pelo apoio financeiro inicial e ao Instituto de Ciências Matemáticas e de

Computação, pelo suporte e estrutura fornecidos para o desenvolvimento desta tese.

viii

Resumo

A análise de cenas complexas por computadores não é uma tarefa trivial,

entretanto, o cérebro humano pode realizar esta função de maneira eficiente. A

evolução natural tem desenvolvido formas para otimizar nosso sistema visual de

modo que apenas partes importantes da cena sejam analisadas a cada instante.

Este mecanismo de seleção é denominado por atenção visual.

A atenção visual

opera sob dois aspectos: bottom-up e top-down. A atenção bottom-up é dirigida por

conspicuidades baseadas na cena, como o contraste de cores, orientação, etc. Por

outro lado, a atenção top-down é controlada por tarefas, memórias, etc. A atenção

top-down pode ainda modular o mecanismo bottom-up através do enviesamento

de determinadas características de acordo com a tarefa. Além do mecanismo de

modulação considerado, o que é selecionado a partir da cena também representa

uma importante parte para o processo de seleção. Neste cenário, diversas teorias têm

sido propostas e podem ser agrupadas em duas linhas principais: atenção baseada

no espaço e atenção baseada em objetos. Modelos baseados em objeto, ao invés

de apenas direcionar a atenção para locais ou características específicas da cena,

requerem que a seleção seja realizada a nível de objeto, significando que os objetos

são a unidade básica da percepção. De modo a desenvolver modelos de acordo

com a teoria baseada em objetos, deve-se considerar a integração de um módulo

de organização perceptual. Este módulo pode segmentar os objetos do fundo da

cena baseado em princípios de agrupamento tais como similaridade, proximidade,

etc. Esses objetos competirão pela atenção. Diversos modelos de atenção visual

baseados em objetos tem sido propostos nos últimos anos. Pesquisas em modelos

de atenção visual têm sido desenvolvidas principalmente relacionadas à atenção

bottom-up guiadas por características visuais primitivas, desconsiderando qualquer

informação sobre os objetos. Por outro lado, trabalhos recentes têm sido realizados

em relação ao uso do conhecimento sobre o alvo para influenciar a seleção da região

mais saliente. Pesquisas nesta área são relativamente novas e os poucos modelos

existentes encontram-se em suas fases iniciais. Aqui, nós propomos um novo modelo

para atenção visual com modulações bottom-up e top-down. Comparações qualita-

ix

tivas e quantitativas do modelo proposto são realizadas em relação aos mapas de

fixação humana e demais modelos estado da arte propostos.

x

Abstract

Perceiving a complex scene is a quite demanding task for a computer albeit

our brain does it efficiently. Evolution has developed ways to optimize our visual

system in such a manner that only important parts of the scene undergo scrutiny at

a given time. This selection mechanism is named visual attention. Visual attention

operates in two modes: bottom-up and top-down. Bottom-up attention is driven

by scene-based conspicuities, such as the contrast of colors, orientation, etc. On

the other hand, top-down attention is controlled by task, memory, etc. Top-down

attention can even modulate the bottom-up mechanism biasing features according

to the task. In additional to modulation mechanism taken into account, what is

selected from the scene also represents an important part of the selection process.

In this scenario, several theories have been proposed and can be gathered in two

main lines: space-based attention and object-based attention. Object-based models,

instead of only delivering the attention to locations or specific features of the scene,

claim that the selection it be performed on object level, it means that the objects

are the basic unit of perception. In order to develop models following object-based

theories, one needs to consider the integration of a perceptual organization module.

This module might segment the objects from the background of the scene based on

grouping principles, such as similarity, closeness, etc. Those objects will compete

for attention. Several object-based models of visual attention have been proposed

in recent years. Research in models of visual attention has mainly focused on the

bottom-up guidance of early visual features, disregarding any information about

objects. On the other hand, recently works have been conducted regarding the use

of the knowledge of the target to influence the computation of the most salient region.

The research in this area is rather new and the few existing models are in their early

phases. Here, we propose a new visual attention model with both bottom-up and

top-down modulations. We provide both qualitative and quantitative comparisons

of the proposed model against an ground truth fixation maps and state-of-the-art

proposed methods.

xi

xii

Sumário

Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxvi

1 Introdução

1

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.3 Organização do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2 Neurobiologia da Atenção Visual

7

2.1 O Fluxo da Informação Através do Córtex Visual . . . . . . . . . . . . . .

7

2.2 Controle Cognitivo da Atenção Visual . . . . . . . . . . . . . . . . . . . . .

9

2.3 Enviesamento Top-down . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 Atributos no Comportamento da Atenção

. . . . . . . . . . . . . . . . . . 17

2.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Fundamentos Teóricos

23

3.1 O Mapa de Saliência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.1 Extração de Características Visuais Primitivas

. . . . . . . . . . . 24

3.1.2 Pirâmide Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.3 Pirâmide Direcional . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.4 Diferenças Centro-Vizinhança . . . . . . . . . . . . . . . . . . . . . 26

3.1.5 Saliência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.6 Seleção da Atenção e Inibição de Retorno

. . . . . . . . . . . . . . 29

3.2 Sincronismo e Dessincronismo em Redes Neurais Pulsadas . . . . . . . . 30

3.2.1 Redes Neurais Pulsadas . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.2 Sincronização em Rede de Osciladores I&F . . . . . . . . . . . . . . 31

3.2.3 Rede LEGION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Mapas Auto-Organizáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

xiii

4 Modelos Computacionais para Atenção Visual

47

4.1 Modelos Baseados em Mapas de Saliência . . . . . . . . . . . . . . . . . . 48

4.2 Modelos com Enviesamento Top-down . . . . . . . . . . . . . . . . . . . . 53

4.3 Modelos Baseados na Correlação Temporal . . . . . . . . . . . . . . . . . 61

4.4 Pontos de Investigação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.5 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 Modelos Computacionais Propostos para Atenção Visuais

75

5.1 Mapa de Atributo-Saliente e Localização de Objeto Saliente . . . . . . . . 75

5.1.1 Mapa de Atributo-Saliente . . . . . . . . . . . . . . . . . . . . . . . 75

5.1.2 Treinamento Aleatório do SOM

. . . . . . . . . . . . . . . . . . . . 81

5.1.3 Treinamento Predefinido do SOM . . . . . . . . . . . . . . . . . . . 84

5.2 Atenção Top-Down e Bottom-UP . . . . . . . . . . . . . . . . . . . . . . . . 88

5.2.1 Atenção Top-Down e Bottom-UP em Cenas Sintéticas . . . . . . . . 90

5.2.2 Atenção Top-Down e Bottom-UP em Cenas Reais . . . . . . . . . . 99

5.3 Competição por Atenção Visual Baseada em Objetos . . . . . . . . . . . . 109

5.3.1 Atenção Visual Baseada em Objetos . . . . . . . . . . . . . . . . . . 110

5.3.2 Enviesamento Top-Down e Atenção Visual Baseada em Objetos

. 131

5.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6 Análise dos Modelos Propostos

137

6.1 Domínios Heterogêneos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

6.2 Domínio Psicofísico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

6.3 Domínio Homogêneo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

6.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

7 Conclusões e Trabalhos Futuros

177

7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

Referências

192

xiv

Lista de Figuras

2.1 Visualização das projeções a partir da retina para o córtex visual pri-

mário. Adaptado de Lau (2013). . . . . . . . . . . . . . . . . . . . . . . . .

8

2.2 Vias visuais paralelas do sistema visual. Adaptado de Kandel et al. (1997). 10

2.3 Diagrama do modelo da Teoria de Integração de Características pro-

posto por (Treisman, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.4 Seleção sequencial de características contrastantes. O alvo (mostrado

em vermelho) se distingue dos distratores por sua cor. Após o surgi-

mento da primeira imagem, o alvo troca de posição com um distrator.

O observador, neste caso um primata, somente recebe a recompensa

após o direcionamento da atenção para a posição final do alvo. Em

outro experimento no qual não houve mudança de posição do alvo, a

recompensa ocorreu imediatamente após o movimento sacádico cor-

reto. Para maiores detalhes veja Murthy et al. (2001). . . . . . . . . . . . 13

2.5 A função do Córtex Pré-Frontal no controle da cognição. Adaptado de

Miller (2000). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.6 Mecanismo neural para o controle da atenção (Itti and Koch, 2001). . . . 14

2.7 A influência da atenção visual baseada em características top-down e

bottom-up (Theeuwes, 1992). . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.8 Atividade de neurônio da área V4 relacionada à atenção visual top-down

e bottom-up (Ogawa and Komatsu, 2004). . . . . . . . . . . . . . . . . . . 16

2.9 Atenção top-down meio à distradores (Bacon and Egeth, 1994). . . . . . 17

2.10 Exemplos fáceis e difíceis de busca visual (Wolfe and Horowitz, 2004). . 18

2.11 Modelo de Processamento da Atenção (Adaptado de Wolfe and Horowitz

(2004)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.12 Pistas para a orientação (Wolfe and Horowitz, 2004). . . . . . . . . . . . . 19

2.13 Busca meio a distratores (Wolfe and Horowitz, 2004). . . . . . . . . . . . 20

2.14 Em busca do grande quadrado branco (Wolfe, 2005). . . . . . . . . . . . . 21

xv

3.1 Extração de 4 canais de cores. a) Imagem de Entrada, b) Extração

do canal vermelho, c) Canal verde, d) Canal azul e e) Canal amarelo

(Siklossy, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 Exemplo de orientação. Barra vertical inserida em um ambiente com

barras horizontais torna-se o elemento mais saliente devido a grande

diferença de orientação (Siklossy, 2005). . . . . . . . . . . . . . . . . . . . 26

3.3 Imagem das intensidades dos quatro kernels de Gabor utilizados para

determinar a informação da orientação local. a) 0◦, b) 45◦, c) 90◦ e d)

135◦ (Siklossy, 2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Extração de informação orientada utilizando filtragem linear de Gabor.

a)Imagem de entrada, b)Informações filtradas com 0◦, c)45◦, d)90◦ e

e)135◦. Adaptado de Siklossy (2005). . . . . . . . . . . . . . . . . . . . . . 27

3.5 Exemplo do comportamento do operador de normalização N (.). . . . . . 28

3.6 Propriedade neuro-computacional de neurônio pulsante biológico. (Izhi-

kevich, 2004).

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.7 Osciladores não Segmentados. . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.8 Osciladores Segmentados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.9 Arquitetura LEGION de duas dimensões. O inibidor global é represen-

tado pelo círculo preto (Wang and Terman, 1995). . . . . . . . . . . . . . 34

3.10 Dinâmica de ciclo limite de um oscilador de relaxamento quando Ii > 0

(Wang and Terman, 1995). . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.11 Dinâmica de ciclo limite de um oscilador quando Ii < 0 (Wang and

Terman, 1995). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.12 Atividade ˙xi de quatro osciladores no tempo t. (a) γ = 3.0, (b) γ = 4.0, (c)

γ = 5.0 e (d) γ = 6.0. Para todos os osciladores utilizou-se os seguintes

valores de parâmetros: Ii = 1.0, = 0.01 e β = 0.2. . . . . . . . . . . . . . . 36

3.13 Influência de

na atividade ˙xi de quatro osciladores no tempo t. (a)

= 0.01, (b)

= 0.02, (c)

= 0.03 e (d)

= 0.04. Para todos os osciladores

utilizou-se os seguintes valores de parâmetros: Ii = 1.0, γ = 3.0 e β = 0.2. 37

3.14 Simulação computacional de uma rede LEGION 20x20 para segmen-

tação de uma imagem binária. (a) Imagem de entrada com 3 objetos

(letras U, S e P). (b) Atividade temporal ˙xi dos osciladores para as

primeiras 15000 integrações. Os parâmetros utilizados foram:

= 0.02,

α = 0.005, β = 0.1, γ = 6.0, θ = 0.9, λ = 0.1, θx = −1.1, θp = 5.0, Wz = 1.5,

µ = 0.01, φ = 3.0, ρ = 0.02, Tik = 2.0 e θz = 0.1. . . . . . . . . . . . . . . . . . 40

3.15 Arranjo dos neurônios do SOM e definição das variáveis. Adaptado de

(Zuchini, 2003). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.16 Dois exemplos de topologias dos neurônios do SOM (Zuchini, 2003). . . 43

3.17 Exemplo de treinamento de um mapa SOM. . . . . . . . . . . . . . . . . . 44

xvi

4.1 Diagrama de Venn para as três hipóteses descritas neste capítulo e

suas combinações, somando um total de 6 possibilidades. Adaptado de

Tsotsos (2011). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2 Modelo de atenção visual baseado em mapa de saliência proposto por

Koch and Ullman (1985). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.3 Modelo de atenção visual baseado em mapa de saliência proposto por

Itti et al. (1998). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.4 Modelo de atenção visual baseado em mapa de saliência para o reco-

nhecimento de objeto proposto por Walther et al. (2002). . . . . . . . . . 52

4.5 Modelo de atenção visual baseado em proto-objetos proposto por Walther

and Koch (2006). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.6 Modelo de seleção de atenção proposto por Clark and Ferrier (1989). . . 55

4.7 Arquitetura do modelo de atenção visual proposto por Wolfe (1994). . . . 56

4.8 Arquitetura do modelo de atenção visual proposto por Navalpakkam

and Itti (2005). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.9 Arquitetura do módulo de aprendizado do modelo de atenção visual

VOCUS, proposto por Frintrop (2006). . . . . . . . . . . . . . . . . . . . . 58

4.10 Arquitetura do modelo de atenção visual proposto por Navalpakkam

and Itti (2006a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.11 Arquitetura do modelo de atenção visual proposto por Borji et al. (2011). 60

4.12 “Mapa Cinza”. Resultado da segmentação gerada pelo modelo de Wang

and Terman (1997). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.13 Modelo de atenção baseado no tamanho do objeto proposto por Wang

(1999). Imagem de entrada (à esquerda) - Processo temporal de seleção

(à direita). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.14 Modelo de atenção bottom-up e top-down baseado na análise de cenas

proposto por Wang (2002). . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.15 Arquitetura da rede de osciladores baseado em objetos proposta por

Kazanovich and Borisyuk (2002). . . . . . . . . . . . . . . . . . . . . . . . 66

4.16 Diagrama de integração de módulos proposto por Quiles et al. (2011). . 67

4.17 Exemplo de alvo (“cruz na posição horizontal”) com saliência nula ba-

seada no modelo proposto por Itti and Koch (2000). . . . . . . . . . . . . 71

4.18 Exemplo de alvos cognitivamente distintos e características baseadas

no espaço semelhantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.19 Exemplo de busca conjuntiva sem sucesso por meio de seleção visual

baseada no espaço. De acordo com a seleção visual (Itti and Koch,

2000), a região contendo a maça distante do agrupamento foi selecio-

nada após a terceira sacada. . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.20 Exemplo de busca sem sucesso baseada em característica a nível de

objeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

xvii

5.1 Processo de Sincronização e Segmentação.

. . . . . . . . . . . . . . . . . 77

5.2 Mapa SOM de Cores. Valores de parâmetros utilizados: αk = 0.5, σ = 300

e nit = 10000. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.3 Processo de geração do Mapa de Atributo-Saliência. . . . . . . . . . . . . 80

5.4 Mapa de Atributo-Saliente. Simulação variando a heterogeneidade dos

distratores. (a), (b), (c) e (d) representam quatro níveis, variando de um

fundo contendo objetos homogêneos a um padrão de objetos distratores

com cores heterogêneas. Valores de parâmetros utilizados nas simula-

ções: sincronização: αs = 0.6 e I = 1.1. Imagens com 64 x 64 pixels

utilizadas em (Quiles et al., 2009)). . . . . . . . . . . . . . . . . . . . . . . 81

5.5 Mapa de Atributo-Saliência de objetos com o mesmo valor em relação

à característica cor e posicionamento diferente. Imagem com 64 x 64

pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.6 Localização de Objetos Salientes. Simulação variando a heterogenei-

dade dos distratores. (a), (b), (c) e (d) representam quatro níveis, va-

riando de um fundo contendo objetos homogêneos a um padrão de

objetos distratores com cores heterogêneas.

Valores de parâmetros

utilizados nas simulações: sincronização (αs = 0.6 e I = 1.1), rede SOM

(αk = 0.2, σ = 26 e nit = 10000). Imagens com 64 x 64 pixels utilizadas

em (Quiles et al., 2009). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.7 Localização de Objetos Salientes. Localização de dois objetos salientes.

Imagens com 64 x 64 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.8 Localização de Objetos Salientes.

Precisão na localização de alvos.

Imagens com 64 x 64 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.9 Diagrama do modelo proposto para a localização de objetos salientes II.

87

5.10 Localização de Objetos Salientes II. Simulação variando a heterogenei-

dade dos distratores. Valores de parâmetros utilizados nas simulações:

sincronização (αs = 0.6 e I = 1.1), rede SOM (αk = 0.2, σ = 26 e nit = 5000).

Imagens com 64 x 64 pixels utilizadas em (Quiles et al., 2009). . . . . . . 88

5.11 Localização de Objetos Salientes II. Dois objetos salientes.

Valores

de parâmetros utilizados de acordo com simulações apresentadas na

Figura 5.10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.12 Localização de Objetos Salientes II. Regiões salientes sobrepostas. . . . . 89

5.13 Exemplo de características contrastantes. (a) Cor, b) Orientação e (c)

Intensidade.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.14 Exemplo de extração de características primitivas. (a) Imagem de En-

trada, (b) Mapa de Intensidades, (c) Mapa de Cores Oponentes RG, (d)

Mapa de Cores Oponentes BY e os Mapa de Orientações: (e) O0, (f) O90,

(g) O45 e (h) O135. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.15 Exemplos de objetos para treinamento. . . . . . . . . . . . . . . . . . . . . 93

xviii

5.16 Segmentação e valor de reconhecimento. . . . . . . . . . . . . . . . . . . . 94

5.17 Diagrama do modelo de atenção top-down e bottom-up. . . . . . . . . . . 95

5.18 Objetos conhecidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.19 Modelo de atenção top-down e bottom-up. Simulação 1 - Contraste em

Cores. (a) Imagem de entrada, (b) Mapa SOM, (c) Mapa de atributo-saliente

com inibidor ativo, (d) Local de maior saliência, (e) Mapa de atributo-saliente

com inibidor ativo com ênfase nas regiões salientes, (f) Canal red, (g)

Canal green, (h) Canal blue, (i) Contraste de intensidades, (j) Cores

oponentes Red − Green e (k) Blue − Y ellow, (l) Orientações O0, (m) O90,

(n) O45 e (o) O135, e (p) Reconhecimento dos objetos. . . . . . . . . . . . . 97

5.20 Modelo de atenção top-down e bottom-up. Simulação 2 - Contraste em

orientações. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.21 Modelo de atenção top-down e bottom-up. Simulação 3 - Busca conjun-

tiva baseada na cor e orientação. . . . . . . . . . . . . . . . . . . . . . . . 98

5.22 Exemplo de saliência nula de objeto conhecido. . . . . . . . . . . . . . . . 99

5.23 Modelo de atenção top-down e bottom-up. Simulação 4. . . . . . . . . . . 100

5.24 Modelo de atenção top-down e bottom-up. Simulação 5. Modulações do

parâmetro Wj para o enviesamento top-down de características deseja-

das. O valor do parâmetro Wj encontra-se na primeira coluna. Para

todas as simulações, foi utilizado Wj = 0.0 para todo j não informado,

com exceção de W11,12 = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.25 Diagrama do modelo de atenção top-down e bottom-up II. . . . . . . . . . 102

5.26 Gráfico do comportamento da rede LEGION baseado em variações de

Wz e θp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.27 Segmentação LEGION com variações dos parâmetros Wz e θp. A coluna

Entrada apresenta uma MRI de 250x250 pixels. Os valores dos parâ-

metros Wz e θp estão descritos nas colunas e linhas, respectivamente.

O número de segmentos gerados é mostrado abaixo de cada simulação. 105

5.28 Exemplos de objetos para o treinamento do módulo de reconhecimento. 106

5.29 Segmentation and recognition value. . . . . . . . . . . . . . . . . . . . . . 106

5.30 Modelo de atenção top-down e bottom-up II. Simulação 1. Modulações

do parâmetro Wj para o enviesamento top-down de características de-

sejadas.

O valor do parâmetro Wj encontra-se na primeira coluna.

Para todas as simulações, foi utilizado Wj = 0.0 para todo j não in-

formado. Figura da base de imagens disponibilizada publicamente por

Itti (200x150 pixels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5.31 Gráficos dos MAS referente à Simulação 1.

. . . . . . . . . . . . . . . . . 109

5.32 Comparação qualitativa de seleção de objetos em cenas reais. (a) Se-

leção visual das localizações salientes a partir do modelo proposto por

Itti et al. (1998) e (b) Resultado do modelo apresentado nesta seção. . . . 109

xix

5.33 Modelo de atenção top-down e bottom-up II. Simulação 2. . . . . . . . . . 110

5.34 Diagrama do modelo de seleção baseada em objetos. . . . . . . . . . . . . 111

5.35 Análise da Saliência de Objetos Imagens do benchmark disponibilizado

publicamente por Bruce and Tsotsos (2009).

. . . . . . . . . . . . . . . . 114

5.36 Mapa de Objeto-Saliente gerado a partir da competição entre objetos.

. 117

5.37 Comportamento do modelo. (a) Imagem de entrada. Mapas de cons-

picuidades: (b) Intensidades, (c) Cores, (d) Orientações, (e) Mapa de

reconhecimento de objetos, (f) Segmentação LEGION, (g) Gráfico dos

potenciais de saliência, (h) e (i) Mapa de objeto-saliente. Os valores de

parâmetros utilizados foram: rede LEGION θp = 1200 e Wz = 20, gerando

um total de 30 segmentos e para a geração do MOS, WY = 1, θr = 0.5,

θs = 0 e Wk = 1 para todos os valores de k. . . . . . . . . . . . . . . . . . . 119

5.38 Influência do enviesamento top-down de características específicas. . . . 120

5.39 Tempo e estabilidade do modelo de acordo com variações de Wk. . . . . . 121

5.40 Classificação real. (a) Classe 0 (b) Classe 3 (c) Classe 3 (d) Classe 5 (e)

Classe 5 (f) Classe 9. Baseado nos experimentos apresentados em (Silva

and Zhao, 2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.41 Modelo baseado em objetos. Simulação 1 - Saliência de objetos reco-

nhecidos. Valores de parâmetros utilizados: rede LEGION θp = 1200 e

Wz = 20, gerando um total de 4 segmentos e para a geração do MOS,

WY = 1.2, θr = 0.5, θs = 0 e W5 = 1. Para os demais valores de k, Wk = 0.

Imagem 255x255 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.42 Modelo baseado em objetos. Simulação 2 - Saliência de objetos meno-

res. Valores de parâmetros utilizados: rede LEGION θp = 1200 e Wz = 20,

gerando um total de 25 segmentos e para a geração do MOS, WY = 1.2,

θr = 0.5, θs = 0 e W6 = 1. Para os demais valores de k, Wk = 0. Imagem

150x150 pixels.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.43 Modelo baseado em objetos. Simulação 3 - Saliência de objetos maiores.

Valores de parâmetros utilizados: rede LEGION θp = 1300 e Wz = 20,

gerando um total de 14 segmentos e para a geração do MOS, WY = 1.3,

θr = 0.5, θs = 0 e W6 = 1. Para os demais valores de k, Wk = 0. Imagem

aérea 160x160 pixels, citada inicialmente em (Wang and Terman, 1997). 125

5.44 Modelo baseado em objetos. Simulação 4 - Variações do parâmetro θs.

Valores de parâmetros utilizados: rede LEGION θp = 600 e Wz = 45,

gerando um total de 21 segmentos e para a geração do MOS, WY = 1.3,

θr = 0.5, θs = 0 e W1 = 1. Para os demais valores de k, Wk = 0. Imagem

120x202 pixels.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

xx

5.45 Modelo baseado em objetos. Simulação 5 - Busca conjuntiva. Valores

de parâmetros utilizados: rede LEGION θp = 1200 e Wz = 20, gerando

um total de 9 segmentos e para a geração do MOS, WY = 1.3, θr = 0.5,

θs = 0. Para (f) e (g) W1..5 = 1 e W6 = 0. Para (h) e (i) Wk = 1 para ∀ k.

Imagem 200x200 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.46 Modelo baseado em objetos. Simulação 6 - Cor e Orientação. Valores

de parâmetros utilizados: rede LEGION θp = 400 e Wz = 10, gerando

um total de 11 segmentos e para a geração do MOS, WY = 1, θr = 0.5,

θs = 0.01. Para (f) e (g) W2 = 1 e W3 = 1. Para (h) e (i) Wk = 1 para ∀ k.

Imagem 200x256 pixels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.47 Modelo baseado em objetos. Simulação 7 - Reconhecimento de Placas

de Sinalização. Valores de parâmetros utilizados: rede LEGION θp = 600

e Wz = 10, gerando um total de 6 segmentos e para a geração do MOS,

WY = 0.8, θr = 0.27, θs = 0. Imagem 211x315 pixels. . . . . . . . . . . . . . 130

5.48 Modelo baseado em objetos. Simulação 8 - Reconhecimento de Placas

de Sinalização. Valores de parâmetros utilizados: rede LEGION θp = 600

e Wz = 10, gerando um total de 10 segmentos e para a geração do MOS,

WY = 0.8, θr = 0.27, θs = 0. Imagem 200x286 pixels. . . . . . . . . . . . . . 131

5.49 Diagrama do modelo de seleção baseada em objetos II.

. . . . . . . . . . 132

5.50 Comportamento do modelo baseado nas Equações 5.34 e 5.38. Valores

de parâmetros utilizados: enviesamento top-down, Wint = 1, Wcol = 1,

Wori = 1, θbias = 0, W1 = 0.3, W2 = 0.4, W3 = 0, W4 = 0, W5 = 0.5 e

W6 = 0.0; rede LEGION, θp = 1200 e Wz = 20, gerando um total de 30

segmentos e, para a geração do MOS, WY = 1.0, θr = 0.5, θs = 0. Imagem

100x100 pixels.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5.51 Modelo Baseado em Objetos II. Simulação 1 - Enviesamento top-down

baseado no mapa de conspicuidades de cores. Valores de parâmetros

utilizados: enviesamento top-down, Wint = 0, Wcor = 1, Wori = 0, θBias =

[0, . . . , 0.5], e rede LEGION, θp = 800 e Wz = 20. Imagem 256x342pixels do

benchmark disponibilizado publicamente por Bruce and Tsotsos (2009). 135

5.52 Modelo Baseado em Objetos II. Simulação 1 - Enviesamento top-down

baseado no mapa de conspicuidades de intensidades. Valores de parâ-

metros utilizados: enviesamento top-down, Wint = 1, Wcor = 0, Wori =

0, θBias = [0, . . . , 0.9], e rede LEGION, θp = 800 e Wz = 20. Imagem

253x338pixels do benchmark disponibilizado publicamente por Judd

et al. (2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

xxi

6.1 Análise qualitativa (1-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.2 Análise qualitativa (2-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

6.3 Análise qualitativa (3-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

6.4 Análise qualitativa (4-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6.5 Análise qualitativa (5-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

xxii

6.6 Análise qualitativa (6-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

6.7 Análise qualitativa (7-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6.8 Análise qualitativa (8-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,

2006), (Achanta et al., 2009) e (Cheng et al., 2011), respectivamente

apresentados da esquerda para a direita. Imagens dos benchmarks

disponibilizados publicamente por Bruce and Tsotsos (2009) (1-36) e

Judd et al. (2012) (37-61). . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6.9 Análise qualitativa (9-13) do MOS proposto em cenas reais, comparado

com o mapa de fixação humana (FM) de Judd et al. (2012) e também

com os mapas de saliência propostos em (Itti et al., 1998), (Harel et al.,