Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da... por Irineu Antunes Júnior - Versão HTML

ATENÇÃO: Esta é apenas uma visualização em HTML e alguns elementos como links e números de página podem estar incorretos.
Faça o download do livro em PDF, ePub, Kindle para obter uma versão completa.

IRINEU ANTUNES J ÚNIOR

REDUC

¸ ˜

AO DE RUÍDO EM SINAIS DE VOZ USANDO CURVAS

ESPECIALIZADAS DE MODIFICAC

¸ ˜

AO DOS COEFICIENTES DA

TRANSFORMADA EM CO-SENO

Tese apresentada à Escola Politécnica

da Universidade de S˜

ao Paulo para

obtenç˜

ao do t´ıtulo de Doutor em

Engenharia Elétrica.

ao Paulo

2006

IRINEU ANTUNES J ÚNIOR

REDUC

¸ ˜

AO DE RUÍDO EM SINAIS DE VOZ USANDO CURVAS

ESPECIALIZADAS DE MODIFICAC

¸ ˜

AO DOS COEFICIENTES DA

TRANSFORMADA EM CO-SENO

Tese apresentada à Escola Politécnica

da Universidade de S˜

ao Paulo para

obtenç˜

ao do t´ıtulo de Doutor em

Engenharia Elétrica.

Área de Concentraç˜

ao:

Engenharia de Sistemas Eletrônicos

Orientador:

Phillip M. S. Burt

ao Paulo

2006

Este exemplar foi revisado e alterado em relaç˜

ao à vers˜

ao

original, sob responsabilidade única do autor e com a

anuência de seu orientador.

ao Paulo, 23 de maio de 2006.

Assinatura do autor

Assinatura do orientador

Antunes Júnior, Irineu

Reduç˜

ao de ru´ıdo em sinais de voz usando curvas

especializadas de modificaç˜

ao dos coeficientes da

transformada em co-seno.

ao Paulo, 2006.

112 p.

Tese (Doutorado) - Escola Politécnica da

Universidade de S˜

ao Paulo. Departamento de

Engenharia de Telecomunicaç˜

oes e Controle.

1. Processamento digital de voz 2. Estimaç˜

ao n˜

ao-

paramétrica. I. Universidade de S˜

ao Paulo.

Escola Politécnica. Departamento de Engenharia de

Telecomunicaç˜

oes e Controle

II. t

Ao Professor Max Gerken

(in memorian)

A G R A D E C I M E N T O S

Ao Professor Max Gerken, pelo incentivo e apoio prestados, anteriormente, du-

rante o mestrado e, recentemente, no primeiro ano deste doutorado.

Ao meu orientador Phillip, pela discuss˜

ao valiosa e revis˜

ao minuciosa do texto,

além do apoio, incentivo e atenç˜

ao prestados durante o curso de doutorado.

Aos Profs. Luiz Cezar Trintinália e Antonio Fischer de Toledo, pela leitura do

texto e sugest˜

oes fornecidas no exame de qualificaç˜

ao.

Ao meu amigo Claudio José Bordin Júnior, pelo companheirismo e aux´ılio durante

todo o doutorado.

Aos meus grandes amigos Elias Ribeiro de Castro, pela constante amizade e su-

gest˜

oes de revis˜

ao gramatical do texto, e Cláudio S. Oliveira, pela companhia e gentil

disponibilidade para realizar voluntariamente os testes de audiç˜

ao deste trabalho.

À Ericsson Telecomunicaç˜

oes, pelo apoio financeiro nos primeiros anos do doutorado,

no âmbito do projeto de pesquisa sobre métodos de aprimoramento de sinais de voz,

desenvolvido junto à Fundaç˜

ao para o Desenvolvimento Tecnológico da Engenharia

(FDTE) e junto ao PTC/EPUSP.

Ao Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnológico (CNPq), pelo

financiamento de parte deste trabalho.

À minha m˜

ae Maria das Graças, ao meu pai Irineu, à minha avó Laura, a toda a

minha fam´ılia, pelo aux´ılio e atenç˜

ao que sempre me deram.

E a outros que contribu´ıram direta ou indiretamente para a realizaç˜

ao deste tra-

balho.

i

Conteúdo

1

Introdu¸

ao

1

1.1

Importˆ

ancia e Campo de Aplicaç˜

ao . . . . . . . . . . . . . . . . . . .

2

1.2

Terminologia Empregada no Texto

. . . . . . . . . . . . . . . . . . .

3

1.3

Organizaç˜

ao do Texto

. . . . . . . . . . . . . . . . . . . . . . . . . .

4

2

etodos de Redu¸

ao de Ru´ıdo

5

2.1

Melhoria de Sinais de Voz . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2

Reduç˜

ao de Ru´ıdo Usando Transformadas

. . . . . . . . . . . . . . .

7

2.3

Filtro de Wiener

. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.4

Subtraç˜

ao Espectral [12] . . . . . . . . . . . . . . . . . . . . . . . . .

14

2.5

Funç˜

oes de Limiar Hard e Soft . . . . . . . . . . . . . . . . . . . . . .

18

2.6

Eliminaç˜

ao de Ru´ıdo no Dom´ınio Wavelet

. . . . . . . . . . . . . . .

20

2.7

Outras Funç˜

oes de Limiar . . . . . . . . . . . . . . . . . . . . . . . .

25

2.8

Determinaç˜

ao do valor do limiar . . . . . . . . . . . . . . . . . . . . .

27

2.9

Seleç˜

ao dos Coeficientes pelo “Or´

aculo” . . . . . . . . . . . . . . . . .

32

2.10 Ru´ıdo Musical e Outras Distorç˜

oes . . . . . . . . . . . . . . . . . . .

33

2.11 Conclus˜

ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

3

Fun¸

oes Especializadas

39

3.1

Descriç˜

ao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . .

40

ii

3.2

Outros M´

etodos de Seleç˜

ao de Coeficientes . . . . . . . . . . . . . . .

41

3.3

Funç˜

oes de Threshold Propostas . . . . . . . . . . . . . . . . . . . . .

42

3.4

Motivaç˜

ao do Threshold com Dois Limiares . . . . . . . . . . . . . . .

44

3.5

Threshold como Estimador de M´ınimo Erro

. . . . . . . . . . . . . .

45

3.6

Obtenç˜

ao Direta dos Limiares ´

Otimos . . . . . . . . . . . . . . . . . .

57

3.7

Obtenç˜

ao dos Limiares usando Modelo para msee(t) . . . . .

61

3.8

Obtenç˜

ao dos Limiares usando a Funç˜

ao GCV . . . . . . . . . . . . .

71

3.9

Obtenç˜

ao dos Limiares usando Modelo Estat´ıstico . . . . .

81

3.10 Conclus˜

ao e Contribuiç˜

oes . . . . . . . . . . . . . . . . . . . . . . . .

89

4

Simula¸

ao Computacional

90

4.1

Consideraç˜

oes Iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

4.2

Threshold Aplicado a Sinais de Voz . . . . . . . . . . . . . . . . . . .

94

4.3

Comparaç˜

ao com Outros M´

etodos . . . . . . . . . . . . . . . . . . . .

99

4.4

Conclus˜

ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5

Considera¸

oes Finais

107

iii

R E S U M O

Muitos métodos de reduç˜

ao de ru´ıdo se baseiam na possibilidade de represen-

tar o sinal original com um reduzido número de coeficientes de uma transformada,

ou melhor, obtém-se um sinal com menos ru´ıdo pelo cancelamento dos coeficientes

abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a

contribuiç˜

ao do ru´ıdo se distribua de maneira uniforme por todos os coeficientes.

Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorç˜

ao

introduzida pela eliminaç˜

ao dos coeficientes de pequena magnitude, juntamente com

a presença de sinais espúrios, como o “ru´ıdo musical” produzido por coeficientes

ruidosos isolados que eventualmente ultrapassam o limiar.

Para as transformadas usualmente empregadas, o histograma da distribuiç˜

ao dos

coeficientes do sinal de voz possui um grande número de coeficientes próximos à

origem. Diante disto, propomos uma nova funç˜

ao de “thresholding” concebida espe-

cialmente para reduç˜

ao de ru´ıdo em sinais de voz adicionados a AWGN (“Additive,

White, and Gaussian Noise”). Esta funç˜

ao, chamada de SoftSoft, depende de dois

valores de limiar: um n´ıvel inferior, ajustado para reduzir a distorç˜

ao da voz, e um

n´ıvel superior, ajustado para eliminar ru´ıdo.

Os valores ótimos de limiar s˜

ao calculados para minimizar uma estimativa do erro

quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indire-

tamente, usando uma funç˜

ao de interpolaç˜

ao para o MSE, levando a um método

prático.

A funç˜

ao SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das

conhecidas operaç˜

oes de “Soft” ou “Hard-thresholding”, as quais disp˜

oem apenas do

limiar superior. Ainda que a melhoria em termos de MSE n˜

ao seja muito expressiva,

a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por

uma medida perceptual de distorç˜

ao (a distância log-espectral).

iv

A B S T R A C T

Many noise-reduction methods are based on the possibility of representing the

clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed

signal. It is necessary to assume that the clean signal has a sparse representation,

while the noise energy is spread over all coefficients.

The main drawback of those methods is the speech distortion introduced by elim-

inating small magnitude coefficients, and the presence of artifacts (“musical noise”)

produced by isolated noisy coefficients randomly crossing the thresholding level.

Based on the observation that the speech coefficient histogram has many important

coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has

two thresholding levels: a lower level adjusted to reduce speech distortion, and a

higher level adjusted to remove noise. The joint optimal values can be determined

by minimizing the resulting mean square error (MSE).

We also verify that this new thresholding function leads to a lower MSE than

the well-known Soft and Hard-thresholding functions, which employ only a higher

thresholding level. Although the improvement in terms of MSE is not expressive, a

perceptual distortion measure (the log-spectral distance, LSD) is employed to prove

the higher performance of the proposed thresholding scheme.

v

Lista de Abreviaturas

AWGN . . . . . . .

Additive, White and Gaussian Noise

dB . . . . . . . . . . .

deciBel

DCT . . . . . . . . .

Discrete Cosine Transform

DFT . . . . . . . . .

Discrete Fourier Transform

DTFT . . . . . . .

Discrete Time Fourier Transform

DWT . . . . . . . .

Discrete Wavelet Transform

FFT . . . . . . . . .

Fast Fourier Transform

FIR . . . . . . . . . .

Finite Impulse Response (filter)

FWT . . . . . . . .

Fast Wavelet Transform

GCV . . . . . . . . .

Generalized Cross Validation

i.i.d. . . . . . . . . .

independentes e identicamente distribu´ıdos

IIR . . . . . . . . . .

Infinite Impulse Response (filter)

LCT . . . . . . . . .

Local Cosine Transform

LSD . . . . . . . . .

Log-Spectral Distance

MMSEWC . . .

Minimum Mean-Square Error Wavelet Coefficient Estimator

MOS . . . . . . . . .

Mean Opinion Score

MSCE . . . . . . .

Mean-Square Complementary Error

MSEE . . . . . . .

Mean-Square Estimation Error

PDF . . . . . . . . .

Probability Density Function

PMF . . . . . . . . .

Probability Mass Function

SegSNR . . . . . .

Segmented Signal-to-noise Ratio

SNR . . . . . . . . .

Signal-to-noise Ratio

SURE . . . . . . . .

Stein’s Unbiased Risk Estimate

VAD . . . . . . . . .

Voice Activity Detector

vi

Lista de S´ımbolos

S´ımbolos introduzidos a partir do Cap´ıtulo 2

y, y [n] . . . . . . . . . . . . . . .

sinal de voz afetado por ru´ıdo, sinal ruidoso

n . . . . . . . . . . . . . . . . . . . .

´ındice de tempo discreto n = 0, . . . , N − 1

N . . . . . . . . . . . . . . . . . . . .

número total de amostras ou coeficientes

s, s [n] . . . . . . . . . . . . . . .

sinal de voz original

w, w [n] . . . . . . . . . . . . . .

ru´ıdo aditivo i.i.d. com distribuiç˜

ao N (µ = 0, σ2)

ˆ

s [n] . . . . . . . . . . . . . . . . . .

sinal de voz estimado por método de reduç˜

ao de ru´ıdo

L . . . . . . . . . . . . . . . . . . . .

número total de amostras (ou coeficientes) de um bloco

Y [k] . . . . . . . . . . . . . . . . .

coeficiente do sinal ruidoso

CH . . . . . . . . . . . . . . . . . .

matriz da transformada em bloco

M . . . . . . . . . . . . . . . . . . .

número total de blocos

ym [n]; sm [n]; wm [n]

m-ésimo bloco do sinal y [n]; s [n]; w [n]

m . . . . . . . . . . . . . . . . . . . .

´ındice dos blocos, m = 0, . . ., M − 1

L . . . . . . . . . . . . . . . . . . . .

parâmetro de sobreposiç˜

ao dos blocos

Ym; Sm; Wm . . . . . . . . .

coeficientes do m-ésimo bloco ym; sm; wm

ˆ

Sm [k] . . . . . . . . . . . . . . . .

m-ésimo bloco de coeficientes estimados

k . . . . . . . . . . . . . . . . . . . .

´ındice dos coeficientes de uma transformada

G [k] . . . . . . . . . . . . . . . . .

funç˜

ao ganho nos métodos de subtraç˜

ao espectral

ˆ

sm . . . . . . . . . . . . . . . . . . .

m-ésimo bloco de sinal estimado

G (f ) . . . . . . . . . . . . . . . .

resposta em freqüência de um filtro (Wiener, FIR etc.)

E (f ) . . . . . . . . . . . . . . . . .

erro de estimaç˜

ao no dom´ınio das freqüências

E [·] . . . . . . . . . . . . . . . . . .

operador de esperança matemática

e [n] . . . . . . . . . . . . . . . . . .

erro de estimaç˜

ao (em tempo discreto)

f . . . . . . . . . . . . . . . . . . . .

freqüência normalizada da transformada de Fourier

de tempo discreto

PY (f ); PS (f ); PW (f )

espectro de potência do sinal ruidoso; original; ru´ıdo

PSY (f ) . . . . . . . . . . . . . .

espectro de potência cruzado entre o sinal original e o

sinal ruidoso

SN R (f ) . . . . . . . . . . . . .

relaç˜

ao sinal-ru´ıdo na freqüência f

g [n]. . . . . . . . . . . . . . . . . .

resposta impulsiva de um filtro (Wiener, FIR etc.)

vii

|W (f )|γ; |Y (f )|γ . . .

média no tempo de |W (f )|γ; |Y (f )|γ

l . . . . . . . . . . . . . . . . . . . .

´ındice genérico (inteiro), ´ındice de somatório

K . . . . . . . . . . . . . . . . . .

no. de blocos no intervalo de tempo sem ativide de voz

γ . . . . . . . . . . . . . . . . . . .

expoente dos métodos de subtraç˜

ao espectral (γ = 1, 2)

ˆ

PS; ˆ

PY ; ˆ

PW . . . . . . . . .

estimativa do espectro de potência do sinal original;

sinal ruidoso; ru´ıdo

|Sm (f )|γ . . . . . . . . . . .

estimativa de |Sm (f )|γ

ρ . . . . . . . . . . . . . . . . . . .

parâmetro da subtraç˜

ao espectral (0 < ρ ≤ 1)

ρ(H) (X) . . . . . . . . . . . .

funç˜

ao de limiar Hard

t

t . . . . . . . . . . . . . . . . . . .

valor do limiar

X; X . . . . . . . . . . . . . . .

valor de coeficiente; vetor de coeficientes (genérico)

ρ(S) (X) . . . . . . . . . . . .

funç˜

ao de limiar Soft

t

O (·) . . . . . . . . . . . . . . . .

funç˜

ao ordem de magnitude (“Big Oh”)

x . . . . . . . . . . . . . . . . . . .

bloco, vetor de amostras (genérico)

XA; XD . . . . . . . . . . . .

vetor de coeficientes (wavelet) de aproximaç˜

ao; detalhe

d

d

XA . . . . . . . . . . . . . . . .

coeficiente de aproximaç˜

ao na escala j e deslocamento k

j,k

XD . . . . . . . . . . . . . . . .

coeficiente de detalhe na escala j e deslocamento k

j,k

d . . . . . . . . . . . . . . . . . . .

último n´ıvel de decomposiç˜

ao wavelet

j; k . . . . . . . . . . . . . . . . .

´ındice de escala; deslocamento (wavelet)

J . . . . . . . . . . . . . . . . . . .

expoente de L = 2J (caso L seja diádico)

i. . . . . . . . . . . . . . . . . . . .

representa o par de ´ındices (j,k)

ρ(F ) (X); ρ(G) (X) . . .

funç˜

ao Firm shrinkage; funç˜

ao n˜

ao negativa de Garrote

t1t2

t

t1; t2 . . . . . . . . . . . . . . .

limiar inferior; superior

ρ(C)

(X); ρ(SG) (X)

funç˜

ao Custom; funç˜

ao de Step-Garrote

α,t1,t2

t

α . . . . . . . . . . . . . . . . . . .

parâmetro de formato da funç˜

ao Custom

σ . . . . . . . . . . . . . . . . . . .

desvio padr˜

ao do ru´ıdo

Pr {·}. . . . . . . . . . . . . . .

probabilidade do evento {·}

cmax (L) . . . . . . . . . . . .

máxima magnitude de um conjunto de L coeficientes

(do sinal, ruidosos ou do ru´ıdo)

N (0,σ) . . . . . . . . . . . . .

distribuiç˜

ao normal de média nula e desvio-padr˜

ao σ

viii

Θ (|Yi| ,t). . . . . . . . . . .

contribuiç˜

ao de |Yi| para o MSEE com limiar t (fixo)

Xi; Yi; Si; Wi . . . . . .

coeficiente wavelet com ´ındice i de X; Y ; S; W

ˆ

R (Y , t) . . . . . . . . . . . .

estimativa do risco total (MSEE) de Y com limiar t (fixo)

{ak}L . . . . . . . . . . . .

vetor contendo |Y

k=1

i| em ordem crescente

˜

t; ˜

tj . . . . . . . . . . . . . . . .

valor de limiar SURE; idem, para coeficientes da escala j

L . . . . . . . . . . . . . . . . .

parâmetro do HybridShrink

Λ . . . . . . . . . . . . . . . . . .

matriz diagonal

δi . . . . . . . . . . . . . . . . . .

i-ésimo elemento da diagonal principal de Λ

Ic . . . . . . . . . . . . . . . . . .

funç˜

ao identidade, igual a 1 se a condiç˜

ao c for verdadeira

Y . . . . . . . . . . . . . . . . . .

matriz com coeficientes dos blocos dispostos nas colunas

S´ımbolos introduzidos a partir do Cap´ıtulo 3

Y ; S; W . . . . . . . . . .

vetor de coeficientes {Ym}M−1; {S

; {W

;

m=0

m}M −1

m=0

m}M −1

m=0

ρ (X), ρt (X) . . . . . . .

funç˜

ao de limiar genérica, X é um valor de coeficiente

p [n] . . . . . . . . . . . . . . .

sinal formado por trechos polinomiais

ρ(HH) (X); ρ(SS) (X)

funç˜

ao de limiar HardHar; SoftSoft

t1,t2

t1,t2

r(H) (X); r(S) (X) . .

funç˜

ao Hard complementar; Soft complementar

t

t

ˆ

S . . . . . . . . . . . . . . . . . .

vetor de coeficientes estimados, formado pelos ˆ

Sm

yt . . . . . . . . . . . . . . . . . .

sinal reconstru´ıdo a partir de Yt

Yt . . . . . . . . . . . . . . . . . .

vetor de coeficientes calculados com limiar t

msee (t) . . . . . . . . . . .

MSEE, E ||Et||2; curva do MSEE em funç˜

ao do limiar t

Et . . . . . . . . . . . . . . . . . .

coef. de erro de estimaç˜

ao, para limiar t

||x||2 . . . . . . . . . . . . . . .

quadrado da norma 2

2

x,x 2 . . . . . . . . . . . . . .

produto interno associado à norma 2

x; ˆ

x . . . . . . . . . . . . . . . .

vetor de amostras (genérico); estimativa de x

fW (u) . . . . . . . . . . . . .

funç˜

ao densidade de probabilidade do ru´ıdo

u . . . . . . . . . . . . . . . . . .

variável unidimensional (de uso genérico)

bias2 (t) . . . . . . . . . . . .

quadrado do viés em funç˜

ao do limiar t

var (t) . . . . . . . . . . . . .

variância em funç˜

ao do limiar t

msee; mseel . . . . . . .

estimativa do MSEE; idem, para l-ésima realizaç˜

ao

msee . . . . . . . . . . . . . .

média dos mseel

ix

Nrun . . . . . . . . . . . . . . . . . . .

número de execuç˜

oes de um programa

EYt . . . . . . . . . . . . . . . . . . . .

média de Yt para diferentes realizaç˜

oes do ru´ıdo

bias2 (t); var (t) . . . . . . . .

estimativa (média das realizaç˜

oes) de bias2 (t); var (t)

SN R . . . . . . . . . . . . . . . . . .

relaç˜

ao sinal-ru´ıdo global

cmax, max |coef .| . . . . . . .

máxima magnitude de um conjunto de coeficientes

et . . . . . . . . . . . . . . . . . . . . . .

erro da estimaç˜

ao usando limiar t

y ; Y ; e . . . . . . . . . . . . . . .

complemento de y

t

t

t

t; Yt; et (erro complementar)

yt

. . . . . . . . . . . . . . . . . . .

estimativa obtida com limiares t

1,t2

1 e t2

et

. . . . . . . . . . . . . . . . . . .

erro da estimaç˜

ao usando limiares t

1,t2

1 e t2

t∗, t∗ . . . . . . . . . . . . . . . . . . .

limiares t

1

2

1 e t2 (ótimos) que minimizam o MSEE

A; B; C . . . . . . . . . . . . . . .

termos do MSEE

t(0); t(0) . . . . . . . . . . . . . . . .

valor inicial de t

1

2

1; t2

t(1); t(1) . . . . . . . . . . . . . . . .

após 1 iteraç˜

ao, valor de t

1

2

1; t2

f (x); fA (x), fB (x) . . . .

modelo para msee (t); parcelas de f (x)

¯

y0; ¯

y2; α; β . . . . . . . . . . . .

parâmetro de f (x), ganho ¯

y0; ¯

y2; cte. de tempo α; β

(x0, y0); (x2, y2) . . . . . . .

ponto de referência de msee (t), inicial; final

(x1, y1) . . . . . . . . . . . . . . . .

ponto de m´ınimo MSEE na curva msee (t)

(x3, y3); (x4, y4) . . . . . . .

ponto de referência de msee (t), auxiliar; auxiliar

βmin, αmin; βmax, αmax . .

β e α m´ınimos; máximos

φ (·), φb (·), φc (·) . . . . . . .

funç˜

oes de ponto fixo

β0, α0; α1, α2 . . . . . . . . . .

valores iniciais de β e α; valores particulares de α

msee (t1,t2) . . . . . . . . . . . .

estimativa do MSEE obtido com limiares t1 e t2

Â; ˆ

B; ˆ

C . . . . . . . . . . . . . . .

estimativa de A; B; C

¯

t1; ¯

t2 . . . . . . . . . . . . . . . . . . .

valor normalizado de limiar inferior; superior

F (t) . . . . . . . . . . . . . . . . . . .

funç˜

ao que mede o efeito do limiar t

gcv (t) . . . . . . . . . . . . . . . . .

funç˜

ao GCV

N0 (t); N1 (t) . . . . . . . . . . .

número de coeficientes anulados; mantidos

t∗ . . . . . . . . . . . . . . . . . . . . . .

valor (ótimo) de limiar que minimiza msee (t)

(xC,yC) . . . . . . . . . . . . . . . .

ponto de m´ınimo na curva do termo C

ˆ

σ2; (ˆ

x0, ˆ

y0) . . . . . . . . . . . .

estimativa de σ2; (x0, y0)

x

x2, ˆ

y2); (ˆ

x3, ˆ

y3) . . .

estimativa de (x2, y2); (x3, y3)

x1, ˆ

y1); (ˆ

x4, ˆ

y4) . . .

estimativa de (x1, y1); (x4, y4)

t(gcv); ¯

t(gcv) . . . . . . . .

valor de limiar que minimiza gcv (t); t(gcv) normalizado

ξ . . . . . . . . . . . . . . . . . .

parâmetro usado para estimar y1 a partir de ˆ

y3

gcv (x) . . . . . . . . . . . .

funç˜

ao GCV com abscissas normalizadas

ˆ

t∗, ˆ

t∗ . . . . . . . . . . . . . .

estimativa prática de t∗, t∗

1

2

1

2

κ, K . . . . . . . . . . . . . . .

constantes (genéricas)

fw[n] (u); fW [k] (u) . .

densidade de probabilidade de w [n]; W [k] (n, k fixos)

W; X . . . . . . . . . . . . .

variável aleatória correspondente a um dado W [k]; X [k]

pX (ul) . . . . . . . . . . . .

funç˜

ao massa de probabilidade de X no ponto ul

ul . . . . . . . . . . . . . . . . .

abscissa central do l-ésimo segmento num histograma

∆u . . . . . . . . . . . . . . . .

largura dos segmentos num histograma

hl . . . . . . . . . . . . . . . . .

l-ésimo valor de um histograma

S´ımbolos introduzidos a partir do Cap´ıtulo 4

SegSN R . . . . . . . . . .

relaç˜

ao sinal-ru´ıdo segmentada

SN Rm . . . . . . . . . . . .

relaç˜

ao sinal-ru´ıdo no m-ésimo bloco

LSD . . . . . . . . . . . . . .

distância log-espectral

Dm . . . . . . . . . . . . . . . .

distância (log-espectral) no m-ésimo bloco

ť1 . . . . . . . . . . . . . . . . .

valor normalizado de limiar inferior, ť1

t1/t2

M SEE . . . . . . . . . . .

valor de MSEE (obtido na sa´ıda de um método de

reduç˜

ao de ru´ıdo)

xi

Cap´ıtulo 1

Introduç˜

ao

Os métodos de melhoria de sinais de voz (speech enhancement ) s˜

ao de grande

interesse em sistemas de comunicaç˜

ao, especialmente nos terminais viva-voz e nos

aparelhos de teleconferência. O objetivo destes métodos é prover uma reduç˜

ao do

ru´ıdo de fundo que é somado à voz do usuário. Em ambientes ruidosos, isto pode

representar um aumento substancial no desempenho do sistema, desde que o sinal de

voz n˜

ao seja excessivamente desvirtuado pelo processo de reduç˜

ao de ru´ıdo, garantindo

a sua inteligibilidade.

Deve-se atentar que, num âmbito mais geral, a melhoria da qualidade do sinal de

voz pode ter vários outros objetivos, como cancelar interferências ou reverberaç˜

oes,

aperfeiçoar a inteligibilidade, reduzir a fadiga do ouvinte, aprimorar aspectos da

apreens˜

ao da fala por um ouvinte ou, até mesmo, melhorar o sinal de maneira que

este possa ser mais bem utilizado por outros algoritmos voltados ao processamento

de voz. Mais especificamente, este trabalho pretende obter um algoritmo que alcance

uma reduç˜

ao do ru´ıdo em relaç˜

ao àquele inicialmente presente, isto sem que ocorra

uma distorç˜

ao apreciável do sinal de voz.

O problema de reduç˜

ao de ru´ıdo está relacionado com o problema mais geral de

representaç˜

ao de sinais, que consiste na decomposiç˜

ao de um sinal em que se emprega

um conjunto de sinais básicos para representá-lo [1, Cap. 10]. Após algum tipo de processamento, estes sinais básicos podem ser combinados a fim de formar uma vers˜

ao

aproximada do sinal original [2, Sec. 2. 8][3, Cap. 7].

1

Em geral, a motivaç˜

ao para se empregar representaç˜

oes usando transformadas

advém da possibilidade de representar sinais de interesse com um reduzido número

de coeficientes n˜

ao-nulos e de, ao mesmo tempo, distribuir de maneira uniforme os

coeficientes da representaç˜

ao do ru´ıdo. O cancelamento de coeficientes abaixo de

certo n´ıvel irá, dessa forma, resultar em uma melhoria do sinal, obtendo-se uma maior

relaç˜

ao sinal-ru´ıdo do que se obteria empregando a representaç˜

ao espectral usual [2,

Sec. 2.7]. Tal fato incentiva a busca de uma transformada e de uma operaç˜

ao a fim

de produzirem o resultado desejado.

1.1

Importância e Campo de Aplicaç˜

ao

O método de reduç˜

ao de ru´ıdo desenvolvido neste trabalho n˜

ao pretende elimi-

nar o ru´ıdo por completo, mas apenas alcançar uma reduç˜

ao de ru´ıdo através da

minimizaç˜

ao de uma medida de erro usual: o erro quadrático médio (MSEE, Mean-

Square Estimation Error ). Mais adiante, nos Cap´ıtulos 3 e 4, mostramos que o erro quadrático médio obtido é menor do que o alcançado pelos métodos de limiar

(threshold ) convencionais [4].

Observe-se que existem outros métodos de eliminaç˜

ao de ru´ıdo ou de restauraç˜

ao

de arquivos de voz que lançam m˜

ao de procedimentos mais elaborados para alcançar

um melhor desempenho, às custas de um elevado custo computacional (cf., por exem-

plo, [5] e [6]). Neste trabalho, consideramos métodos clássicos e, em particular, par-timos do threshold convencional e chegamos num método para reduç˜

ao de ru´ıdo em

sinais de voz que pode ser considerado em aplicaç˜

oes que n˜

ao necessitem elevada

reduç˜

ao do ru´ıdo, mas que exijam baixo custo computacional. Convém ressaltar que,

graças à simplicidade de implementaç˜

ao, métodos baseados em threshold podem ser

utilizados em implementaç˜

oes de hardware para processamento de sinais em tempo

real.

Além do mais, o método de reduç˜

ao de ru´ıdo obtido, neste trabalho, pode ser

inclu´ıdo como etapa anterior de um método mais elaborado de eliminaç˜

ao de ru´ıdo

ou de outro processamento, como a compress˜

ao ou o reconhecimento de voz.

Finalmente, deve-se lembrar que, a despeito da simplicidade de implementaç˜

ao

2

e baixa complexidade computacional, o método aqui desenvolvido possui desem-

penho superior aos métodos clássicos, que ser˜

ao apresentados no próximo cap´ıtulo,

equiparando-se a métodos mais elaborados, como os métodos que empregam es-

timaç˜

ao Bayesiana [5],

conforme veremos nos resultados experimentais do

Cap´ıtulo 4.

1.2

Terminologia Empregada no Texto

Ao longo deste trabalho, empregam-se vários termos para se referir aos sinais

e métodos utilizados. Mais especificamente, uma primeira descriç˜

ao do problema

considera o método de reduç˜

ao de ru´ıdo como sendo um algoritmo. Neste caso, o sinal

ruidoso é chamado de “sinal de entrada” e o algoritmo fornece um “sinal de sa´ıda”

correspondente [3, Cap. 7]. Outra interpretaç˜

ao considera o método como sendo

um estimador matemático que toma o sinal ruidoso e produz um “sinal estimado”

ou “aproximaç˜

ao” do sinal de voz “original” [1, Cap. 10]. Uma última forma de descriç˜

ao do problema considera o sinal de voz como uma funç˜

ao matemática a ser

aproximada pela “suavizaç˜

ao” ou “filtragem” do sinal ruidoso, originando os termos

sinal “filtrado” ou “suavizado” [7, pág. 162]. Deve-se dizer que muitas outras descri-

ç˜

oes matemáticas do problema s˜

ao poss´ıveis. Por exemplo, os métodos baseados em

subespaço de sinais [8] consideram os sinais como “vetores” e têm uma nomenclatura à parte.

O sinal ruidoso é modelado pela soma da voz (desconhecida) com o ru´ıdo, por

isso, muitas vezes, este também é chamado de “sinal corrompido”.

O sinal sa´ıda, algumas vezes, é nomeado como “sinal recuperado” ou “reconstru´ı-

do”. Já nos métodos que empregam funç˜

oes de limiar (thresholding functions), este

ainda pode ser designado, em inglês, como thresholded signal.

Por fim, nas medidas de desempenho ou de erro, o sinal de voz original é conside-

rado como o “objetivo” ou “sinal-alvo” (target signal ).

3

1.3

Organizaç˜

ao do Texto

No Cap´ıtulo 2, é oferecida uma revis˜

ao bibliográfica dos métodos mais comuns de

reduç˜

ao de ru´ıdo em sinal de voz. Mais particularmente, consideramos os métodos

clássicos restritos ao caso de sinal de voz corrompido por ru´ıdo aditivo Gaussiano e

branco (AWGN, Additive White Gaussian Noise) e que utilizam um único microfone.

Apresentam-se, no Cap´ıtulo 3, as bases teóricas de um novo método de reduç˜

ao de

ru´ıdo que utiliza novas funç˜

oes de limiar (thresholding functions), projetadas especial-

mente para o melhoramento do sinal de voz. Conforme será verificado, empregando

as novas funç˜

oes, n˜

ao só é poss´ıvel alcançar um erro quadrático médio inferior àquele

provido pelas funç˜

oes de threshold usuais, como também, o sinal estimado apresenta

menor distorç˜

ao e menos espúrios (sinais indesejáveis relacionados ao ru´ıdo e inexis-

tentes no sinal original).

O Cap´ıtulo 4 tem como finalidade verificar por meio de simulaç˜

oes computacionais

a utilizaç˜

ao do método aqui obtido. Oferece-se, neste cap´ıtulo, uma comparaç˜

ao de

desempenho do método proposto com outros métodos de reduç˜

ao de ru´ıdo existentes

na literatura.

Por fim, o Cap´ıtulo 5 apresenta as consideraç˜

oes finais e indica alguns tópicos para

investigaç˜

ao futura.

4

Cap´ıtulo 2

Métodos de Reduç˜

ao de Ru´ıdo

Descrevemos, neste cap´ıtulo, alguns métodos de reduç˜

ao de ru´ıdo usualmente em-

pregados no melhoramento de sinal de voz corrompido por AWGN. O objetivo é

relacionar os métodos convencionais inicialmente aplicados na melhoria de sinal de

voz, oferecendo um quadro completo, embora n˜

ao exaustivo dos métodos existentes

na literatura.

Começamos o cap´ıtulo pelos métodos de subtraç˜

ao espectral, estudados de maneira

pioneira por Lim e Oppenheim [9] e chegamos nos métodos de threshold, concebidos inicialmente para transformadas Wavelets e utilizados posteriormente com outras

transformadas.

Ao final do cap´ıtulo, apresentamos uma breve discuss˜

ao sobre o problema do ru´ıdo

musical (sons espúrios de curta duraç˜

ao e aspecto tonal) usualmente encontrado nos

métodos clássicos deste cap´ıtulo. Deve-se dizer que as novas funç˜

oes de threshold,

que s˜

ao o objeto desta tese, foram desenvolvidas a partir de algumas modificaç˜

oes

nas regras de threshold convencionais, sendo o objetivo destas modificaç˜

oes diminuir

a distorç˜

ao e reduzir a ocorrência de espúrios.

2.1

Melhoria de Sinais de Voz

Em muitas situaç˜

oes, por exemplo, em um sistema de comunicaç˜

ao móvel, observa-

se o sinal de voz juntamente com um ru´ıdo aleatório proveniente, basicamente, do

5

index-21_1.png

canal de comunicaç˜

ao e do ambiente do locutor. Como tratamos o sinal no lado do

receptor, normalmente, n˜

ao temos acesso ao ru´ıdo, mas apenas ao sinal ruidoso que

assumimos descrito pelo modelo aditivo

y [n] = s [n] + w [n] ,

(2.1)

em que s [n] é o sinal de voz, w [n] é o ru´ıdo e n representa o ´ındice de tempo discreto.

A melhoria de sinais de voz, aqui considerado, consiste em recuperar a voz original

a partir do sinal corrompido por AWGN. A Figura 2.1 representa a situaç˜

ao ideal,

na qual se recupera o sinal original de maneira exata. Como, em geral, a seqüência

do ru´ıdo w [n] é desconhecida, na prática, a recuperaç˜

ao exata n˜

ao é poss´ıvel.

Figura 2.1: O problema de recuperaç˜

ao do sinal de voz, s [n], adicionado a ru´ıdo,

w [n].

Embora o ru´ıdo n˜

ao possa ser cancelado de maneira exata, pode-se determinar

uma vers˜

ao aproximada ˆ

s [n] que mantém a maior parte das caracter´ısticas do sinal

de voz original. As caracter´ısticas a serem preservadas e a medida de qualidade da

aproximaç˜

ao dependem da aplicaç˜

ao considerada. Mesmo para o processamento de

voz, o objetivo do processamento pode variar bastante: considere, como exemplos,

as situaç˜

oes completamente diversas encontradas quando desejamos recuperar a voz

em um telefone móvel ou quando queremos obter um sinal de voz melhorado em um

aparelho para deficientes auditivos.

Descrevemos, a seguir, a classe de métodos utilizada para obter uma reduç˜

ao de

ru´ıdo em relaç˜

ao ao sinal de entrada.

6

2.2

Reduç˜

ao de Ru´ıdo Usando Transformadas

Consideramos a reduç˜

ao de ru´ıdo conseguida pela modificaç˜

ao dos coeficientes do

sinal ruidoso. Tratamos, portanto, de métodos baseados em transformadas ou em

outras representaç˜

oes de sinais as quais, dado um bloco de L amostras, produzam

um bloco de coeficientes.

O desenvolvimento desses métodos de reduç˜

ao de ru´ıdo segue três etapas: 1o)

Inicialmente, escolhe-se uma transformada. 2o) Define-se a forma de modificaç˜

ao

dos coeficientes (pode ser uma funç˜

ao de ganho, uma funç˜

ao de mapeamento n˜

ao

linear, um algoritmo computacional ou outra forma). A forma definida, em geral,

depende de parâmetros ajustáveis (coeficientes de ganho, valores de limiar ou outras

grandezas definidas pelo método). 3o) Finalmente, deve-se dispor de um estimador

para os valores dos parâmetros. Este estimador deve depender exclusivamente de

informaç˜

oes dispon´ıveis, neste caso, apenas o sinal ruidoso. Normalmente, os valores

estimados dos parâmetros s˜

ao escolhidos de maneira a minimizar uma funç˜

ao (erro

de estimaç˜

ao, funç˜

ao custo, funç˜

ao perda etc.), sendo comumente utilizado o erro

de estimaç˜

ao correspondente à distância média quadrática entre a sa´ıda e o sinal

desejado (ou MSEE).

De maneira geral, os coeficientes podem ser obtidos por meio de transformadas

convencionais, como a DFT (Discrete Fourier Transform), a DCT (Discrete Co-

sine Transform) ou outra transformada em bloco (block transform, [10]). Também se pode utilizar a LCT (Local Cosine Transform, [10]) ou outra transformada com sobreposiç˜

ao (lapped transform, [10]). Alternativamente, embora n˜

ao tenha sido ori-

ginalmente concebida para o processamento de sinais de voz, também pode ser empre-

gada a FWT (Fast Wavelet Transform, [11]). Opcionalmente, ainda, podem ser consideradas outras representaç˜

oes que se baseiam nas Wavelets, como a representaç˜

ao

por meio de pacotes Wavelet (Wavelet Packets, [11]). Matematicamente, podem-se descrever todas as transformadas, anteriormente citadas, como uma matriz que multiplica um vetor coluna (bloco) de amostras [10]. Por exemplo, pode-se calcular o primeiro bloco de coeficientes ruidosos pela multiplicaç˜

ao

T

T

Y [0] Y [1] · · ·

Y [L − 1]

= CH

y [0] y [1] · · ·

y [L − 1]

,

(2.2)

7

em que CH é a matriz da transformada, “H” representa o operador de transposiç˜

ao

T

conjugada e

y [0] y [1] · · ·

y [L − 1]

é o bloco com as L amostras iniciais do

sinal ruidoso.

Deve-se observar que quando se emprega uma transformada em bloco quadrada,

como a DFT ou a DCT, têm-se L coeficientes. Já no caso de uma transformada em

bloco retangular, como a LCT, obtêm-se um número menor de coeficientes. A trans-

formada DWT também fornece L coeficientes, contudo, estes coeficientes representam

o sinal nas diferentes escalas e deslocamentos, e n˜

ao no dom´ınio das freqüências.

Na maioria dos casos, os métodos aqui descritos podem ser empregados para pro-

cessamento de sinal de voz em tempo real. Contudo, nas simulaç˜

oes computacionais

utilizamos a gravaç˜

ao de um trecho de voz com N amostras, correspondente a uma

locuç˜

ao com 1 a 3 s de duraç˜

ao. Dependendo da conveniência, escrevemos este trecho

ora como em (2.1), ora em notaç˜

ao matricial

y = s + w,

(2.3)

em que y = {y [n]}N−1, s = {s [n]}N−1 e w = {w [n]}N−1 s˜

ao vetores coluna contendo

n=0

n=0

n=0

as amostras dos sinais.

Os métodos aqui considerados sup˜

oem que os processos do ru´ıdo e do sinal s˜

ao

estacionários. Sinais de voz podem ser considerados praticamente estacionários du-

rante blocos com um número pequeno de amostras [12]. Mais especificamente, pode-se considerar segmentos de voz com duraç˜

ao de cerca de 20 ms como sendo aproximada-

mente estacionários, pois esta é a ordem de grandeza de tempo associada à alteraç˜

ao

do trato vocal durante a fala [7]. Por conseguinte, dividimos o sinal de entrada y em M blocos de comprimento L,

ym [n] = sm [n] + wm [n] , 0 ≤ n ≤ L − 1.

(2.4)

Em notaç˜

ao matricial, definimos o vetor de amostras para o bloco do instante de

tempo m

T

ym = y [mL ] y [mL + 1] y [mL + 2] . . . y [mL + L − 1]

,

(2.5)

com ´ındices m = 0, . . ., M − 1 e parâmetro de sobreposiç˜

ao L . Este parâmetro

8

index-24_1.png

indica que um novo bloco é formado a cada L amostras, de maneira que os blocos se

soprep˜

oem de L − L amostras.

A Figura 2.2 oferece um detalhamento do procedimento empregado, que pode ser dividido nas etapas (cf. [7, Cap. 6]):

1) A análise produz o espectro de entrada

Ym = CHym.

(2.6)

2) A filtragem no dom´ınio transformado fornece o espectro de sa´ıda

ˆ

Sm [k] = G [k] Ym [k] ,

(2.7)

sendo G [k] um ganho apropriado que é aplicado a cada coeficiente k = 0, 1, . . . ,

L − 1.

3) Finalmente, a s´ıntese produz o bloco de sa´ıda

ˆ

sm = C ˆ

Sm

(2.8)

o qual deve ser combinado de maneira conveniente com os demais blocos para formar

o trecho completo de sa´ıda (estimativa do sinal original).

Figura 2.2: Etapas de um método de reduç˜

ao de ru´ıdo baseado em transformada.

([7, Fig. 6.2])

O procedimento anterior permite interpretar a modificaç˜

ao dos coeficientes feita

pelo ganho G [k] como uma filtragem por sub-bandas, uma vez que cada coeficiente

Ym [k] pode ser considerado como o k-ésimo canal de um banco filtros, sendo m o

´ındice de tempo nas sub-bandas.

O sinal de voz recomposto na sa´ıda pode apresentar descontinuidades na interface

dos blocos, produzindo espúrios (“cliques”) aud´ıveis. Uma maneira de contornar

9

index-25_1.png

este problema é considerar uma sobreposiç˜

ao parcial dos blocos e multiplicar cada

bloco por uma janela de ponderaç˜

ao, como as janelas usualmente empregadas na

análise espectral de sinais. No processamento de voz, é comum utilizar sobreposiç˜

oes

(L − L ) /L de 25% a 50%, conforme ilustrado na Figura 2.3.

Figura 2.3: Esquema de processamento em blocos empregando uma janela suave.

Neste trabalho, consideramos L = 0 e n˜

ao empregamos a operaç˜

ao de janela-

mento pois o método que será proposto no próximo cap´ıtulo emprega um grande

número de coeficientes n˜

ao nulos a cada bloco, desta forma, mesmo que ocorram

descontinuidades entre os blocos, provavelmente, estas ser˜

ao de pequena amplitude,

produzindo “cliques” inaud´ıveis (mascarados pelo sinal de voz ou pelo ru´ıdo de fundo

remanescente na sa´ıda).

Apresentamos, a seguir, os métodos clássicos de reduç˜

ao de ru´ıdo que foram ini-

cialmente empregados para sinais de voz. Deve-se observar que existe semelhança

entre esses métodos e os métodos de threshold, uma vez que o ganho G [k] desses

métodos pode ser interpretado como sendo uma funç˜

ao de threshold.

2.3

Filtro de Wiener

Norbert Wiener [12] estudou o problema da estimaç˜

ao de sinais aleatórios e for-

mulou uma soluç˜

ao que minimiza a distância média quadrática entre o sinal estimado

e o sinal desejado. Seu estudo contemplou sinais de tempo cont´ınuo, contudo, sua

10

teoria pode ser aplicada a sinais de tempo discreto obtendo-se um filtro de estimaç˜

ao

IIR (Infinite Impulse Response) ou FIR (Finite Impulse Response). Tendo em vista

a maior facilidade de implementaç˜

ao deste último, consideramos a realizaç˜

ao de um

filtro de Wiener FIR com resposta em freqüência G (f ), conforme discutido em [12].

A sa´ıda do filtro é dada por

ˆ

Sm (f ) = G (f ) Ym (f ) ,

(2.9)

sendo Ym (f ) a transformada de Fourier (de tempo discreto) de um bloco do sinal

ruidoso.

A diferença entre o sinal desejado e a sa´ıda do filtro fornece o erro de estimaç˜

ao,

que no dom´ınio das freqüências é E (f ) = Sm (f ) − ˆ

Sm (f ). Deseja-se um filtro G (f )

que minimize o erro quadrático médio

E |E (f )|2

= E {(Sm (f ) − G (f ) Ym (f )) · (Sm (f ) − G (f ) Ym (f ))∗}

(2.10)

onde E {·} é o operador de esperança e o s´ımbolo “∗” denota o conjugado.

O Teorema de Parseval garante que o valor médio quadrático do erro nos dom´ınios

do tempo e da freqüência s˜

ao iguais,

N −1

1/2

e2 [n] =

|E (f )|2 df ,

(2.11)

n=0

−1/2

sendo e [n] = s [n] − ˆ

s [n] a seqüência do erro e E (f ) a sua transformada de Fourier

(de tempo discreto) com freqüência normalizada f = 1/2 equivalente à metade da

taxa de amostragem. A fim de obter o filtro que minimiza (2.11), tomamos a derivada complexa de (2.10) e fazemos

∂E |E (f )|2

= 2G (f ) PY (f ) − 2PSY (f ) = 0,

(2.12)

∂G (f )

onde PY (f ) = E [Ym (f ) · Y ∗ (f )] e P

(f )] s˜

ao, respectiva-

m

SY (f ) = E [Sm (f ) · Y ∗

m

mente, o espectro de potência de Ym (f ) e o espectro de potência cruzado entre

Sm (f ) e Ym (f ). Da última equaç˜

ao resulta que o filtro de Wiener, no dom´ınio das

freqüências, é dado por

P

G (f ) =

SY (f ) .

(2.13)

PY (f )

11

index-27_1.png

Agora, para sinal observado em meio a ru´ıdo aditivo n˜

ao correlacionado, vale

PY (f ) = PS (f ) + PW (f )

(2.14)

e, ainda,

PSY (f ) = E [Sm (f ) · Y ∗ (f )] = E [S

(f ) + W ∗ (f ))] = P

m

m (f ) · (S∗

m

m

S (f ) .

(2.15)

Nestas condiç˜

oes, o filtro (2.13) pode ser escrito de acordo com

P

1

 ∼ 1, para PS

PW

G (f ) =

S (f )

=

=

(2.16)

PS (f ) + PW (f )

1 + SN R−1 (f )

 ∼ 0, para PS

PW

sendo que SN R (f ) = PS (f ) /PW (f ) é uma medida da relaç˜

ao sinal-ru´ıdo na fre-

qüência f . O filtro de Wiener atenua cada freqüência do sinal ruidoso segundo o

valor de SN R (f ): quando SN R (f ) = 0, a componente de freqüência é eliminada;

em contrapartida, quando SN R (f ) possui valor elevado, a componente é preservada.

A Figura 2.4 ilustra a entrada e a sa´ıda do filtro de Wiener, no dom´ınio do tempo e da freqüência.

Figura 2.4: Os sinais de entrada e sa´ıda do filtro de Wiener a) no dom´ınio do tempo

e b) no dom´ınio da freqüência.

2.3.1

Filtro de Wiener prático

Substituindo (2.15) em (2.13) também podemos escrever o filtro de Wiener como P

P

G (f ) =

SY (f ) = S (f) ,

(2.17)

PY (f )

PY (f )

12

indicando que o filtro de Wiener necessita do espectro de potência do sinal limpo,

PS (f ), que pode ser estimado a partir de uma realizaç˜

ao do sinal ruidoso pois, supon-

do que os processos s˜

ao ergódicos, pode-se substituir as médias estat´ısticas pelas

médias temporais. Observe-se que, para obter o espectro de potência, é necessário

apenas que estat´ısticas de primeira e segunda ordem possam ser estimadas a partir

das médias temporais.

Já o ru´ıdo ou suas caracter´ısticas podem ser estimadas durante as pausas do sinal

de voz que, por sua vez, ocorrem com bastante freqüência ao longo de qualquer fala.

É necessário, pois, um método para determinar os trechos de pausas. A literatura

apresenta vários desses métodos, conhecidos, no caso do processamento de voz, como

detectores de atividade de voz (VAD, Voice Activity Detector ). Note-se que, quando

o ru´ıdo é estacionário, a sua estimativa pode ser feita uma única vez no in´ıcio do

trecho processado, bastando inserir vários blocos iniciais apenas com a presença do

ru´ıdo. Este é um artif´ıcio que podemos empregar nas simulaç˜

oes computacionais,

dispensando o uso de VAD.

Seja |W (f )|γ a média no tempo do ru´ıdo medido em um intervalo em que se

considera que exista apenas a presença do ru´ıdo,

K−1

1

|W (f )|γ =

|Wl (f )|γ ,

(2.18)

K l=0

na qual |Wl (f )| é o espectro do l-ésimo bloco de ru´ıdo e K é o número de blocos no

intervalo de tempo considerado. O expoente γ = 1 quando desejamos a média da

magnitude e γ = 2 quando desejamos a média quadrática da magnitude do espectro.

Analogamente, podemos calcular para o sinal ruidoso,

N −1

1

|Y (f )|γ =

|Yl (f )|γ .

(2.19)

N l=0

Substituindo essas médias temporais em (2.17), escrevemos

P

|Y (f )|2 − |W (f )|2

G (f ) =

S (f ) ≈

.

(2.20)

PY (f )

|Y (f )|2

Na medida em que aumentamos o intervalo de tempo utilizado na média temporal,

esta deve se aproximar da média estat´ıstica, isto se os processos forem ergódicos.

13

Para o caso de sinal de voz (notoriamente n˜

ao estacionário e portanto, n˜

ao ergódico)

tal procedimento introduz distorç˜

oes pois suaviza os sinais transitórios presentes no

mesmo. Por isso, normalmente, considera-se a seguinte estimativa do espectro de

potência da voz

ˆ

PS = |Ym (f )|2 − |W (f )|2,

(2.21)

na qual |Ym (f )|2 é a potência instantânea do sinal ruidoso e |W (f )|2 é a potência

média do ru´ıdo. Dessa forma, substituindo este ˆ

PS em (2.20), obtém-se a seguinte

funç˜

ao ganho para o filtro de Wiener prático

|Y

|W (f )|2

G (f ) =

m (f )|2 − |W (f )|2 = 1 −

.

(2.22)

|Ym (f )|2

|Ym (f )|2

Na Figura 2.5, apresentamos uma poss´ıvel implementaç˜

ao do filtro de Wiener,

baseada no processamento em blocos. Para cada bloco de coeficientes, emprega-se a

funç˜

ao ganho

1 − |W [k]|2

,

|W [k]|2 < 1.

G [k] = G Y

|Ym[k]|2

|Ym[k]|2

m [k] ,|W [k]|2

=

(2.23)

 0,

caso contrário.

2.4

Subtraç˜

ao Espectral [12]

Nas situaç˜

oes em que o sinal e o ru´ıdo aditivo n˜

ao s˜

ao correlacionados, tem-se

PY (f ) = PS (f ) + PW (f ) .

(2.24)

Portanto, uma forma de estimar o espectro de potência original, PS (f ), consiste

em subtrair do espectro de potência ruidoso, PY (f ), uma estimativa do espectro

de potência do ru´ıdo, ˆ

PW (f ). Esta é a idéia básica de um dos primeiros métodos

utilizados para reduç˜

ao de ru´ıdo em sinais de voz: a subtraç˜

ao espectral [9].

Matematicamente, podemos escrever que se obtém uma estimativa, relacionada

com o espectro original Sm (f ), aplicando a regra de supress˜

ao de ru´ıdo

|Sm (f )|γ = |Ym (f )|γ − ρ|W (f )|γ,

(2.25)

14

index-30_1.png

Figura 2.5: Esquema de reduç˜

ao de ru´ıdo em sinal de voz usando Filtro de Wiener e

processamento em blocos.

sendo γ e ρ constantes (γ = 1 ou 2, e 0 < ρ ≤ 1), |Sm (f )|γ uma estimativa de

E {|Sm (f )|γ} (referente ao espectro original) e |W (f )|γ a média no tempo do ru´ıdo

medido nos per´ıodos em que se considera a presença exclusiva deste. Em geral, sup˜

oe-

se que o ru´ıdo é produzido por um processo aleatório estacionário, de maneira que

|W (f )|γ é constante.

Quando γ = 1, faz-se uma subtraç˜

ao espectral de magnitude (introduzida por [13])

e quando γ = 2, uma subtraç˜

ao espectral de potência. A quantidade de ru´ıdo subtra´ı-

da pode ser controlada pelo parâmetro ρ. Normalmente, emprega-se subtraç˜

ao total

ρ = 1 e, em alguns casos, pode-se obter melhores resultados sobrestimando a quanti-

dade de ru´ıdo presente, o que se faz através de uma “sobre-subtraç˜

ao” empregando

um ρ > 1.

Na Figura 2.6, ilustramos um esquema de reduç˜

ao de ru´ıdo em sinal de voz uti-

lizando a subtraç˜

ao espectral.

A partir de (2.25), pode-se escrever a subtraç˜

ao espectral como uma funç˜

ao de

15

index-31_1.png

Figura 2.6: Esquema da subtraç˜

ao espectral usando processamento em blocos.

ganho; neste caso, o espectro do sinal estimado é dado por

1/γ

|

ˆ

W (f )|γ

Sm (f ) = G (f ) Ym (f ) = 1 − ρ

Y

|

m (f )

(2.26)

Ym (f )|γ

e G (f ) é a funç˜

ao ganho correspondente à operaç˜

ao de subtraç˜

ao espectral. Neste

processo, geralmente se sup˜

oe que as fases do sinal ruidoso e do sinal original s˜

ao

iguais. Deve-se observar que a funç˜

ao ganho é real e pode ser interpretada como uma

filtragem com um filtro de fase nula.

Um poss´ıvel aprimoramento da subtraç˜

ao espectral é se utilizar um espectro Ym (f )

“médio” na express˜

ao do ganho, em (2.26), produzindo um G (f ) “médio”.

A Eq. (2.25) permite constatar que variaç˜