You are on page 1of 195

Cap.

1 - Introduo ao Estudo da Acstica da Fala


O Que a Fala?
Raymond H. Stetson, um pioneiro no estudo da fala, escreveu que speech is movement
made audible (Stetson, 1928) [fala movimento tornado audvel]. Os movimentos dos rgos da
fala - estruturas como a lngua, os lbios, a mandbula, o vu palatino e as pregas vocais - resultam
em padres sonoros que so percebidos pelo ouvinte. Entretanto, a fala mais do que sons audveis;
seno no nos importaramos em distinguir os sons da fala de outros processos corporais, como
bater palmas ou respirar. A fala ganha sua importncia nica como o meio principal pelo qual a
lngua expressa em todas culturas humanas, exceto para as pessoas surdas. A fala uma
modalidade da linguagem. A comunicao da fala comum a quase todos os humanos em qualquer
cultura, em qualquer parte da terra exceto os surdos. O produto final da fala um sinal acstico.
Esse sinal representa a mensagem comunicativa do falante. Sob circunstncias comuns, o sinal
acaba rapidamente medida que as vibraes sonoras so amortecidas pelo mundo fsico, mas as
tcnicas modernas de gravao nos permitem preservar os sinais da fala, e essa capacidade abre
novos horizontes para o estudo da fala.
O famoso lingista, Charles Hockett, definiu o que ele considerou ser caractersticas de
desenvolvimento da comunicao. Estas so resumidas na Tabela 1-1 e, tomadas juntas, elas
caracterizao a caracterstica nica da linguagem humana. At onde sabemos, nenhuma outra
espcie tem um sistema de comunicao com todos esses atributos. Considerando essas
caractersticas individualmente, ns ganhamos uma apreciao da fala como uma faculdade humana
e um meio de comunicao. Vrias das caractersticas desenvolvidas pertencem diretamente e
unicamente fala como uma modalidade da linguagem, por exemplo, os itens 1, 2, 3, 6 e 9 na
Tabela 1-1. Combinando essas caractersticas, podemos definir a fala como um canal auditriovocal que tem uma transmisso que desaparece rapidamente; especializada para gerar significado
com smbolos sonoros arbitrrios; e composta de unidades discretas ou elementos que podem ser
formados em um nmero infinito de mensagens. Essa definio se refere a ambos os limites e a
fora da fala. O fato de que a fala desaparece rapidamente apresenta desafios para sua anlise.
Felizmente, equipamentos modernos tornam possvel armazenar e analisar o sinal seqencial da
fala. Com essa capacidade, possvel conduzir estudos da forma na qual os sons da fala se
relacionam com a linguagem.
No laboratrio cientfico, a fala tem trs grandes reas de estudo: a rea fisiolgica (ou
fontica fisiolgica), a rea acstica (ou fontica acstica), e a rea perceptual (tipicamente
chamada fontica perceptiva). Uma compreenso unificada da fala requer o estudo de cada uma
dessas reas na relao com as outras. A discusso neste livro se preocupar principalmente com a
rea acstica, mas referncias necessariamente sero feitas s outras duas reas. De importncia
especfica a necessidade de entender como a anlise acstica da fala pode ajudar o estudo dos
fenmenos fisiolgicos, por um lado, e os fenmenos perceptuais, por outro. Devido ao fato de o
sinal acstico servir de intermedirio entre a produo a percepo da fala, a anlise acstica ajuda
na compreenso tanto da produo quanto da percepo da fala. De diversas importantes maneiras,
o sinal acstico ajuda a dar uma compreenso unificada da fala.
TABELA 1-1
As Caractersticas de Desenvolvimento da Comunicao (as quais caracterizam todas lnguas humanas, mas no
se aplicam em seu todo aos sistemas de comunicao de outras espcies)
Caracterstica
1. Canal auditrio-vocal

Definio
O som transmitido da boca ao ouvido.

2. Transmisso ampla e recepo direcional

Um sinal auditrio pode ser detectado por qualquer


receptor dentro da faixa de audio, e os ouvidos do
receptor so usados para localizar o sinal.

3. Apagamento rpido

Em oposio a alguns sinais visuais e olfativos, os


sinais auditrios so transitrios.

4. Intermutabilidade

Usurios competentes de uma lngua podem


produzir um sinal que eles possam compreender.

5. Retorno total

Todos os sinais produzidos podem ser refletidos de


volta.

6. Especializao

A nica funo das formas de onda acsticas da fala


produzir significado.

7. Semanticidade

Um sinal produz significado atravs de sua


associao com objetos e eventos do meio.

8. Arbitrariedade

O sinal da fala em si no tem relao alguma com o


objeto ou evento ao qual se associa.

9. Discretude

A fala composta de um pequeno conjunto de


unidades (ou elementos) acusticamente distintas.

10. Deslocamento

Os sinais da fala podem ser usados para se referir a


objetos ou eventos que so removidos do presente
tanto no espao quanto no tempo.

11. Produtividade

A fala permite a expresso de uma variedade


infinita de enunciados significativos como resultado
da combinao de elementos discretos em novas
sentenas.

12. Tradicional

A estrutura e o uso da lngua transmisso passada


de uma gerao a outra atravs de pedagogia ou
aprendizado.

13. Dualidade de formao de padres

Os elementos sonoros especficos da linguagem no


tem significado intrnseco, mas se combinam a
partir de estruturas (ex.: palavras, sintagmas) que
possuem significado.

A rea Fisiolgica da Fala


A rea fisiolgica identificada fisicamente com o aparato da fala, constitudo de trs
subsistemas anatmicos maiores: o respiratrio (incluindo os pulmes, a parede do peito e o
diafragma), o fonatrio (laringe ou caixa de voz) e o articulatrio (lngua, lbios, mandbula e vu
palatino). A Figura 1-1 um diagrama simplificado desses subsistemas. Essa diviso tripartida
justificada tanto no campo anatmico quanto no fisiolgico, mas deve-se enfatizar que os trs
subsistemas funcionam, juntos na fala, bem e so freqentemente altamente interativos. A
articulao da fala um fenmeno complexo do movimento, cuja compreenso foi retardada por
muitos obstculos, sendo um desses a dificuldade de se observar as estruturas de interesse,
escondidas como so nas cavidades da boca, pescoo e trax. Os prximos trs pargrafos
apresentam um sumrio altamente simplificado desses subsistemas. O leitor que no conhece a
produo da fala pode achar til ler esse material antes de prosseguir para o resto do livro.
Figura 1-1. O sistema de produo da fala, dividido em trs subsistemas
primrios: respiratrio, larngeo e articulatrio. Os diferentes sistemas so
desenhados em escalas diferentes e com orientaes distintas (ex.: o sistema
articulatrio aumentado relativo aos outros dois e mostrado em uma vista

lateral em vez de frontal). De The speech sciences. A volume in the speech


sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com
permisso de Delmar, uma diviso da Thomson Learning.

O Subsistema Respiratrio
O subsistema respiratrio consiste da traquia, dos pulmes, da caixa torcica, e de
vrios msculos (Figuras 1-1 e 1-2). Alm de fornecer ventilao para suprir a vida, esse sistema
produz a maioria da energia aerodinmica da fala. Os parmetros aerodinmicos bsicos so a
resistncia, a presso, o fluxo e o volume do ar. O volume uma medida da quantidade de ar e
medida com unidades como litros (l) ou mililitros (ml). O fluxo a taxa de mudana do volume e
expresso em unidades como litros/minuto ou mililitros/milissegundos (ml/ms), que expressa uma
mudana em volume por unidade de tempo. A presso fora por unidade de rea e normalmente
expressa em Pascais, uma unidade que substituiu unidades anteriores como dines por centmetro
quadrado. Nos estudos da fala, a presso freqentemente gravada com uma unidade diferente,
como centmetros de gua (cm H20) ou milmetros de mercrio (mm Hg). A razo para isso o fato
de manmetros serem uma forma conveniente de medir presso como o deslocamento de uma
coluna de lquido. A resistncia uma varivel que relaciona fluxo com presso, de acordo com
uma lei importante chamada lei de Ohm. Essa lei pode ser expressa nas seguintes formas
alternativas:

Figura 1-2. Os subsistemas respiratrio e larngeo da produo da fala. Esses dois subsistemas
combinados so chamados de trato respiratrio inferior. A laringe est situada logo acima
da traquia e abaixo da faringe. A traquia se bifurca em brnquios que chegam aos pulmes.
De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com
permisso de Delmar, uma diviso da Thomson Learning.

Presso = Fluxo x Resistncia


Fluxo = Presso / Resistncia
Resistncia = Presso / Fluxo
Note, por exemplo, que o fluxo diretamente proporcional presso, mas inversamente
proporcional resistncia. Se a resistncia for mantida constante, um aumento na presso do ar
resultar em um aumento no fluxo do ar. Se a presso do ar mantida constante, um aumento na
resistncia causar um decrscimo no fluxo de ar.
A fala produzida com uma presso pulmonar relativamente constante de cerca de 6-10 cm
(centmetros) de gua ou cerca de 1 kPa (kPa = quilopascal ou 1.000 pascals). Para se ter idia de
quanta presso isso seja, afunde um canudo a uma profundidade de 6 cm em um copo de gua
filtrada (Figura 1-3). Depois, sopre o canudo at que bolhas comecem a se formar no fim do canudo
imerso na gua. Essa condio corresponde a uma presso de 6 cm de gua. H apenas uma
pequena perda de presso do ar nos minsculos sacos de ar dos pulmes at a laringe no topo da
traquia, de forma que a presso de ar subglotal (a presso logo abaixo das pregas vocais) seja
aproximadamente igual presso nos pulmes. Obviamente, se no houvesse obstrues na laringe
ou no caminho superior do ar no sistema articulatrio, a presso do ar originada pelo sistema
respiratrio seria imediatamente liberada para a atmosfera atravs do trato vocal. A fala produzida
pela valvulao ou regulagem das presses e fluxos do ar gerados pelo subsistema respiratrio.
Grosso modo, o subsistema respiratrio uma bomba de ar, fornecendo energia aerodinmica para
os subsistemas articulatrios e larngeos. O padro bsico de suporte respiratrio para fala o fato
de o falante inspirar ar pelos ajustes musculares que aumentam o volume do sistema respiratrio. O
ar ento liberado dos pulmes atravs de combinaes de dilataes passivas e atividade

muscular, dependendo do volume de ar atual nos pulmes e das necessidades aerodinmicas.

Figura 1-3. Simples demostrao da presso do ar necessria para a produo da fala.


Coloque um canudo em um copo dgua a uma profundidade de 6 cm. Depois, sopre-o at que
bolhas comecem a subir atravs da gua. Essa condio corresponde a uma presso de gua
de 6 cm, que adequada para os propsitos da fala em uma conversao.

O ponto essencial que a funo respiratria para a fala entendida em termos de eventos
aerodinmicos volumes de ar, presso e fluxos. Os eventos mecnicos da fala, pois, comeam
assim que o falante usa o sistema respiratrio para gerar a energia aerodinmica. Na maioria das
lnguas, a fala produzida no ar expirado, significando que a produo da fala deve ser
interrompida sempre que um falante toma a respirao. O padro tpico da fala uma inspirao
rpida seguida por um expirao muito mais lenta na qual a fala produzida. Durante a respirao
de descanso, as fases inspiratrias e expiratrias de um ciclo de respirao so quase iguais em
durao, mas, para a fala, a fase expiratria prolongada relativa fase inspiratria. Essas
diferenas no padro inspiratrio e expiratrio podem ser representadas como mostrado abaixo,
onde insp = inspirao, exp = expirao, respirao de descanso mostrada esquerda da linha
vertical dupla. As linhas com travesso representam a fase expiratria prolongada da respirao da
fala.
insp | exp | insp | exp | insp | exp | |
insp | exp _______ | insp | exp __
_______ |
A necessidade de interromper a fala para o propsito de inspirao significa que a fala
produzida em grupos de respirao, que so grupos de palavras ou slabas produzidos em uma s
respirao. Em geral, as unidades produzidas em um grupo respiratrio tem uma coerncia total,
como o encaixamento em um padro entonacional (um padro de tom sobe e desce).

O Subsistema Larngeo
Como mostra a figura 1-2, a laringe est situada no topo da traquia e abre-se na faringe
acima. A laringe consiste de um nmero de cartilagens e msculos. De importncia fundamental so
as pregas vocais, pequenos rgos musculares que se fecham (se aproximam) para fechar a corrente
de ar larngea ou se abrem (se separam) para abrir essa corrente de ar. Um desenho de uma seo
coronal da laringe mostrado na Figura 1-4. As pregas vocais verdadeiras so as estruturas
vibrantes de interesse aqui. Elas tem uma estrutura complexa em camadas mostrada na ampliao
da Figura 1-4. A abertura entre as pregas vocais chamada de glote (Figura 1-5), e o termo glotal
tem sido usado como um termo geral para a funo larngea, especialmente a funo das pregas
vocais. Se as pregas vocais esto firmemente fechadas, o ar impedido de escapar dos pulmes

inflados. As pregas vocais esto tipicamente fortemente fechadas durante tarefas intensas como
levantamento de pesos, evacuao e nascimento de bebs, a fim de tornar o subsistema respiratrio
rgido como fonte para se empurrar.
Figura 1-4. Seo coronal da laringe, mostrando as pregas falsas e as verdadeiras. O alargamento
mostra a estrutura em camadas da ltima, que so a fonte de energia vibratria para a voz.
De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com
permisso de Delmar, uma diviso da Thomson Learning. .

O fato de pessoas geralmente grunhirem durante o levantamento de um objeto pesado


evidncia de que as pregas vocais esto fechadas. A ocorrncia de grunhidos tambm nos indica que
o som vozeado produzido com as pregas vocais fechadas. O som resultado da vibrao das
pregas, que estalam alternadamente juntas e separadas, colidindo uma com a outra de forma
basicamente peridica. A taxa de vibrao das pregas vocais determina essencialmente a percepo
da tom vocal (vocal pitch) de um falante. Um falante com uma voz bastante aguda tem uma
freqncia relativamente alta de vibrao das pregas vocais e um falante com uma voz bem grave
tem uma freqncia relativamente baixa de vibrao das pregas vocais.

Figura 1-5. Vista superior da laringe para mostrar as pregas vocais e a glote. As pregas so observadas
da perspectiva mostrada em A, e a vista alargada das pregas est em B. De
The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998.
Reimpresso com permisso de Delmar, uma diviso da Thomson Learning. .

A laringe importante para a fala no s porque uma fonte de energia de vozeamento, mas
tambm por valvular o ar que se move para dentro ou fora dos pulmes. As funes de valvulao
so descritas em termos de aduo e abduo. Quando as cordas vocais esto fortemente fechadas,
nenhum movimento de ar ocorre. Esse fechamento firme importante para certas tarefas fsicas
enrgicas, como descrito anteriormente, mas tambm usado para interromper o fluxo de ar para
alguns sons da fala. Aduo com menos resistncia para o ar permite que as pregas vocais vibrem.
Um alto grau de abduo permite que o ar se mova facilmente dos pulmes ao caminho areo
superior. Sons desvozeados, como o [s] em see, requerem que a presso do ar seja armazenada
dentro da boca como uma fonte para a energia do rudo. A abduo das pregas vocal satisfaz essa
condio por permitir que a presso na boca se aproxime da presso nos pulmes. Por fim, uma
abduo parcial das pregas vocais usada para gerar energia de rudo desvozeado, como no
sussurro.
Apesar da extrema importncia da laringe, ela contribui relativamente pouco para a
diferenciao fontica dos sons da fala. Certamente, a atividade larngea diferencia sons vozeados
de desvozeados, como os sons iniciais no par mnimo bill-pill. Mas a funo larngea bastante
similar em agrupamentos maiores de sons. Por exemplo, a vibrao das pregas vogais difere pouco
entre vogais, as quais ganham sua distintividade atravs do formato do sistema articulatrio acima
da laringe. Por essa razo, a descrio fontica da fala baseada amplamente nas caractersticas
articulatrias supraglotais.

O Subsistema Articulatrio
Este sistema se estende da laringe at os lbios ou nariz ou seja, as duas aberturas atravs das
quais o ar e a energia podem passar (Figura 1-6). A transmisso de energia atravs dos lbios
envolve a cavidade oral como um conduito, e a transmisso de energia atravs do nariz envolve a
cavidade nasal como um conduito. Os articuladores so estruturas mveis e incluem a lngua, os
lbios, a mandbula, o vu palatino (ou palato mole), como ilustrado na Figura 1-6. Os movimentos

dessas estruturas do formato ao trato vocal. O formato do trato determina suas propriedades de
ressonncia. Quando o falante produz o som voclico da palavra he, o processo fsico pode ser
entendido como uma modelagem do trato vocal para produzir um padro especfico de freqncias
de ressonncia. Nesse processo, a energia das pregas vocais vibrando ativa o sistema de ressonncia
do trato vocal. Mudar o trato vocal muda suas freqncias de ressonncia. O sistema articulatrio
tambm pode ser usado para obstruir o fluxo do ar (como no caso das consoantes da palavra pop) e
para gerar rudo (como no caso das consoantes da palavra seethe).
Figura 1-6. Desenho de uma seo sagital mdia do trato vocal. Notem as cavidades principais,
articuladores e estruturas relacionadas. De The speech sciences. A volume in the speech
sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com
permisso de Delmar, uma diviso da Thomson Learning.

A articulao da fala tipicamente descrita em termos de posies e contatos articulatrios.


Por exemplo, um foneticista pode descrever a consoante [s] em see como uma fricativa lnguoalveolar. Lnguo-alveolar denota o lugar da constrio articulatria. Lnguo significa lngua e
alveolar indica ranhuras na parte ssea do cu da boca. Fricativa indica uma consoante produzida
com uma energia significativa de rudo. O foneticista usualmente descreve as vogais em relao
posio da lngua e configurao dos lbios. A vogal em see chamada de alta anterior noarredondada, pois a lngua est relativamente alta na parte frontal da boca e os lbios no esto
arredondados. Essas descries articulatrias so uma forma conveniente de caracterizar as
diferenas entre os sons da fala. Leitores que no estejam familiarizados com descries fonticas
devem ler o Apndice A antes de ir para os outros captulos deste livro. Este apndice tambm lista
os smbolos fonticos que sero usados na discusso dos sons da fala.

A rea Acstica da Fala


A rea acstica da fala o foco principal deste livro, mas difcil entender a acstica da fala
independentemente da fisiologia e da percepo da fala. O sinal acstico da fala o evento fsico
que transmitido nas telecomunicaes ou gravado em fitas magnticas, CDs e outras mdias.
Assim, quando transmitimos ou armazenamos a fala, quase sempre o fazemos com base no sinal
acstico. Este sinal contm a mensagem lingstica da fala. O ouvinte pode desvendar essa
mensagem atravs da audio. Isso pode parecer uma afirmao bvia. H outra forma de
entendermos a fala? Para responder essa questo, imagine uma pessoa que nasceu surda e cega. Esta
pessoa no pode nem ouvir a fala nem ver sua articulao. Mesmo assim pessoas com essas
desabilidades juntas podem aprender a produzir e a perceber a fala. Uma tcnica usada pelos surdos
e cegos chamada de Tadoma. Os usurios deste mtodo colocam a mo no rosto do falante de
forma a sentir as aes da produo da fala a vibrao das pregas vocais, fluxos de ar escapando
do nariz ou boca, movimentos da mandbula ou lbios, e assim por diante. Usurios experientes de
Tadoma podem manter conversaes. Em outras palavras, a comunicao da fala pode ser feita sem
a percepo de um sinal acstico. Para esses raros indivduos, a fala apenas movimento, no
movimentos que se tornam audveis.
Entretanto, para a grande maioria, a fala audvel e necessariamente assim. Poucos
conseguem entender um falante na televiso quando o som desligado. Podemos adivinhar algumas
palavras observando a informao visual (leitura de lbios ou leitura da fala), mas o entendimento
na melhor das hipteses difcil e incerto. Por outro lado, se o vdeo gradualmente tornado preto
enquanto o sinal de udio mantido, continuamos a entender a mensagem falada, usualmente com
pouca dificuldade.
O objetivo principal deste livro descrever como os sons da fala trafegam no sinal acstico.
Este objetivo envolver (a) um relato de como os eventos fisiolgicos da produo da fala resultam
em vrios tipos de som, (b) a descrio dos sons da fala em termos de variveis acsticas, (c) a

descrio de tcnicas para o estudo da acstica da fala, e (d) uma considerao de como as pistas
acsticas so usadas na percepo da fala. Um entendimento completo da acstica da fala requer
que os parmetros acsticos sejam relacionados aos padres fisiolgicos de produo da fala e s
decises perceptuais baseadas no sinal acstico.
Leitores que no tenham pelo menos uma bagagem introdutria em acstica devem ler o
Apndice B antes de prosseguir neste livro.

A rea Perceptual da Fala


O estudo da percepo da fala em grande parte uma tentativa de identificar as pistas
acsticas que so usadas por um falante para chegar a decises fonticas. Por exemplo, quais so as
pistas acsticas que permitem a um falante decidir que uma consoante [b] foi produzida na palavra
bye? A compreenso da percepo da fala avanou muito com os aperfeioamentos na anlise
acstica da fala e na sntese de fala por mquinas. A habilidade de analisar o sinal acstico da fala e
a habilidade de produzir rplicas sintetizadas da fala tm sido complementares na compreenso
moderna de como os humanos percebem a fala. Embora existam ainda muitas questes a serem
respondidas sobre percepo da fala, as pistas acsticas bsicas so suficientemente entendidas, a
ponto de sintetizadores de fala estarem se tornando altamente inteligveis e, s vezes, bastante
naturais. Um grande progresso tambm tem sido alcanado no reconhecimento automtico da fala.
Ao aprendermos como os humanos percebem a fala, somos mais capazes de desenvolver mquinas
com capacidade para derivar decises lingsticas do sinal acstico.

As Trs Formas do Sinal Acstico da Fala


Progressos no estudo da fala e o desenvolvimento de tecnologias de fala como sntese e
reconhecimento automtico de fala tm por base as capacidades de gravar o sinal de fala e poder
tocar o sinal armazenado para anlise. As anlises acsticas modernas so altamente dependentes do
computador digital, tanto que o processamento digital da fala est no cerne da anlise acstica
contempornea da fala. Portanto, essencial entender como o sinal acstico adquirido no
computador. Essa questo ser tomada em detalhes no Captulo 3, mas alguma bagagem
informacional necessria.

A Onda Acstica
conveniente considerar o sinal de fala como tendo trs formas intercambiveis. A primeira
dessas a onda acstica com origem no deslocamento de ar, ou o sinal que pode ser por ns ouvido
ou pelo microfone sentido. Uma onda acstica uma onda longitudinal, significando que as
partculas se movem na mesma direo da propagao da onda. Nossos ouvidos e a maioria dos
microfones respondem ao som como variaes de presso na atmosfera. Essas variaes tomam a
forma de condensaes e rarefaes. A Figura 1-7 mostra um padro de condensaes e rarefaes
para uma senide simples. O ouvido converte as variaes da presso do ar em impulsos neurais
que so enviados ao crebro para interpretao. Microfones convertem as variaes da presso do ar
em sinais eltricos. Eles so um tipo de transdutor. Um transdutor um elemento que converte uma
forma de energia em outra. Um microfone transforma a energia acstica em eltrica.
Tecnicamente, o sinal acstico com origem no deslocamento de ar chamado de sinal
acstico propagado ou radiado. Esse sinal se propaga ou se erradia no espao depois que emerge
do trato vocal de um falante. Por se enfraquecer rapidamente, esse sinal no uma forma
conveniente de fala para anlise. A anlise acstica da fala requer formas armazenadas da fala ou

rplicas do padro sonoro original, os quais possam ser examinados detalhadamente.


Figura 1.7. Onda de condensaes e rarefaes produzidas por um diapaso vibrando, o qual
produz uma senide ou tom puro. De The speech sciences. A volume in the speech
sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com permisso de Delmar,
uma diviso da Thomson Learning.

O Sinal Anlogo Armazenado


A segunda forma de fala o sinal anlogo armazenado. Um exemplo comum um
gravador de fitas cassete. Um sinal anlogo varia continuamente suas propriedades bsicas. O sinal
anlogo da fala varia continuamente sua presso e suas propriedades temporais. Essa variao
contnua evidente na representao tpica da forma de onda da fala (Figura 1-8), que mostra
variaes de amplitude sobre o tempo. Ambas as dimenses temporais e de presso podem ser
divididas em muitos pontos infinitos por causa de sua variao contnua. Fitas magnticas
armazenam o sinal de fala como um campo magntico, que, como o sinal acstico com origem no
deslocamento de ar, varia continuamente suas propriedades. A vantagem do sinal anlogo
armazenado em um gravador de fitas magntico poder toc-lo para ouvir ou analisar. O playback
realizado atravs da converso da energia magntica em eltrica, a qual, em contrapartida,
convertida para energia acstica por um alto-falante ou um fone-de-ouvido. Cada uma dessas
formas de energia preserva a natureza contnua ou anloga do sinal.

Figura 1-8. A forma de onda da fala. O eixo vertical representa a amplitude de vibrao e o
eixo horizontal, o tempo. A forma de onda apresentada de um som voclico.

O Sinal Digital Armazenado


A terceira forma outra forma armazenada, o sinal digital (ou digitalizado). Esta forma
pode ser armazenada em um computador digital ou em fitas (ou discos) magnticas digitais. Digital
significa numrico. Os computadores digitais armazenam informao como nmeros. Para
armazenar um sinal da fala em um computador digital, necessrio converter o sinal anlogo
(contnuo) para uma srie de nmeros. Isso feito pelo processo chamado digitalizao. Um
conversor analgico-digital (A/D) um processo ou aparato que transforma o sinal anlogo em
digital. Inversamente, um conversor digital-analgico (D/A) transforma o sinal digital em
analgico. Por exemplo, uma converso D/A necessria para tocar o sinal armazenado
digitalmente atravs de fones-de-ouvido ou em alto-falantes. As siglas ADC e DAC s vezes so
usadas para esses dois tipos de converso. A representao digital da fala muito importante porque
permite a anlise da fala, empregando a fora computacional dos computadores digitais modernos.
At mesmo os computadores pessoais so capazes de algumas anlises sofisticadas da fala.

As trs formas de fala - o sinal acstico com origem no deslocamento de ar, o sinal
anlogo armazenado e o sinal digital armazenado so intercambiveis no sentido de que uma
forma pode ser convertida na outra e vice-versa. Por exemplo, o sinal acstico com origem no
deslocamento de ar pode ser gravado por um microfone e, ento, armazenado em forma digital para
ser salvo em um computador, e, por fim, convertido de volta para ativar um alto-falante e ser
ouvido de novo como um sinal acstico com origem no deslocamento de ar. Tanto a armazenagem
digital quanto a anloga so virtualmente permanentes, de forma que um sinal de fala possa ser
mantido indefinidamente.
Com as tcnicas modernas de processamento digital, no necessrio mais usar
aparatos de armazenamento analgicos como gravadores de fitas de udio. O computador digital
pode armazenar e analisar o sinal e, atravs de converso D/A, toc-lo do jeito que quisermos.
Entretanto, uma vez que o sinal de fala armazenado, importante reconhecer algumas
propriedades bsicas da fala para termos certeza de que o sinal armazenado realmente contm as
caractersticas do sinal acstico com origem no deslocamento de ar. Informaes valiosas podem
ser perdidas nas operaes de transduo e armazenamento. Infelizmente, muitas pessoas j
descobriram que sinais supostamente gravados com segurana estavam distorcidos no playback.
Tanto para a armazenagem quanto para a anlise da fala, importante conhecer algumas
caractersticas bsicas do sinal em questo. Esta questo explicada a seguir.

Consideraes das Propriedades Acsticas da Fala


A energia da fala se estende sobre uma largura de banda de mais de 10kHz. A figura 1-9
mostra o espectro de longo termo da fala, ou seja, a distribuio da energia acstica ao longo das
freqncias para uma amostra longa da fala, como vrios segundos ou at minutos. Embora a
maioria da energia de longo termo esteja nas freqncias mais baixas, a energia se espalha bastante
sobre a faixa de freqncias. De fato, a energia na fala pode se estender alm de 10kHz, mas para a
maioria dos propsitos suficiente considerar uma faixa de freqncias bem mais baixa. A largura
de banda para a transmisso telefnica apenas cerca de 500-3500 Hz, e um sinal de fala facilmente
inteligvel pode ser transmitido com uma largura de banda total de menos de 5kHz. No entanto,
sempre que a fala gravada ou analisada, importante saber como as limitaes de freqncia na
gravao ou na anlise podem afetar os resultados. A resposta de freqncia do equipamento de
gravao ou de anlise devem ser conhecidas antes de anlise quantitativas serem realizadas. Nunca
deve-se simplesmente assumir que uma gravao em fita seja fiel na reproduo de um som. Os
gravadores intitulados como de alta fidelidade no o so necessariamente. Para os propsitos
deste tutorial, ser assumido que uma faixa de freqncias de pelo menos 5 kHz necessria at
mesmo para objetivos modestos na anlise de fala. Entretanto, uma faixa de 10 kHz muito mais
apropriada para o estudo de vrios sons produzidos por diferentes falantes, incluindo homens,
mulheres e crianas.

Figura 1-9. O espectro mdio de longo termo da fala. A energia se espalha sobre uma faixa de
Freqncias, mas a regio de maior energia est nas freqncias mais baixas.

A extenso dinmica da fala - sua extenso de energia - cerca de 60 dB (decibis).


Isso significa que os sons mais fracos so cerca de 60 dB menos intensos do que os sons mais
fortes. As vogais so os sons mais intensos e as fricativas que comeam as palavras do ingls fin e
thin so tipicamente as mais fracas. Quando um medidor VU (unidades de volume, na sigla em
ingls) em um gravador de fitas ou outro instrumento usado para monitorar a intensidade de pico
de uma amostra de fala, ele responde principalmente energia das vogais. Se os instrumentos para
analisar e gravar no estiverem ajustados adequadamente, a extenso dinmica de gravao ou
anlise pode no combinar com a extenso dinmica dos sons de interesse. Como regra geral, a
extenso dinmica para um dado falante pode ser estimada dos sons da palavra thaw, que consiste
de uma fricativa fraca e uma vogal intensa. Se ambos sons estiverem satisfatoriamente
representados na gravao ou anlise, os procedimentos esto aproximadamente adequados. Ser
assumido neste tutorial que uma extenso dinmica de cerca de 60 dB apropriada para o
armazenamento e a anlise da fala. Dentro desta extenso, usualmente desejvel que gravaes
sejam sensveis a variaes de 1 dB. O ouvido humano responde a variaes em torno desta
magnitude e, por essa razo, uma sensitividade de 1 dB requerida.
O tempo tambm uma importante dimenso a se considerar na gravao e na anlise
da fala. A resoluo temporal mnima para propsitos gerais de anlise cerca de 10 ms. Esta a
durao mais curta de importantes eventos da fala, como uma exploso transiente associada com a
soltura de consoantes oclusivas (ex.: os sons iniciais nas palavras pat, tap e cat). As anlise que no
puderem alcanar essa resoluo podem perder informao significativa sobre a estrutura temporal
da fala.
Finalmente, deve-se lembrar que tanto a freqncia quanto a energia dos sons da fala
podem mudar rapidamente. Instantes de mudana rpida podem ser especialmente essenciais na
informao transportada pelo sinal de fala e, portanto, as operaes de armazenagem e anlise
devem ser capazes de acompanhar essas mudanas rpidas com pouca ou nenhuma distoro.
Com esses pensamentos em mente, podemos ver que o estudo da acstica da fala
envolve a anlise de um sinal cuja energia (a) distribuda sobre uma faixa de cerca de 10 kHz para
a maioria dos propsitos, (b) possui uma extenso dinmica de cerca de 60 dB, e (c) possui
variaes significativas no tempo que ocorrem em 10 ms ou menos. Lembremos tambm que o
sinal de fala perdido rapidamente assim que sua energia acstica se dissipa na atmosfera. Podemos
repetir o que foi dito, mas nunca recuperar a produo original.

Acstica da Fala como Intermediria Entre a Expresso e a


Compreenso da Linguagem Falada
O sinal acstico da fala primeiramente o produto das operaes da expresso da
linguagem e a entrada para o processo da compreenso da linguagem. Assim, a representao
acstica da fala um referente bsico para se entender como os humanos usam a linguagem. De
certa forma, os processos de produo e compreenso da linguagem podem ser relacionados a
padres acsticos, e o estudo dessas relaes uma razo principal para a aplicao da acstica a
campos como lingstica, psicolingstica, patologia de fala-linguagem, e engenharia da
comunicao. A Figura 1-10 um diagrama simplificado das operaes da expresso e da
compreenso da linguagem. Em vrios lugares deste livro, examinaremos a possibilidade de que
vrias estruturas da linguagem so refletidas no sinal acstico. A codificao dos vrios tipos de
informao lingstica, emocional e pessoal no sinal acstico da fala convida para uma anlise
desse sinal como um meio bsico para entender a comunicao humana.

Teoria, Instrumentos e Medidas

Este livro se dedica a questes relacionadas teoria acstica de produo da fala, aos
instrumentos laboratoriais ligados a anlises acsticas, e a medies do sinal acstico da fala. Estes
trs - teoria, instrumentos e medidas - esto inter-relacionados. O uso de ferramentas e medidas
influenciado pela teoria acstica da fala. O teste da teoria depende da disponibilidade de
instrumentos e medidas laboratoriais. A aplicao de medidas requer que o sinal seja armazenado e
apropriadamente visualizado por instrumentos laboratoriais. O uso adequado da anlise acstica
requer um entendimento de como a fala produzida (a teoria acstica de produo da fala), um
conhecimento de instrumentos laboratoriais disponveis para anlises acsticas de sinais como a
fala, e uma familiaridade com vrias medidas que podem ser feitas no sinal acstico da fala.
Figura 1.10. Diagrama das operaes principais na expresso e compresso da linguagem. O sinal acstico
da fala intermedirio entre essas duas facetas da linguagem falada.

O Captulo 2 apresenta os conceitos bsicos da teoria acstica de produo da fala.


Saber o que a fala - como gerada como um sinal acstico - ajuda no desenvolvimento e no uso
de instrumentos de anlise e na seleo de medidas para caracterizar o sinal. A teoria acstica de
produo da fala sumarizada no Captulo 2 um primeiro passo no entendimento da anlise
acstica da fala. O Captulo 3 considera os instrumentos usados para as anlises do sinal acstico da
fala. As anlises contemporneas da fala dependem fortemente do computador digital. Portanto,
para entender a anlise da fala, necessita-se um conhecimento do processamento digital de sinais. O
Captulo 3 descreve os procedimentos pelos quais o sinal acstico, como o obtido por um
microfone, convertido para uma forma que pode ser armazenada em um computador digital. O
Captulo 3 tambm descreve as anlise acsticas modernas usadas no estudo da fala. Essas anlises
so tipicamente disponveis em sistemas que rodam em computadores digitais ou que so
fornecidos por sistemas especializados baseados em microprocessadores. Em ambos casos, o
processamento digital de sinais est envolvido. Os Captulos 4 e 5 lidam com as caractersticas
acsticas de vogais e consoantes, respectivamente. Esses dois captulos definem as medidas
acsticas que so tipicamente usadas na fontica acstica e tambm apresentam dados em algumas
das medidas mais comumente usadas dessas. Embora a nfase seja no ingls americano, uma
tentativa feita para mostrar como essas medidas se aplicam a outras lnguas tambm. Entretanto,
deve-se notar que os dados acsticos no so abundantes para as lnguas do mundo, e muitas dessas
foram raramente estudadas por este mtodo. O Captulo 6 considera os correlatos acsticos das
caractersticas do falante como idade e gnero. Devido ao fato de os padres acsticos da fala
variarem consideravelmente entre falantes, importante entender as fontes dessas variaes. O
Captulo 7 discute as caractersticas suprasegmentais da fala, incluindo entonao, padres
acentuais, e atributos emocionais. A fala mais do que os constituintes fonticos (segmentais)
discutidos nos Captulos 4 e 5, e o Captulo 7 apresenta informaes sobre as propriedades
suprasegmentais pelas quais a fala ganha sua plena riqueza e fora comunicativa. O Captulo 8
discute a sntese de fala, ou a gerao de fala por mquinas. Os apndices e o glossrio podem ser
teis para uma referncia ocasional, de modo que o leitor possa querer dar uma olhada nesses
materiais para se tornar familiar com os contedos antes de continuar para o prximo captulo.

RESUMO
A fala o canal vocal/aural da comunicao humana. Os sons da fala so produzidos
pelas aes dos trs subsistemas principais (respiratrio, larngeo e articulatrio). O sinal acstico
da fala de interesse especfico porque ele intervem entre a produo e a percepo da fala. Ou
seja, o sinal acstico primeiramente a sada do sistema de produo e a entrada para o processo de
percepo. Devido ao fato de o sinal acstico da fala codificar informaes lingsticas, emocionais
e pessoais no ato da comunicao humana, um objetivo importante desenvolver meios efetivos

para sua anlise.

CAPTULO 2: TEORIA ACSTICA DA PRODUO DA FALA

A Teoria Linear Fonte-Filtro da Produo da Fala


O objetivo principal deste captulo resumir uma teoria conhecida na literatura fontica como
teoria linear fonte-filtro da produo da fala. O livro clssico de Gunnar Fant, Acoustic Theory of Speech
Production de Fant (1970; publicado primeiramente em 1960), uma referncia bsica, bem como o
artigo de Stevens e House (1961). Essa teoria importante para se entender as relaes acsticoarticulatrias, bem como para fornecer fundamentos para muitos procedimentos necessrios a uma anlise
acstica da fala e para mtodos populares de sntese da fala. Somente linhas gerais da teoria sero
apresentadas aqui. O leitor que precisar de uma descrio mais detalhada deve ler o livro de Fant ou o
livro mais recente de Stevens (1998). Os livros de Fant e Stevens so fontes essenciais para as bases
tericas da produo da fala, mas podem ser desafiadores para leitores que no tenham conhecimento de
matemtica e fsica. (Tambm recomendado Stevens, 1989, e Pickett, 1999).
Neste captulo, a teoria acstica da fala discutida em termos das seguintes, principais,
classes de sons: vogais, fricativas, nasais, oclusivas, africadas, lquidas, ditongos e semivogais. As trs
primeiras as vogais, fricativas e nasais sero discutidas mais detalhadamente, pois ilustram princpios
que podem ser aplicados a outras classes de sons. Por exemplo, a semivogal /w/, como em way, pode ser
entendida como uma modificao da teoria da produo de vogais, e africadas como os sons finais e
iniciais da palavra judge podem ser entendidos como uma combinao de uma oclusiva (silncio) e uma
fricativa. Portanto, vogais, fricativas e nasais formam a base essencial da terica acstica para a fala neste
captulo.
Alguns diagramas simples ajudaro a identificar as principais caractersticas de interesse.
Usualmente, as vogais so sons produzidos com vibrao larngea (de modo que o vozeamento a fonte
de energia) e com o trato vocal relativamente aberto, modificado para produzir padres especficos de
ressonncias (de modo que o trato vocal inteiro funciona como um filtro, ou um sistema de transmisso
selecionador de freqncias). Um diagrama geral para as vogais dado na Figura 2-1a, que um tubo
bastante simples, com um lado na laringe e o outro aberto na atmosfera. Modificaes deste diagrama
sero usadas para modelar as lquidas e as semivogais, que so similares s vogais em suas propriedades
acsticas. As fricativas so produzidas com uma constrio estreita em algum ponto do trato vocal, como
retratado na Figura 2-1b. O ar que passa por essa constrio gera um rudo turbulento, de modo que o
rudo a fonte de energia para a produo do som. A fonte de rudo filtrada (modificada) pelo trato
vocal, especialmente pela parte anterior constrio. O modelo da Figura 2-1b ser modificado para as
consoantes oclusivas e africadas. Ambas envolvem um breve fechamento do trato vocal e a gerao de
rudo similar das fricativas. Como podemos ver na figura 2-1c, os sons nasais so produzidos com a
velofaringe aberta, de modo que o som radiado atravs da cavidade nasal. Se a boca estiver fechada, o
som resultante uma consoante nasal, como m e n na palavra man. Se a boca estiver aberta, o som
resultante uma vogal nasalizada. As nasais, como as vogais, tm, tipicamente, o vozeamento como fonte
de energia. No entanto, as nasais diferem das vogais orais, pois a filtragem da fonte de energia
determinada tanto pela passagem oral quanto pela nasal.
TEORIA ACSTICA PARA VOGAIS
RESSONNCIA DE TUBOS COMO UM MODELO DE PRODUO DA FALA
Para introduzir a teoria acstica da produo da fala, comearemos com um aparato que no
se parece muito com o trato vocal humano. Como mostrado na figura 2-2, este aparato consiste
simplesmente de um vibrador (uma membrana elstica com um corte estreito no meio) acoplado a um
tubo reto. O vibrador esticado para se encaixar em um lado do tubo e o outro lado deixado aberto. O

vibrador uma fonte de energia acstica que se propaga atravs do tubo. O tubo um ressoador. Na
realidade, um exemplo de uma classe muito importante de ressoadores tubos fechados em um lado e
abertos no outro. Tal tubo possui um nmero infinito de ressonncias, localizadas em freqncias dadas
por uma relao que se pode denominar mltiplo mpar do quarto de comprimento de onda:
Fn = (2n-1) c/4l,
onde n um inteiro,
c a velocidade do som (cerca de
35.000 cm/s), e
l a extenso do tubo
A frmula mostrada acima nos d as freqncias de ressonncia do tubo. Parafraseando a
frmula, diz-se que um tubo ressoar com amplitude mxima um som cujo comprimento de onda for
quatro vezes maior que o comprimento do tubo. De fato, tais ressonncias ocorrem em mltiplos e por
isso que a expresso (2n-1) usada para gerar o conjunto de nmeros mpares. As ressonncias ocorrem
em c/4l, 3c/4l, 5c/4l, 7c/4l, e assim por diante. Vamos assumir que o tubo tenha um comprimento (l) de
17,5 cm. Ento a primeira ressonncia ter uma freqncia dada por:
F1 = c/4l
= 35.000 cm/s / (4 x 17,5 cm)
= 500 1/s, ou 500 Hz
A segunda ressonncia ter uma freqncia calculada como:
F2 = 3c/4l
= 105.000 cm/s / (4 x 17,5 cm)
= 1500 1/s, ou 1500 Hz
Ressonncias mais altas podem ser obtidas pela continuao dos clculos para diferentes
solues de (2n-1). Dessa forma obteremos os resultados nas seguintes freqncias de ressonncia: 500,
1500, 2500, 3500, 4500 Hz (e assim por diante, mas isso o bastante para os nossos propsitos). Nota-se
que as freqncias de ressonncia apresentam entre si intervalos de 1000 Hz.

Figura 2-1: Modelos do trato vocal para trs classes de sons: (a) vogais, (b) fricativas, e (c) nasais. Note a constrio parcial
em (b) e a total em (c).

Figura 2-2: Um modelo simples de produo de vogais: tubo reto de seo transversal uniforme fechado em um lado (por um
membrana vibradora que simula as pregas vocais) e aberto no outro (correspondendo abertura bucal).

Para tornar este exemplo relevante produo da fala humana, precisamos notar duas coisas: (1) o
trato vocal mdio masculino tem um comprimento de cerca de 17,5 cm da glote at os lbios, e (2) o trato
vocal tem aproximadamente as mesmas freqncias de ressonncia de um tubo reto de mesmo
comprimento e seo transversal. Em outras palavras, o tubo simples mostrado na figura 2.2 um modelo
satisfatrio de produo de um tipo especfico de vogal da fala humana. A vogal em questo produzida
com a lngua e outros articuladores posicionados de forma a criar uma seo transversal uniforme ao
longo do comprimento do trato vocal. Esta vogal representada na figura 2-3. Como podemos inferir, a
membrana vibradora do nosso modelo do tubo anloga s pregais vocais em vibrao. E, claro, o tubo
anlogo ao trato vocal, ao menos para a vogal especfica mostrada na figura 2-3. De uma certa forma, o
aparato composto de membrana elstica e tubo um gerador de som de uma vogal especfica ([ ]). Ele
tem uma fonte de energia (a membrana vibradora) e um ressoador (o tubo).
Se mudarmos a extenso do tubo ressoador, conseqentemente, mudamos as freqncias de
ressonncia, como indicado na frmula do mltiplo mpar do quarto de comprimento de onda. Se o
comprimento do tubo for dobrado de 17,5 cm para 35 cm, as freqncias de ressonncia assumiro
valores mais baixos, i.e., 250, 750, 1250, e 1750 para as primeiras (ou mais baixas) ressonncias. Se o
comprimento do tubo for reduzido pela metade, a fim de fazer um novo tubo de apenas 8,75 cm, ento as
quatro ressonncias mais baixas sero 1000, 3000, 5000 e 7000 Hz. Esses resultados explicam porque os
tubos mais longos em um rgo tm os tons mais baixos, enquanto os mais curtos tm os tons mais altos.
De modo similar, temos uma explicao para as mudanas nas freqncias de ressonncia do trato vocal
na mudana de criana para adulto. Uma criana tem aproximadamente metade do comprimento do trato
vocal de um adulto e tem freqncias de ressonncia muito mais altas. Na realidade, as freqncias de
ressonncia para as vogais de uma criana, correspondentes ao formato de aparelho fonador da figura
2-3, so 1000, 3000, 5000 e 7000 Hz, ou seja, os valores calculados para um tubo que tem 8,75 cm de
comprimento. Obviamente, ento, o comprimento do trato vocal de um falante determinar a localizao
relativa das freqncias de ressonncia. Quanto maior o trato vocal, mais baixas as freqncias de
ressonncia e menor a sua separao em freqncia. Por outro lado, quanto menor o trato vocal, mais
altas as freqncias de ressonncia e maior a sua separao em freqncia.
Vimos que o comprimento do trato vocal determina o espaamento mdio das freqncias de
ressonncia. Isso significa que as freqncias de ressonncia variam com as caractersticas do falante que
determinam o comprimento do trato vocal. Os dois principais fatores so idade e sexo. Na maior parte
deste captulo, os exemplos pertencem fala de adultos masculinos, e deve-se lembrar que ajustes so
necessrios para se lidar com padres de fala de mulheres e crianas. Amostras de dados acsticos de
falantes de ambos os sexos e vrias idades esto includos em vrios captulos deste livro.

Figura 2-3: Configurao do trato vocal para uma vogal que corresponde, grosso modo, ao tubo idealizado na figura 2-3. A

seo transversal essencialmente a mesma da glote aos lbios.

ESTENDENDO O MODELO DE RESSONNCIA DE TUBOS


Nossos resultados at agora pertencem a somente uma vogal - a mdia central em que a seo
transversal a mesma ao longo do comprimento do trato vocal. Quais so as freqncias de ressonncia
para outras vogais? A resposta pode ser determinada experimentalmente pela descoberta das freqncias
de ressonncia para vrios formatos de tubos que tenham o mesmo comprimento. Como notamos acima,
as freqncias de ressonncia no so afetadas substancialmente se o tubo for reto ou curvado. (As
diferenas que ocorrem foram descritas por Sondhi, 1986.) Mas mais fcil desenhar um tubo reto.
Sendo assim, tubos retos de diferentes formatos serviro como modelos para esta discusso. Alguns
exemplos de formatos diferentes de tubos so mostrados na figura 2-4. Cada um dos formatos
corresponde grosseiramente ao formato do trato vocal de uma vogal em ingls. A figura 2-4a corresponde
vogal /i/ (como em he), a figura 2-4b vogal /u/ (como em who), e a figura 2-4c vogal /a/ (como em
ha). Tambm so mostrados na figura 2-4 espectros para cada um dos modelos simples de vogais. Os
picos espectrais so as freqncias de ressonncia dos tubos. Lembremos que, em mdia, as freqncias
de ressonncia so separadas por cerca de 1000 Hz, mas que as freqncias de ressonncia individuais
variam em torno das regies de freqncia da vogal mdia-central. Por exemplo, comparada primeira
ressonncia da vogal mdia-central, a primeira ressonncia para /i/ tem uma freqncia mais baixa, mas a
primeira ressonncia de /a/ tem uma freqncia mais alta.

Figura 2-4: Representao para trs vogais de uma funo de rea idealizada (AF), espectro (S) e espectrograma (SG). O lado
fechado da funo de rea representa a glote, e o lado aberto, os lbios. Os formantes so representados nos espectros por picos
e nos espectrogramas por faixas horizontais.

SUMRIO DA RESSONNCIA DE TUBOS


Est na hora de revermos alguns dos principais pontos abordados at aqui:
1. Um tubo uniforme que fechado em um lado e aberto no outro tem freqncias de ressonncia
determinadas pelo comprimento do tubo (assumindo condies atmosfricas constantes). As freqncias
de ressonncia so relativamente mais baixas para tubos longos; e relativamente mais altas para tubos
curtos.
2. Para tubos no-uniformes (i.e., tubos em que a seo transversal no constante ao longo do tubo), as
freqncias individuais de ressonncia variam em torno dos valores determinados para um tubo uniforme.
3. O tubo uniforme fechado em um lado e aberto no outro um modelo acstico para uma vogal chamada
de mdia-central.

4. Para que o modelo de tubos possa representar outras vogais, a seo transversal deve ser variada em
funo do comprimento do tubo, de forma a se aproximar do formato do trato vocal para uma vogal
especfica.
Neste momento podemos questionar se tubos simples como os exibidos na figura 2-4
realmente soam como vogais produzidas por humanos. Na realidade, eles soam de fato como vogais
humanas, desde que seja aplicada uma fonte apropriada de energia vibratria. (Lembremos que os
ressoadores no geram energia sonora, e sim respondem energia que recebida por eles). Alm disso,
todas as outras vogais em ingls podem ser modeladas, ao menos grosseiramente, por modificaes
apropriadas do formato de um tubo reto.
Qual a relao entre o ressoador (p.ex. um tubo) e a fonte de energia (p.ex. uma membrana
elstica vibradora)? De maneira geral, a fonte de energia e o ressoador so independentes, exceto em
condies especiais. Isto um fato importante, e explica porque um falante pode produzir uma vogal [i]
de tom baixo ou de tom alto sem perder a sua distintividade fontica. O tom vocal (vocal pitch)
determinado quase exclusivamente pelas freqncias vibratrias das pregas vocais. Quanto mais baixa a
taxa de vibrao, mais baixo o tom. Portanto, uma voz de baixo tem uma freqncia de vibrao mais
baixa do que uma voz de soprano. Mas a freqncia de vibrao das pregas vocais no afeta as
propriedades do ressoador. As freqncias de ressonncia de um ressoador de tubos so determinadas
quase que exclusivamente por apenas dois fatores: o comprimento do tubo e sua seo transversal em
funo de seu comprimento. Mudar a freqncia da fonte de energia no muda as freqncias de
ressonncia do tubo que recebe a energia.
TEORIA FONTE-FILTRO DE PRODUO DE VOGAIS
Os conceitos introduzidos at agora podem ser resumidos na chamada teoria fonte-filtro (figura
2-5). Esta teoria, como aplicada na produo de vogais, afirma que a energia de sada (que foi chamada
em uma seo anterior de sinal da fala radiado) um produto da fonte de energia e do ressoador (ou
filtro). Essa teoria poderia ser chamada de uma maneira mais precisa de teoria linear fonte-filtro, por ser
baseada em um modelo matemtico linear. A questo da linearidade abre as portas para poderosas, apesar
de relativamente simples, operaes matemticas. No caso mais simples, a linearidade obtida quando a
funo entrada-sada de um sistema descrita por uma linha reta. Mais um adjetivo poderia ser includo
para descrever a teoria como teoria linear fonte-filtro invariante temporal. Invarincia temporal significa
que se a entrada do sistema avanada (ou atrasada) no tempo, a sada similarmente avanada (ou
atrasada). As questes de linearidade e invarincia temporal so comumente feitas em muitas aplicaes
da fsica e da engenharia, especialmente porque elas tornam o sistema em considerao matematicamente
tratvel.
conveniente pensarmos na fonte de energia na forma de um espectro. As pregas vocais em
vibrao produzem um espectro sonoro como o da figura 2-6. A energia se distribui em freqncias
discretas determinadas pela taxa de vibrao. O resultado chamado de espectro de linha, ou um espectro
em que a distribuio de energia toma a forma de linhas. O espectro de energia de vozeamento pode ser
idealizado como uma linha espectral em que as linhas individuais recaem em mltiplos inteiros da
freqncia vibratria fundamental (que sempre mais baixa). Por exemplo, a freqncia fundamental
mdia da voz masculina cerca de 120 Hz, e a energia deste espectro da fonte recair em freqncias de
120, 240, 360, 480 Hz, e assim por diante. Mas um homem pode produzir freqncias muito mais baixas
ou mais altas que este valor mdio. Se a freqncia fundamental masculina aumenta para 300 Hz, a
energia no espectro da fonte recair em freqncias de 300, 600, 900, 1200 Hz, e assim por diante. Os
mesmos princpios se aplicam para as vozes de mulheres e crianas. A freqncia fundamental mdia
feminina em torno de 230 Hz, de modo que a energia do espectro idealizado recair em freqncias de
230, 460, 690 Hz, e assim por diante. Essas mudanas na freqncia de vibrao para um dado falante so
apenas mudanas na fonte e no tem necessariamente efeito algum no ressoador ou filtro. Analogamente,
a amplitude da vibrao das pregas vocais pode ser mudada. Um falante pode produzir uma voz suave ou

alta. Tais mudanas s afetam o ressoador no sentido em que determinam o nvel de energia que o
ressoador receber. A relativa independncia da fonte e filtro torna possvel a produo de fala inteligvel
com uma variedade de fontes de energia, incluindo vozes baixas e altas, sussurradas, soprosas, e outros
tipos de variaes fonatrias.

Figura 2-5: Diagrama da teoria fonte-filtro para vogais. O espectro da fonte larngea, U(s), filtrado pela funo de
transferncia do trato vocal, T(s), e a caracterstica de radiao, R(s), para resultar no espectro de sada, P(s).
Matematicamente, P(s) um co-produto de U(s), T(s) e R(s), onde s = freqncia.

Figura 2-6: Espectro larngeo idealizado em que a energia localizada em freqncias discretas, as quais so mltiplos
inteiros da freqncia fundamental. As amplitudes dos harmnicos sucessivos decrescem com o aumento da freqncia.

Para estendermos o modelo fonte-filtro para a produo de todas as vogais (e eventualmente para
outros sons da fala tambm), necessrio fazermos algumas mudanas na terminologia. Primeiramente,
tipos diferentes de fontes esto envolvidos na produo da fala, mas neste momento estamos preocupados
apenas com um tipo de fonte a vibrao das pregas vocais. Chamaremos esta fonte de espectro
larngeo (domnio das freqncias) ou forma de onda larngea (domnio temporal). O espectro larngeo,
como discutido acima, pode ser idealizado como um espectro de linha. caracterstico do espectro
larngeo que a energia em seus componentes harmnicos (cada linha um harmnico da freqncia
fundamental) decaia com o aumento da freqncia. Este decaimento na energia dos harmnicos mais altos

mostrado na figura 2-6 e significa que a maioria da energia na fala vozeada est nas freqncias mais
baixas. A taxa de decaimento de energia de 12 dB por oitava, ou uma queda de energia de 12 dB a cada
duplicao da freqncia. Podemos dizer, ento, que o espectro larngeo pode ser visto como um espectro
de linha no qual a energia dos harmnicos decai com a freqncia em uma taxa de 12 dB/oitava. (Este
valor no dever ser tomado como uma constante absoluta para todos os falantes, pois ela pode diferir
entre homens e mulheres e entre falantes com qualidades diferentes de voz).
A prxima mudana terminolgica se aplica ao filtro. Em vez de nos referirmos a
ressonncias, vamos nos referir a formantes. Um formante um modo natural de vibrao (ressonncia)
do trato vocal. Teoreticamente h um nmero infinito de formantes, mas para propsitos prticos s
utilizaremos os trs ou quatro primeiros formantes mais baixos. Os formantes so identificados pelo
nmero do formante, por exemplo, F1, F2, F3, e F4, numerados em sucesso a partir das freqncias mais
baixas dos formantes. Cada formante pode ser descrito por duas caractersticas: freqncia central
(chamada comumente de a freqncia do formante) e largura de banda (largura de banda do
formante, que uma medida da largura da energia no domnio da freqncia, ou uma medida da taxa de
amortecimento no domnio temporal).
O termo formante usado diferentemente por autores distintos. Alguns se referem a formante
como um pico no espectro acstico. Neste uso, um formante uma caracterstica acstica que pode ou
no ser evidncia de uma ressonncia do trato vocal. Outros usam o termo formante para designar uma
ressonncia, mesmo que no sejam encontradas evidncias empricas para ela. Neste livro, formante ser
usado como sinnimo de ressonncia do trato vocal. Um formante freqentemente associado com um
pico no espectro acstico, mas no o necessariamente. Um dos objetivos da anlise acstica estimar a
estrutura formntica de um segmento sonoro.
Em conjunto, os formantes constituem a funo de transferncia do trato vocal. Uma funo
de transferncia a relao entrada-sada e uma forma de descrever a operao de um processo como a
filtragem. Por estar cada formante associado a um pico na funo de transferncia, cada formante
potencialmente associado a um pico no espectro de sada (ou espectro radiado). Segue-se, pois, que no
haver picos no espectro radiado, em uma dada regio formntica, se a fonte larngea no fornecer
energia na regio de freqncia correspondente posio do formante. Os formantes no fornecem
energia; eles apenas modificam a energia fornecida por uma fonte. Os formantes so determinados pelo
formato e comprimento do trato vocal, mas eles se tornam fisicamente evidentes apenas quando so
ativados por uma fonte de som como o vozeamento ou o sussurro.
O termo final a ser introduzido caracterstica de radiao. Este termo se refere a um efeito
de filtragem que surge quando sons escapam pela boca para se radiar no espao. Um engenheiro acstico
dir que o acoplamento acstico da boca com a atmosfera como um defletor1 infinito. Ou seja, o som
radiado se espalha por todas direes quando ele sai da boca. Este tipo de caracterstica de radiao age
como um filtro passa-alta (reduzindo mais as energias em freqncias baixas do que em altas). Uma
aproximao razovel a esse efeito assumir que o som de sada aumenta em frequncia em uma taxa de
6db/oitava. Por ser uma caracterstica constante, ela se combina s vezes com a queda de 12 dB/oitava no
espectro larngeo para dar uma resultante de -6dB/oitava. (A caracterstica de -12dB/oitava do espectro
larngeo e a caracterstica de +6dB/oitava da radiao freqentemente so tomadas como constantes na
teoria acstica da produo da fala).
A teoria fonte-filtro de produo de vogais resumida na figura 2-5 e na seguinte equao:
P(f) = U(f) T(f) R(f).
P(f) o espectro da presso sonora radiada. P representa a presso e (f) indica simplesmente
uma funo de freqncia. Lembremos, como vimos anteriormente, que a maioria dos microfones e
tambm o ouvido humano respondem a variaes de presso. Portanto, necessrio descrever o sinal de
sada da fala como uma forma de onda da presso sonora (no domnio temporal) ou um espectro da
1

Defletor, de acordo com Novo Dicionrio Aurlio, significa que, ou aquilo que faz defletir. Defletir, por sua vez : [Do
lat. deflectere] V.t.i. 1. Mudar a direo de movimento para um dos lados. 2. Mudar a posio ou o movimento natural;
desviar.

presso sonora (domnio das freqncias). Os trs termos no lado direito da equao se referem,
respectivamente, ao espectro da fonte larngea, funo de transferncia do trato vocal, e caracterstica
de radiao. O termo U se refere velocidade volumtrica e usado por que as pregas vocais agem como
uma fonte de pulsos de ar. A velocidade volumtrica anloga corrente de um circuito eltrico. T
representa a funo de transferncia, e R denota a caracterstica de radiao. Colocando a equao em
palavras, podemos dizer que a forma de onda da presso sonora radiada o produto do espectro larngeo,
a funo de transferncia do trato vocal, e a caracterstica de radiao.
Para o presente momento, consideraremos os termos U(f) e R(f) como constantes quando
vogais distintas so produzidas. Ou seja, as vogais diferentes sero descritas como variaes na funo de
transferncia, T(f), e no espectro radiado, P(f). Pelo fato de T(f) consistir dos formantes das vogais, a
discusso se reduz aos padres formnticos das diferentes vogais.
necessria aqui uma breve nota histrica. J demos crdito ao trabalho altamente influente
de Gunnar Fant, especialmente seu livro Acoustic Theory of Speech Production (1970). Outra importante
contribuio ao entendimento da acstica das vogais foi um livro publicado em 1946. Este livro, The
vowel: Its Nature and Strutucture, de Chiba & Kajima (1946), infelizmente no foi distribudo
largamente, devido a complicaes associadas com a guerra. Embora seja difcil de achar exemplares do
livro, sua influncia deve ser lembrada no atual entendimento da acstica da fala.
RELAES ACSTICO-ARTICULATRIAS PARA VOGAIS
Na figura 2-7 so apresentados raios X do trato vocal. , na realidade, o trato vocal de um
proeminente foneticista chamado Peter Ladefoged. Este tipo de imagem chamado de raios X lateral,
porque representa uma projeo de raios X do objeto a ser estudado de um lado ao outro. Estes raios X do
trato vocal correspondem anatomicamente seo sagital mdia, ou um plano que vai da parte anterior
da cabea at a parte posterior, cortando-a nas metades direita e esquerda. O trato vocal inteiro,
estendendo-se da laringe at os lbios, a cavidade de ressonncia da produo de vogais. Esta cavidade
pode ser descrita em termos de sua seo transversal em funo do comprimento. evidente que os raios
X da figura 2-7 fornecem apenas informao parcial, porque o trato vocal visto em apenas duas
dimenses. Uma determinao precisa da rea ao longo do trato vocal requer informao sobre a terceira
dimenso, a largura da cavidade ao longo de seu comprimento. Entretanto, por motivos de simplificao,
como a afirmao de o trato vocal ser essencialmente circular ao longo de sua extenso, podemos estimar
a rea do trato vocal para qualquer distncia ao longo de seu comprimento. O resultado dessa estimativa
esquematizado na figura 2-8a. O que fizemos foi determinar o formato tridimensional do trato vocal. Isto
equivalente a criar um molde para preencher o trato vocal com um material semilquido que
gradualmente se endurece, a fim de reter o formato do trato. Como notado previamente neste captulo, o
fato de o trato vocal ser curvado no de grande significncia para sua funo como um ressoador
acstico. Portanto, podemos tornar reto o modelo curvado do trato vocal da figura 2-8a para produzir a
verso da figura 2-8b.

Figura 2-7: Raios X laterais (vista lateral) do trato vocal. (Cortesia de Peter Ladefoged do Laboratrio de Fontica da
Universidade da Califrnia em Los Angeles.)

Os trabalhos descritos no pargrafo precedente so necessrios para se obter um modelo


acstico acurado da cavidade ressoadora do trato vocal humano. Mas, a ttulo de discusso, suficiente
representar o formato do trato vocal como um grfico de sua seo transversal em funo de seu
comprimento. Tal grfico exibido para quatro vogais na figura 2-9. Na confeco desses grficos
negligenciamos a terceira dimenso. Claramente, as configuraes do trato vocal para essas vogais tm
algumas regies relativamente constritas e outras regies que so bem expandidas. Por exemplo, a vogal
/i/ (como em beam) tem uma regio constrita perto da abertura labial, mas uma regio expandida perto da
laringe e da faringe. Em contraste, a vogal /A/ (como em bomb) tem uma regio constrita na poro
farngea do modelo, mas uma regio expandida perto da abertura labial. possvel calcular as freqncias
de ressonncia de tais configuraes usando frmulas da teoria acstica. Quando tais clculos so
realizados, os resultados geralmente se comparam aos formantes medidos das vogais humanas, sobre os
quais esses modelos so baseados. A semelhana entre as freqncias dos formantes dos modelos das
vogais com as freqncias das vogais humanas sendo modeladas evidncia da validade dessa
abordagem.

Figura 2-8: Derivao da funo de rea do trato vocal. (a) Determina-se o dimetro da seo transversal a fim de estimar a

variao da largura ao longo do trato vocal. O tubo curvado (b) pode ser tornado reto para formar o tubo em (c).

Figura 2-9: Configuraes do trato vocal e funes de rea (idealizadas) correspondentes para as quatro vogais /i/ de beam, /u/
de boom, /A/ de bomb, e /Q/ de bam. G = glote e L = lbios.

Figura 2-10: Espetros para as quatro vogais da figura 2-9. Os quatro picos em cada espectro refletem os formantes. Portanto, a
localizao da freqncia em cada pico uma estimativa das freqncias dos formantes. O eixo da freqncia representa uma
faixa de 0-4 kHz.

As mesmas quatro vogais so mostradas novamente na figura 2-10, mas desta vez com espectros
acsticos. Os picos espectrais representam os formantes voclicos. Notemos que as vogais altas /i/ e /u/
tm em comum uma freqncia relativamente baixa do primeiro formante (F1), enquanto que as vogais
baixas /a/ e /Q/ tm em comum uma freqncia relativamente alta deste formante. Ou seja, a freqncia
do primeiro formante varia inversamente com a altura da lngua da vogal. Em seguida, notemos que as
vogais posteriores /u/ e /a/ compartilham uma freqncia relativamente baixa do segundo formante (F2),
enquanto que as vogais anteriores /i/ e /Q/ tm uma freqncia relativamente alta para este formante. Ou
seja, a freqncia do segundo formante varia com a dimenso antero-posterior da articulao das vogais.
Este resultado aponta para uma correspondncia acstico-articulatria: as freqncias dos dois primeiros
formantes, F1 e F2, podem ser relacionadas a dimenses da articulao das vogais. A freqncia de F1
inversamente relacionada altura da lngua (ex., as vogais altas tm uma freqncia de F1 baixa), e a
freqncia de F2 relacionada ao avano da lngua (ex., a freqncia de F2 aumenta quando a posio da
lngua se move para frente).
Todas as vogais do ingls americano podem ser plotadas, como mostrado na figura 2-11, em
funo dos valores de F1 e F2. Notemos que, neste grfico de F1-F2, os eixos podem ser considerados
como tendo dois rtulos. O eixo F1 tem um rtulo articulatrio de altura da lngua, e o eixo F2 tem um
rtulo articulatrio de avano da lngua (ou posio anterior-posterior). Esses rtulos acsticoarticulatrios pareados so consistentes com a discusso do pargrafo precedente. Em geral, a freqncia
de F1 varia com a altura da lngua e a freqncia de F2 varia com o avano da lngua. Essa
correspondncia acstico-articulatria torna possvel fazer inferncias articulatrias de dados acsticos a

partir das freqncias dos formantes das vogais. Quando a freqncia de F1 diminui, usualmente seguro
concluir que a lngua se moveu para uma posio mais alta. Quando a freqncia de F2 aumenta,
usualmente seguro concluir que a lngua se moveu para uma posio mais anterior. Deve-se notar que
essa relao acstico-articulatria apenas aproximada, e outras relaes sero descritas posteriormente.
Os lbios tambm esto envolvidos na produo das vogais. A participao dos lbios
bastante simples para as vogais inglesas. O arredondamento dos lbios ocorre para algumas vogais
posteriores e centrais, como as vogais nas palavras who, hoe e her. As vogais anteriores no so
arredondadas em ingls. O efeito do arredondamento dos lbios abaixar todas as freqncias dos
formantes. A razo para isso segue do fato de as freqncias dos formantes dependerem do comprimento
do trato vocal. Quanto maior o comprimento, mais baixas sero as freqncias de formantes. Pelo fato de
o arredondamento dos lbios alongar o comprimento do trato vocal, as vogais arredondadas tendem a ter
freqncias de formantes abaixadas em comparao com as vogais no-arredondadas.

Figura 2-11: O clssico grfico de F1-F2 em que uma vogal representada acusticamente pelas suas freqncias de F1 e F2.
Os valores apresentados so de um sujeito masculino adulto mdio. Os smbolos fonmicos so posicionados de forma a
mostrar os valores de F1 e F2 para cada vogal. Os rtulos na figura sugerem uma relao acstico-articulatria. As vogais
baixas tm uma freqncia de F1 alta; as vogais altas tm uma freqncia de F1 baixa; as vogais anteriores tm uma freqncia
de F2 alta; e as vogais posteriores tm uma freqncia de F2 baixa.

TEORIA DA PERTURBAO
A teoria da perturbao permite a predio das mudanas das freqncias dos formantes
resultantes de perturbaes (constries locais) do ressoador de tubos. uma teoria poderosa na acstica
e particularmente importante para a acstica da produo da fala, pois pode explicar as freqncias dos
formantes dos sons voclicos. A teoria da perturbao discutida aqui como uma forma de determinar
como variaes no formato do trato vocal afetam os formantes voclicos. A discusso comea com as
freqncias dos formantes e, ento, prossegue com a determinao das amplitudes dos formantes.
Para observarmos como esta teoria se aplica produo de vogais, usaremos uma
representao do trato vocal atravs de um tubo, como vemos na figura 2-12. Este modelo de tubo j deve
ser bastante familiar neste momento. Tal tubo ter em cada uma de suas freqncias de ressonncia uma
distribuio de ondas estacionrias da velocidade volumtrica ou o inverso da velocidade volumtrica
presso. Basicamente, as variaes na velocidade volumtrica durante a ressonncia no tubo refletem o
modo como as partculas individuais vibram em vrias posies no tubo. Em certas posies, a vibrao
das partculas mxima (e a presso atinge o seu mnimo). Em outras posies, a vibrao das partculas

mnima (e a presso atinge o seu mximo). As regies onde as partculas vibram com amplitude mnima
so regies de mnimo de velocidade volumtrica, ou ns. As regies onde as partculas vibram com
amplitude mxima so regies de mximos de velocidade volumtrica, ou antins. caracterstico da
ressonncia de tubos que a velocidade volumtrica ou o seu inverso, a presso, tenha uma distribuio
estacionria ao longo da extenso do tubo. Por ter o tubo um nmero infinito de ressonncias, a
velocidade volumtrica ou a distribuio de presso podem ser descritas para cada ressonncia.
Restringiremos nossa discusso aos trs primeiros formantes das vogais. Alis, possvel verificar
experimentalmente essas distribuies de ondas estacionrias. O ganhador do prmio Nobel Georg von
Bksy (1960) demonstrou as variaes de presso dentro do trato vocal movendo vagarosamente um
mini-microfone dentro do mesmo enquanto um falante produzia uma vogal. A sada do microfone tinha
mximos e mnimos correspondentes s variaes de presso das ondas estacionrias.

Figura 2-12: Modelo de tubo reto do trato vocal para a produo de vogais.

Como podemos ver na figura 2-13, a primeira ressonncia tem uma distribuio de ondas
estacionrias com mximos de velocidade volumtrica, ou antins, no lado aberto (a abertura dos lbios
no trato vocal); e mnimos de velocidade volumtrica, ou ns, no lado fechado (a abertura glotal do trato
vocal). Para a segunda ressonncia, h dois mximos da velocidade volumtrica (antins) e dois mnimos
da velocidade volumtrica (ns). Para a terceira ressonncia, h trs mximos de velocidade volumtrica
e trs mnimos. Em outras palavras, cada formante, Fn, do trato vocal tem n ns e n antins (onde n um
inteiro).
Suponhamos que o ressoador de um tubo da figura 2-12 seja flexvel para que possa ser
comprimido em vrios pontos ao longo de sua extenso. Cada constrio local do tubo produzida pela
compresso uma perturbao, e o efeito da perturbao na freqncia do formante Fn depende de a
constrio ser prxima a um n ou a um antin. A relao geral a seguinte:
1. Uma constrio local do tubo perto de um mximo da velocidade volumtrica abaixa a freqncia
do formante.
2. Uma constrio local do tubo perto de um mnimo da velocidade volumtrica aumenta a
freqncia do formante.
Agora a figura 2-12 pode ser redesenhada, como mostrado na figura 2-14, para se parecer com o
trato vocal humano com ns e antins, localizados, respectivamente, pelos smbolos N e A. Os subscritos
N e A indicam o nmero do formante afetado pelos ns ou antins. Por exemplo, N1,2 um n, ou
mnimo da velocidade volumtrica, para os dois primeiros formantes F1 e F2. O efeito da constrio do
trato vocal o de mudar as freqncias dos formantes daqueles estipulados para a vogal neutra, de acordo
com as relaes que acabamos de descrever. Uma constrio no antin A tende a abaixar ambos
F1 e F2 (de fato, todas as freqncias dos formantes so abaixadas pela constrio labial). Uma constrio
no n B aumenta F2. Uma constrio no antin C abaixa F2. Consideremos como essas relaes se
aplicam a vogais individuais. A vogal [i] (he) tem uma constrio na regio palatal (perto do n B) e,
como conseqncia, uma freqncia de F2 alta. A vogal [A] (ha) tem uma constrio na regio farngea
(perto do antin C) e, como conseqncia, uma freqncia de F2 baixa. A vogal /u/ tem uma constrio
labial (perto do antin A) e, como conseqncia, ambas freqncias de F1 e F2 abaixadas. Dessa forma, a
teoria da perturbao permite uma predio dos efeitos da constrio do trato vocal nas freqncias do
formante para a configurao resultante.

Figura 2-13: Modelo de tubo reto do trato vocal mostrando a distribuio espacial da velocidade volumtrica para cada um dos
trs primeiros formantes. U indica uma velocidade volumtrica mxima.

Figura 2-14: Modelo do trato vocal mostrando os ns (N) e antins (A) para a distribuio da velocidade volumtrica (ou o
seu inverso, a distribuio de presso). Os subscritos indicam os nmeros dos formantes.

Como um modo final de mostrar as predies da teoria da perturbao, a figura 2-15 ilustra
como a localizao da constrio ao longo da extenso de um ressoador de um tubo afeta as freqncias
de F1, F2 e F3. Um sinal positivo indica que a constrio naquele ponto aumenta a freqncia do
formante e um sinal negativo indica que a constrio naquele ponto abaixa a freqncia do formante.
Notemos especificamente os seguintes efeitos:

1. Todas as trs freqncias dos formantes so abaixadas pela constrio labial.


2. Todas as trs freqncias dos formantes so aumentadas por uma constrio perto da laringe.
3. A curva de F2 tem uma regio negativa correspondente constrio da lngua para [A] e uma
regio positiva correspondente constrio da lngua para [i].
4. A curva para F3 tem regies negativas correspondentes a constries nos lbios, no palato e na
faringe. (Este resultado til para se entender as diferentes articulaes do [r] do ingls americano
(como em ray), que pode ser arredondado, s vezes produzido com uma constrio palatal, e s
vezes com uma constrio farngea todas essas trs constries so associadas com um
abaixamento de F3.)

Figura 2-15: Efeitos de perturbaes locais nas freqncias dos trs primeiros formantes, F1, F2 e F3. medida que a
perturbao se move ao longo do trato vocal,os formantes aumentam (+) ou diminuem (-) em freqncia, como mostrado para
cada formante.

A primeira concluso merece um comentrio adicional. Foi mencionado anteriormente que o


arredondamento dos lbios tende a abaixar todas as freqncias dos formantes, porque o arredondamento
usualmente aumenta o trato vocal. Mas alguns falantes conseguem um abaixamento das freqncias dos
formantes simplesmente fazendo constrio sem protruso nos lbios. Como isso possvel? Um exame
das figuras 2-13, 2-14 e 2-15 d a resposta: os lbios so mximos da velocidade volumtrica para cada
formante; portanto, uma constrio nesta regio abaixar todas as freqncias dos formantes. De fato, h
trs modos gerais em que um falante pode realizar um abaixamento de todas as freqncias: (1) fazer uma
protruso dos lbios para alongar o trato vocal, (2) constringir os lbios, e (3) abaixar a laringe, uma ao
que tambm aumenta o trato vocal.
AMPLITUDES DOS FORMANTES
Lembremos que o trato vocal, como todos os ressoadores em tubo, tem um nmero infinito de
freqncias de ressonncia. Mas, porque a maioria da energia larngea que ativa as ressonncias est em
freqncias abaixo de 5 kHz, a discusso usual dos formantes voclicos limitada aos quatro ou cinco
formantes mais baixos, F1, F2, F3, F4 e F5. Entretanto, os formantes mais altos no podem ser
negligenciados sem introduzir erros na anlise acstica do trato vocal. De acordo com Fant, podemos
considerar os formantes da produo de vogais em termos do grfico mostrado na figura 2-16. Cada um
dos quatro primeiros formantes apresentado como uma curva de ressonncia. Uma curva ascendente
simples pode representar as contribuies da fonte larngea, da radiao do trato vocal, e uma correo
dos formantes mais altos (que lida com formantes de freqncias mais altas que no so representados
individualmente). A sada acstica do trato vocal para a configurao dos formantes, mostrada na figura
2-16, pode ser determinada pela adio algbrica das curvas em separado. Ou seja, o espectro de sada em
uma freqncia, por ex., 1 kHz, a soma das magnitudes das curvas em separado naquela freqncia. Um

exemplo do resultado mostrado na figura 2-16.


O primeiro formante tipicamente o mais intenso, principalmente pela interao com as
amplitudes dos outros formantes. Uma forma de pensar sobre isso dizer que F1 caminha nas caudas das
freqncias baixas das outras curvas de formantes, de modo que F1 reforado em amplitude em
comparao com outros formantes. Julgamentos de altura da fala tendem a ser altamente correlacionados
com a amplitude de F1, o que no surpreendente dado que este formante tende a ser o mais forte.

Figura 2-16: Formantes decompostos (esquerda) e sua combinao em um espectro voclico radiado (direita).

Nota-se que o espectro voclico representado nas figuras 2-15 e 2-16 corresponde vogal neutra,
que tem um espaamento igual de suas freqncias de formantes. De acordo com a teoria da perturbao
descrita anteriormente, esta vogal neutra pode ser tomada como a configurao inicial na qual as
perturbaes locais (constries) so introduzidas. A teoria da perturbao prev a mudana nas
freqncias dos formantes que resulta de uma constrio local. A mudana das freqncias dos formantes,
em contrapartida, pode ser usada para prever mudanas nas amplitudes dos formantes. Em outras
palavras, as relaes de amplitude entre os formantes dependem de suas relaes de freqncia.
Os princpios gerais podem ser descritos de maneira bem simples:
1. Se a freqncia de F1 abaixa (aumenta), ento os formantes mais altos decrescem (aumentam) em
amplitude.
2. Se a freqncia F1 abaixa (aumenta), ento a amplitude de F1 abaixa (aumenta).
3. Se dois formantes so prximos em freqncia, ento ambos os picos aumentam em amplitude.
Esses princpios surgem diretamente das adies algbricas produzidas nas curvas de ressonncia,
como as da figura 2-17. Por exemplo, quando a freqncia de F1 abaixada, as amplitudes dos formantes
mais altos so reduzidas porque elas ento se ancoram em uma magnitude menor da curva de F1. Da
mesma maneira, o prprio F1 perder amplitude, porque ele ento se ancora em magnitudes mais baixas
de outras caudas de formantes. Tente imaginar as curvas de formantes separadas se movendo em relao
umas com as outras no domnio das freqncias e, ento, estime os efeitos desses movimentos na
amplitude do formante.
Vrios exemplos de relaes de amplitude para as vogais inglesas so mostrados na figura 217. A principal concluso que as relaes de amplitude dos formantes so determinadas pelas
freqncias dos formantes. A dependncia que as amplitudes de ressonncia tem das freqncias de
ressonncia caracterstica de ressoadores que esto conectados em srie (um aps o outro). A sada de
um ressoador a entrada para o prximo, de modo que eles interagem para determinar as amplitudes
relativas dos picos de ressonncia no espectro de sada.

Figura 2-17: Efeitos de mudanas selecionadas nas freqncias dos formantes nas relaes de amplitude dos formantes. A
linha slida em cada desenho representa a vogal neutra. (a) medida que a freqncia de F1 decresce, todas as amplitudes se
reduzem. (b) medida que as freqncias de F1 e F2 se aproximam, suas amplitudes aumentam. (c) medida que a
freqncia de F1 diminui e as freqncias de F2 e F3 se aproximam, h uma reduo global no espectro, mas um reforo
mtuo de F2 e F3. (d) medida que as freqncias de F1 e F2 diminuem, todos os formantes tendem a perder amplitude, mas
h um reforo mtuo de F1 e F2. (e) medida que a freqncia de F1 aumenta, todas as amplitudes aumentam.

TEORIA DOS TUBOS COMPONENTES


Abordagens de tubos componentes ou desacoplamentos assumem que o trato vocal
composto de vrios tubos diferentes, e que diferentes formantes podem ser identificados medida que
surgem de um desses tubos componentes. Por exemplo, a maioria das vogais pode ser modelada como
tendo cavidades anteriores e posteriores, e formantes especficos podem ser associados com uma cavidade
ou a outra, dependendo do formato das cavidades. Essa idia tm sido discutida por Fant (1960) e Stevens
(1998). Para determinar qual tubo componente afiliado com um formante especfico, necessrio
determinar as condies de fronteira para formatos, comprimentos e propores especficos de tubos no
trato vocal. Algumas regras gerais so:
1. Se um lado do tubo bastante estreito, a cavidade modelada como um tubo com um lado
fechado, que o desacopla do tubo adjacente, ou seja, constries radicais podem desacoplar um
tubo dos tubos em ambos os lados.
2. Se um lado do tubo bastante largo, a cavidade considerada acoplada aos tubos ao redor.
3. Se ambos os lados de um tubo tiverem constries estreitas, e se o quociente cavidade-paraconstrio for alto, ento o tubo pode ser modelado como um ressoador Helmholtz.
4. Se um tubo tem uma constrio posterior estreita e uma constrio anterior larga, a cavidade e a
constrio anterior podem ser modeladas como um tubo do quarto de comprimento de onda.
Combinaes diferentes de tubos so associadas com diferentes clculos de freqncias de
formantes. Para procedimentos matemticos, vejam Fant (1960) e Stevens (1998). Para os nossos
objetivos, suficiente fazer algumas observaes para as vogais, como segue.
Sob condies de fronteira apropriadas, um ressoador Helmholtz pode ser usado para modelar
tanto a cavidade anterior (o comprimento do tubo anterior constrio da lngua mais o orifcio da seo
dos lbios) quanto a posterior (o comprimento do tubo atrs da constrio da lngua). Por exemplo, no
caso da vogal [A], a freqncia de F1 , s vezes, considerada como uma ressonncia Helmholtz da
cavidade anterior.
Formantes podem ser associados com ressonncias de ondas estacionrias em qualquer tubo
terminado diferentemente em seus dois lados. Eles podem ser calculados como ressonncias do quarto de
comprimento de onda (nc/4l, onde l o comprimento da seo e n = 1, 3, 5, etc.). Formantes tambm
podem ser associados com qualquer tubo que tenha as mesmas condies de terminao em seus dois

lados. Eles podem ser calculados como ressonncias da metade do comprimento de onda (nc/2l, onde l
o comprimento da seo e n = 1, 2, 3, etc.).
Usando essas idias, Fant (1960) gerou nomogramas baseados em variaes nos trs
parmetros-controle de um modelo de quatro cavidades do trato vocal. Badin, Perrier, Boe & Abry (1990)
estenderam essa idia para identificar o que eles chamaram de pontos focais, ou regies em que as
convergncias de formantes ocorrem e onde as afiliaes das cavidades dos formantes so trocadas.
Badin e colegas notaram que as vogais cardinais extremas [i a u] so pontos focais.
Essa teoria tambm usada em algumas das seguintes abordagens da acstica de vogais.
DESCRIES PARAMTRICAS DA ARTICULAO DAS VOGAIS
Muitos esforos tm sido feitos para simplificar a descrio das configuraes do trato vocal
para as vogais em relao sua sada acstica. Stevens & House (1955) e Fant (1960) descreveram trs
modelos do trato vocal para vogais com trs parmetros, baseados em: (a) local da constrio, (b)
tamanho da constrio, e (c) quociente entre abertura da boca e extenso.
Na figura 2-18 esto ilustrados nomogramas que relacionam as trs primeiras freqncias de
formantes com os trs parmetros do modelo de Stevens & House. Essa simples descrio baseada em
trs parmetros capta informaes importantes sobre a articulao de vogais e prev bastante bem o sinal
acstico gerado por um dado formato do trato vocal.
Abordagens estatsticas tambm foram levadas ao problema de se obter descries
simplificadas da articulao de vogais (Harshman, Ladefoged & Goldstein, 1977; Liljencrants, 1971;
Maeda, 1990). Uma das mais poderosas dessas abordagens o uso de anlise fatorial para derivar um
conjunto pequeno de variveis mais importantes para se descrever a articulao das vogais. Geralmente,
estudos analticos fatoriais indicam que a articulao de vogais pode ser descrita com dois fatores da
lngua, um fator labial e, talvez, um fator mandibular.

Figura 2-18: Nomogramas relacionando os parmetros do modelo de articulao voclica de Stevens e House s freqncias
de sada dos formantes. As curvas mostram as freqncias dos trs primeiros formantes em funo de ro, do, e A/1. Em cada
seo, os dados so apresentados para um dado grau de constrio (ro) como indicado, com a abertura bucal (A/1) como
parmetro. Trs famlias de curvas correspondentes a F1, F2 e F3 esto plotadas em cada seo. A abscissa do, a distncia da
glote at o ponto de constrio. Reimpresso de K.N. Stevens & A.S. House, Development of a quantitative description of
vowel articulation, Journal of the Acoustical Society of America, 27, 1955, 484-493. (Reimpresso com a permisso do
Instituto Americano de Fsica.)

Outro modo de modelar a articulao de vogais representar os rgos articulatrios como blocos
funcionais controlados independentemente (Coker, 1976; Lindblom & Sundberg, 1971; Mermelstein,
1972; Rubin, Baer, & Mermelstein, 1981). O modelo desenvolvido por Mermelstein mostrado na figura
2-19. Um dos objetivos principais deste trabalho reduzir o nmero de graus de liberdade na modelagem
da articulao de vogais, comparado quele requerido para um modelo de tubo acstico do trato vocal,
que quantizado em sees de 0,5 ou 1,0 cm de extenso. Alm disso, tal modelo tem o potencial de
refletir as propriedades biomecnicas dos articuladores, simulando, portanto, o processo natural da fala.

Figura 2-19: Componentes de um modelo articulatrio para a produo da fala. J = mandbula, H = osso hiide, C = centro do
corpo da lngua, B = ponto onde a lmina ataca o corpo da lngua, T = ponta da lngua, U = lbio superior, L = lbio inferior, V
= vu palatino, R = regio farngea, e G = regio glotal (rea periaritenide). De acordo com Mermelstein, 1973.

INTERAO FONTE-TRATO PARA VOGAIS


At este ponto foi assumido que a vibrao das pregas vocais (a fonte de energia para vogais
vozeadas) independente do formato do trato vocal (o filtro). Essa afirmativa feita tipicamente para
simplificar a descrio da teoria fonte-filtro da produo da fala, e certamente uma primeira
aproximao til na compreenso de como as vogais so produzidas. Em termos tcnicos, as pregas
vocais so desenvolvidas para se comportar como uma fonte de alta impedncia (fluxo constante ou
corrente constante). Quando uma fonte tem alta impedncia, ela relativamente no afetada pela carga
(neste caso, o filtro do trato vocal) colocada nela.
Entretanto, uma vez que essa afirmao simplificada tenha servido seu propsito em uma
discusso introdutria, ela precisa ser descartada ou, pelo menos, modificada em favor de uma
compreenso mais realstica. Na realidade, as pregas vocais no so independentes do trato no qual a
energia de vozeamento propagada. Pelo contrrio, a carga do trato vocal pode afetar como as pregas
vocais vibram. Por exemplo, Titze e Story (1997) apontaram que a epilaringe (a poro estreita da faringe
localizada diretamente superior s pregas vocais) moldada de um jeito que ela aumenta as interaes
entre fonte e trato. Em outras (mais tcnicas) palavras, a impedncia de entrada do trato vocal bastante
diferente da impedncia glotal. Por que isso importa? Em primeiro lugar, significa que a vibrao vocal
pode ser sensvel a certas mudanas de forma no trato vocal. Em segundo lugar, parece que cantores
podem explorar essa interao fonte-trato para alcanar vrias qualidades vocais (Sundberg, 1974, 1977,
1987, 1991; Titze & Story, 1997).
LIMITAES E SUPOSIES
Modelos de processos naturais inevitavelmente introduzem simplificaes. Processos
naturais, mesmo comuns, esto repletos de complicaes e interaes, mas muitos desses podem ser
negligenciados para o propsito central da modelagem, e tambm para a teoria acstica da produo da
fala. Agora que as bases da teoria j foram discutidas para as vogais, apropriado tirar um momento para

notarmos algumas das complexidades intrnsecas produo real de vogais pelo trato vocal humano.
1. Os tecidos do trato vocal tanto absorvem quanto refletem a energia do som, mas o modelo
desenvolvido at aqui assume que o trato vocal um tubo de parede rgida. Uma conseqncia
dessa suposio que se subestima as perdas atribudas aos tecidos moles do trato vocal real.
Essas perdas levam a um aumento das larguras de banda dos formantes.
2. O trato vocal humano est quase sempre em constante mudana em suas propriedades
(caractersticas biomecnicas e de forma), mas a discusso at aqui assumia uma invarincia
temporal. O modelo de tubo simples negligencia as complexidades de variao temporais.
3. No trato vocal natural, algumas ondas sonoras se propagam longitudinalmente (da glote aos
lbios), mas outras ondas sonoras se propagam em modos transversais (de parede a parede em
seo transversa). A propagao longitudinal pertence a freqncias menores do que cerca de 5
kHz; a propagao transversa ocorre para freqncias mais altas. Os modelos desenvolvidos at
aqui no se aplicam com preciso a essas freqncias mais altas.
4. Na produo voclica de humanos, o trato vocal excitado pelas pregas vocais vibrando, que
produzem um acoplamento intermitente do trato vocal aos pulmes. O modelo acstico simplifica
a situao por assumir que a glote como um lado continuamente fechado de um tubo. Essa
suposio negligencia interaes entre o sistema respiratrio e o trato vocal. O sistema respiratrio
tem suas prprias ressonncias (Harper, Kraman, Pasterkamp & Wodicka, 2001), as quais so
ativadas pela vibrao das pregas vocais. Quando analisada em detalhes, a fala no possui apenas
ressonncias do trato vocal, mas tambm ressonncias associadas com a rvore traqueobronquial e
os pulmes.
5. Vogais naturais no so produzidas com uma fonte de voz verdadeiramente peridica e podem
envolver fluxos areos no laminares que resultam na gerao de rudo. O modelo assume uma
vibrao peridica das pregas vocais e negligencia a possibilidade de componentes de rudo.
6. O trato vocal humano uma passagem complexa que tm tanto curvatura quanto geometria
seccional transversal. O modelo assume uma aproximao de tubo reto, em que a rea seccional
transversal uma funo da distncia ao longo de seu comprimento.
7. O trato vocal de um falante radia a energia sonora para um ambiente acstico varivel. O modelo
assume uma placa defletora constante, que aproximada por uma caracterstica de radiao de +6
dB.
RESUMO DA TEORIA FONTE-FILTRO PARA VOGAIS
A vibrao quase peridica das pregas vocais produz a fonte de energia conhecida como
vozeamento. Esta fonte tem um espectro harmnico em que a energia dos componentes harmnicos cai,
grosso modo, na taxa de 12 dB/oitava. Esta energia ativa as ressonncias (formantes ou plos) do trato
vocal. As ressonncias agem como um filtro, de modo que a energia nos vrios harmnicos da fonte no
transmitida igualmente. Embora haja teoricamente um nmero infinito de formantes, lidaremos
principalmente com os trs primeiros, F1, F2, e F3. Uma razo que a energia da fonte (o espectro
larngeo) maior nas freqncias baixas que incluem esses trs primeiros formantes. Alm disso, esses
trs formantes so suficientes para lidar com a maioria das variaes fonticas para as vogais das lnguas
do mundo. Os formantes mais altos no podem ser negligenciados inteiramente, e seus efeitos so
tipicamente lidados em um termo geral chamado de correo dos formantes mais altos. Os formantes,
juntamente com a caracterstica de radiao, constituem a funo de transferncia do trato vocal. A
caracterstica de radiao um termo que lida com a forma como o trato vocal termina na atmosfera. Ela
pode ser aproximada como um aumento de 6 dB na energia espectral. A teoria fonte-filtro usualmente
introduzida com a suposio de que a vibrao das pregas vocais completamente independente da forma
do trato vocal; entretanto, essa suposio no se adequa completamente realidade.
FRICATIVAS

TURBULNCIA E O NMERO DE REYNOLDS


O modelo simplificado que utilizamos para vogais foi um tubo reto. O modelo para fricativas
correspondente um tubo com uma constrio severa (figura 2-20). A constrio funciona como um
esguicho. O ar que sai de uma constrio em um conduto forma um jato. Assim que o jato se mistura com
ar ao redor, gerada turbulncia. A turbulncia gerada com a gerao de vrtices que se formam no
fluxo da vizinhana da contrao e expanso do conduto. Os vrtices so elementos volumtricos do ar
que produzem rotaes, ou flutuaes de alta-freqncia, irregulares, em velocidade e presso, em um
certo ponto no espao. Para uma constrio ou obstruo de dimenses dadas, h uma velocidade de fluxo
crtica acima da qual um rudo turbulento gerado. A velocidade de fluxo crtica na qual a turbulncia
ocorre dada pelo nmero de Reynolds:
Re = vh/
onde v = velocidade de fluxo,
= coeficiente cinemtico de viscosidade (cerca de 0,15 cm2/s para o ar), e
h = dimenso caracterstica (para fluxo atravs de um orifcio, h est na ordem do dimetro do
orifcio)
Quando Re aumenta, uma regio inicial do fluxo laminar passar atravs de uma regio instvel e,
finalmente, atravs de uma condio de turbulncia plena.
Por ser o fluxo volumtrico, U (cm3/s), dado por
U = vA (A seo transversal)
o nmero de Reynolds pode ser calculado como
Re = Uh/A.
O fluxo volumtrico U depende do tamanho da constrio e da presso de excitao (presso subglotal),
Ps:
U = kA Ps (onde k = constante)
Ento
Re = Uh / A
= kA Ps h /A
= kh Ps /
A turbulncia a fonte de energia acstica para vrios sons da fala, incluindo fricativas, a
parte fricativa das africadas, e a exploso das oclusivas. As flutuaes aleatrias de presso do campo
turbulento geram som. As velocidades volumtricas para as consoantes fricativas ficam na faixa entre 100
e 1000 cm/s. O nmero de Reynolds crtico para o rudo da fala Re > 1800.

MODELO DE PRODUO DE RUDO TURBULENTO PARA FRICATIVAS

Figura 2-20: Modelo de produo de rudo turbulento para fricativas. O trato vocal tem uma constrio estreita em algum
ponto ao longo de sua extenso.

Shadle (1990) conclui, a partir de estudos de modelagem, que h no mnimo dois principais
modos pelos quais o som gerado para as consoantes fricativas. O primeiro foi chamado de fonte de
obstculo. Neste caso, o som gerado primariamente em um corpo rgido aproximadamente
perpendicular ao fluxo. Para a fricativa palatal /S/, os dentes inferiores parecem formar o obstculo. No
caso da fricativa alveolar /s/, o obstculo pode ser os dentes superiores. A fonte de obstculo pode ser
parecida com um spoiler em um conduto. Um spoiler uma obstruo, como uma batida na direo do
fluxo de ar. De acordo com Shadle, uma fonte de obstculo associada com uma amplitude mxima da
fonte para uma dada velocidade de fluxo, por um espectro relativamente plano que cai com a freqncia
aumentada, e por uma taxa mxima de mudana da presso do som com a velocidade volumtrica.
A segunda fonte de rudo uma fonte de parede, que se aplica a situaes em que o som
gerado ao longo de uma parede relativamente rgida que corre paralela ao fluxo. Exemplos deste tipo de
gerao de som so as fricativas no encontradas no ingls /x /. A fonte de parede associada com uma
amplitude alta da fonte (mas menos que o mximo) para uma dada velocidade de fluxo, por um espectro
que possui um pico amplo, e por uma taxa alta de mudana (mas no mxima) da presso de som com a
velocidade volumtrica. Shadle sugere que a fonte de parede realmente uma fonte distribuda, diferente
da fonte de obstculo, que pode ser modelada como uma fonte de presso em srie localizada no
obstculo.
Ladefoged & Maddieson (1986) propuseram que as fricativas podem ser de obstculo ou sem
obstculo. As fricativas com obstculo foram consideradas como estridentes (fricativas de alta
intensidade como [s]), e fricativas sem obstculo, como no-estridentes (fricativas de baixa intensidade
como [T]). Shadle (1990) previne contra a simplicidade aparente desta classificao, notando que muitos
fatores tm de ser considerados para se caracterizar as fontes sonoras. Ela aponta que pode haver um
contnuo da fonte de obstculo para a de parede, dado que o fator crtico o ngulo da configurao
relativo ao fluxo de ar.
MODELAGEM DA PRODUO DE FRICATIVAS
Os passos principais para se produzir um som fricativo so: (1) fazer uma constrio em
algum ponto do trato vocal, e (2) forar o ar em alta velocidade atravs da constrio. Note que essas
condies se relacionam com a frmula dada para o nmero de Reynold. Quando as condies fsicas so
satisfeitas, o fluxo turbulento gerado na vizinhana da constrio, e tambm nos dentes em alguns casos
(especificamente nos casos que Shadle, 1990, chamou de fontes de obstculo). O fluxo turbulento
caracterizado por vrtices de movimentao de partculas (figura 2-20) e a fonte do rudo turbulento.
Este rudo excita o tubo acstico que forma a constrio e tambm as cavidades anteriores constrio.
Sob certas condies, pode haver um acoplamento acstico das cavidades posteriores constrio, de
modo que essas cavidades tambm so excitadas. A figura 2-21 mostra uma configurao do trato vocal
para o som fricativo [s] e um modelo de duas cavidades para este som. O ponto perto da constrio na
configurao do trato vocal e no modelo de duas cavidades representa a localizao da fonte de rudo.
Na seguinte discusso, uma terminologia diferente ser introduzida, mas os conceitos so
basicamente os mesmos daqueles apresentados para as vogais. Os novos termos, plo e zero, sero

usados na discusso da funo de transferncia. O termo plo usado comumente na engenharia e na


fsica para denotar uma freqncia natural de um sistema. Neste livro, plo, formante e ressonncia so
essencialmente os mesmos conceitos, com a maior diferena sendo o fato de o termo formante se referir
especificamente aos plos ou ressonncias do trato vocal (i.e., formante um termo da fala). Um zero
um fenmeno que o inverso de um plo. Um plo ou ressonncia produz um reforo da energia
aplicada. Um zero causa uma perda da energia aplicada. Neste livro, os termos zero, anti-ressonncia e
antiformante so essencialmente equivalentes em significado, exceto pelo fato de o termo antiformante
ser restrito ao trato vocal, enquanto os outros termos tm uma aplicao mais geral em acstica e outros
campos.
Como as vogais, as fricativas podem ser descritas matematicamente em termos de uma funo
de transferncia. Para as fricativas, a funo
T(f) = [P(f) R(f) Z(f)],
onde T(f) a funo de transferncia,
f a freqncia,
P(f) uma funo que contm as freqncias naturais do trato vocal (plos ou formantes),
R(f) a caracterstica de radiao, e
Z(f) uma funo contendo os zeros (antiformantes), que ocorrem em freqncias nas quais a fonte
desacoplada das cavidades anteriores.

Figura 2-21: Modelo idealizado do trato vocal para a fricativa /s/. O modelo possui uma traquia, uma constrio larngea,
uma cavidade posterior, uma constrio articulatria, e uma cavidade anterior.

As funes P(f) e R(f) so as mesmas de um som voclico similar. Os plos so simplesmente as


freqncias de ressonncia (o que chamamos de formantes na discusso anterior sobre vogais). A funo
de plos P(f) para a fricativa aproximadamente a mesma de uma vogal produzida com um trato vocal
similar. Por serem os plos freqncias naturais do trato vocal, eles no dependem da localizao da fonte
de energia. A funo de radiao R(f) semelhante das vogais. At aqui, os conceitos no foram muito
diferentes dos apresentados para as vogais. Mas a funo Z(f) nova. Ela representa zeros. Zeros so
opostos efetivos dos plos; eles resultam em uma perda da transmisso de energia. Como plos ou
formantes, zeros tm uma freqncia central e uma largura de banda. Quando um plo e um zero tm
exatamente a mesma freqncia e largura de banda, eles se cancelam. Zeros so mais facilmente

entendidos em termos de impedncia, ou oposio transmisso sonora. Um engenheiro pode dizer que
zeros ocorrem em freqncias para as quais a impedncia do ponto de excitao do trato vocal, atrs da
fonte de rudo, infinita. Em outras palavras, a oposio de transmisso de energia atravs da cavidade
frontal to grande comparada da cavidade posterior que a energia curto-circuitada na cavidade
posterior. Outra forma de colocar isto que a cavidade posterior rouba toda a energia na regio de
freqncia do zero. Como resultado, o som no radiado na atmosfera.
O qu causa os zeros na produo da fala? Basicamente, eles surgem por duas razes: (1) o
trato vocal bifurcado, ou se divide em duas passagens (como uma passagem oral e uma nasal), ou (2) o
trato vocal radicalmente constrito em algum ponto. pela segunda razo que as fricativas envolvem
zeros em sua funo de transferncia.
Para o trato vocal mdio masculino, os plos ocorrem em uma mdia de separao de 1 kHz,
determinado pela extenso do trato vocal da glote at os lbios. Mas devido ao fato de a fonte de rudo
(constrio articulatria) estar usualmente atrs da abertura da boca, o espaamento mdio dos zeros
maior do que 1 kHz. Se uma longa constrio estreita formada perto da abertura da boca, alguns dos
plos e zeros tendem a se mover juntos, de modo que seus efeitos se cancelam. Lembremos que um plo
e um zero de mesma freqncia e largura de banda se cancelam.
Entretanto, o espaamento mdio dos zeros maior do que o dos plos, e portanto o
cancelamento no completo sobre a extenso de freqncia. Os plos e zeros tendem a se cancelar em
freqncias menores do que a freqncia para a qual a extenso da constrio um quarto do
comprimento de onda. Acima dessa freqncia est uma regio contendo mais plos do que zeros e na
qual os plos e zeros esto separados. Normalmente, o primeiro plo altamente amortecido e portanto
no afeta o espectro de sada em um grau demasiado forte. Outra forma de dizer as coisas que o
cancelamento ocorre porque o acoplamento entre a fonte e as cavidades posteriores pequeno. Portanto, a
influncia das cavidades posteriores pode ser negligenciada, e os zeros so determinados apenas pela
constrio. Essa regra se desfaz em certas condies, como quando a cavidade posterior tem um formato
afilado que vai na direo daquela constrio. Nesta condio, a cavidade posterior no desacoplada da
fonte.
O efeito da cavidade anterior altamente determinado por sua extenso (lf), como mostrado
na figura 2-21. Quando a cavidade anterior muito curta, como no casos das fricativas labiodentais [f v],
sua freqncia de ressonncia mais baixa alta demais para oferecer um formato aprecivel da energia do
rudo. Conseqentemente, o espectro para essas fricativas plano ou difuso, perdendo picos proeminentes
ou vales. Mas quando o ponto de articulao se move para trs na cavidade oral, a extenso da cavidade
frontal aumenta, e sua freqncia de ressonncia mais baixa diminui. No caso da fricativa [s], a
freqncia de ressonncia mais baixa cerca de 4 kHz para um homem. Este valor pode ser calculado da
afirmao de que a cavidade anterior para [s] tem cerca de 2 cm de extenso. Ento, usando a relao dos
mltiplos mpares do quarto de comprimento de onda, discutida no comeo deste captulo, a primeira
(mais baixa) ressonncia da cavidade anterior deve ser c/4l ou 35.000 cm/s dividido por 4x2 cm, ou cerca
de 4 kHz. O formato espectral para [s] tal que as regies proeminentes da energia de rudo contrasta
com regies de energia muito mais fracas. As relaes entre a articulao da fricativa e os espectros da
fricativa so mostradas, na figura 2-22, para fricativas labiodentais (ou bilabiais), linguodentais, linguoalveolares, e linguopalatais. A legenda para cada ilustrao descreve as relaes entre a configurao do
trato vocal e o padro espectral de cada som. Caractersticas espectrais adicionais sero descritas mais
amplamente em um captulo posterior.
Como notado anteriormente, h condies em que a cavidade posterior acoplada com a
cavidade anterior. Nesse caso as ressonncias da cavidade posterior no podem ser negligenciadas. A
cavidade posterior pode ser comparada a um tubo fechado em ambos os lados. Para este tipo de tubo as
ressonncias so dadas por
Fn = (n) (c/2l)
(ex.: c/2l, c/l, 3c/2l,...)

Figura 2-22: Relaes acstico-articulatrias para as quatro fricativas /f/ (fin), /T/ (thin), /s/ (sin), e /S/ (shin). O ponto indica o
lugar aproximado da fonte de rudo. A extenso da cavidade anterior um componente importante do formato ressoante do
rudo fricativo.

Se a cavidade posterior tem uma extenso de 10 cm, ento ela ter ressonncias de cerca de
1750 Hz, 3500 Hz, e assim por diante.
Ns vimos que fricativas podem ser modeladas como uma fonte de presso do tipo obstculo
ou de parede, que ativa as ressonncias e anti-ressonncias de um modelo simples de duas cavidades.
Quando as duas cavidades esto desacopladas, ento os efeitos maiores de filtragem so exercidos pela
cavidade anterior, que tem freqncias de ressonncia que podem ser aproximadas com as de um tubo
fechado em um lado e aberto no outro (i.e., a relao dos mltiplos mpares do quarto de comprimento de
onda, f n = (2n-1) c/ 4l). Quando as duas cavidades esto acopladas, como provvel de acontecer se a
constrio gradualmente afilada, ento a cavidade posterior tambm contribui com os efeitos de
filtragem. Esta cavidade pode ser modelada com um tubo fechado em ambos os lados, tendo portanto
freqncias de ressonncia em mltiplos inteiros de c/2l.
Embora as fricativas sejam sons relativamente complexos, parece que um modelo de filtro de
fonte linear bastante efetivo para lidar com as principais propriedades espectrais de fricativas estridentes
vozeadas e no vozeadas, sustentadas, abaixo de 10 kHz. Narayanan e Alwan (2000) chegaram a essa
concluso no desenvolvimento e no teste de um modelo de fonte hbrida para as consoantes fricativas.
Eles tambm notaram que o modelo baseado em princpios aerodinmicos poderia ser usado para a
sntese de fricativas.
NASAIS
Os sons nasais incluem as vogais nasalizadas e as consoantes nasais (/m/, /n/ e /N/ no ingls).
A propriedade articulatria essencial de um som nasal que a porta velofarngea se abre de forma que a
energia sonora pode passar tanto atravs da passagem nasal quanto da oral (para as vogais nasais), ou
atravs apenas da passagem nasal (para as consoantes nasais). Essas duas configuraes do trato vocal
podem ser modeladas de maneira bastante simples, como podemos ver na figura 2-23. Ambos os modelos
envolvem um ressoador com duas sadas acsticas (oral e nasal), significando um acoplamento entre eles
na porta velofarngea. No caso da vogal nasal, ambos os ressoadores se abrem para a atmosfera. No caso
da consoante nasal, o ressoador nasal est aberto para a atmosfera, enquanto o ressoador oral est
fechado.
Tanto para as vogais nasais quanto para as consoantes nasais, a funo de transferncia
consiste de plos e zeros. Como notado anteriormente, uma bifurcao ou diviso do sistema de
ressonncia introduz zeros na funo de transferncia. Os zeros interagem com plos de vrias formas
dependendo de suas freqncias e larguras de banda. Quando um plo ou zero tem exatamente as mesmas
freqncias e larguras de banda, eles se cancelam. Quando plos e zeros tm freqncias diferentes, eles
podem contribuir para um espectro que reflete sua mtua influncia. Geralmente, um pico espectral
reflete um plo e um vale profundo reflete um zero. Entretanto, esta generalizao tem excees e deve

ser usada somente como uma regra grosseira na interpretao de espectros para sons tendo plos e zeros
nas suas funes de transferncia.

Figura 2-23: Modelos simplificados do trato vocal para vogais nasalizadas e consoantes nasalizadas. Vogais nasalizadas tm
abertas as cavidades oral e nasal. Consoantes nasalizadas tm um fechamento oral B(ilabial); A(lveolar) e V(elar) e uma
cavidade nasal aberta.

Assim como as fricativas, as nasais podem ser entendidas em parte atravs da considerao do
espaamento mdio dos formantes e antiformantes. Foi discutido anteriormente que os formantes para os
sons orais, como as vogais, dependem da extenso do trato vocal da glote at os lbios, ou (lp + lo), que
tem um valor de cerca de 17,5 cm para os adultos masculinos. Para esta extenso do trato vocal, os
formantes tm um espaamento mdio de cerca de l kHz. Os formantes da cavidade nasal dependem da
extenso da cavidade que vai da vula at as narinas (ln na figura 2-24), que cerca de 12,5 cm nos
adultos masculinos. Esses formantes tm um espaamento mdio de c/2ln = 1400 Hz. Os antiformantes da
cavidade nasal tambm dependem na extenso da cavidade nasal e tm um espaamento mdio de c/2ln =
1400 Hz. Levando em conta em conjunto esses fenmenos de ressonncia, vemos que o sistema
combinado oral-nasal tem um conjunto de formantes orais, um conjunto de formantes nasais, e um
conjunto de antiformantes nasais. Fant descreveu as vogais nasalizadas como sendo vogais orais com
efeitos de nasalizao adicionados, agindo como uma distoro. Ou seja, os formantes nasais e
antiformantes so adicionados aos formantes orais da vogal no-nasal original para resultar em um
complexo espectro de sada. Detalhes adicionais sobre as diferenas entre vogais nasais e no-nasais sero
fornecidos mais tarde; suficiente aqui apontar simplesmente o modelo geral no qual a nasalizao pode
ser entendida.
Uma explicao de certa forma mais tcnica necessria para entendermos as freqncias dos
formantes e antiformantes dos sons nasais. Como vemos na figura 2-24, podemos considerar uma
configurao de trs cavidades para a consoante nasal: uma cavidade farngea, uma cavidade nasal, e uma
cavidade bucal. Cada cavidade pode ser associada com uma susceptncia, i.e., sua capacidade de gerar
energia. Susceptncia o recproco de reatncia, ou seja, oposio energia. Uma susceptncia interna
Bi definida como a soma da susceptncia farngea, Bp e a susceptncia nasal Bn. Os formantes ocorrem
quando Bi = -Bm (onde m = boca [mouth]). Nessas freqncias, a energia passada efetivamente atravs
do sistema e radiada para o lado de fora. Os antiformantes ocorrem quando Bm = (infinito). Nessas
freqncias, a cavidade bucal age como um curto-circuito, efetivamente capturando a energia e evitando
sua radiao atravs da cavidade nasal.
Ou seja, quando a cavidade oral fechada em algum ponto para uma consoante nasal, as
freqncias dos antiformantes so as freqncias em que a cavidade bucal curto-circuita a transmisso
atravs do nariz. A energia nessas freqncias no passa atravs da cavidade nasal. As nasais /m/, /n/ e
/N/ so caracterizadas, respectivamente, por posies de antiformantes baixa (750-1250 Hz), mdia
(1450-2200 Hz) e alta (acima de 3000 Hz). A regra geral que quando o ponto de articulao oral se
move posteriormente, a freqncia dos antiformantes aumenta. Um formante de baixa-freqncia, o
chamado formante nasal, ocorre em cerca de 250-300 Hz. Os formantes mais altos so densamente
agrupados, tm larguras de banda amplas e variam com o ponto de articulao. Para uma primeira
aproximao, os formantes ocorrem em cerca de 250, 1000, 2000, 3000 e 4000 Hz. Detalhes especficos

sobre as consoantes nasais sero apresentados no Captulo 5.

Figura 2-24: Ilustrao das principais dimenses que determinam a funo de transferncia para uma vogal nasalizada: ln a
extenso da cavidade nasal; lo a extenso da cavidade oral; e lp a extenso da cavidade farngea.

OCLUSIVAS
Na produo de uma oclusiva h um fechamento total do trato vocal e, dependendo de seu
contexto fontico, uma soltura do fechamento e um movimento em direo de outra configurao do trato
vocal. O fechamento associado com um silncio acstico (embora uma energia de vozeamento fraca
pode ser detectada se a oclusiva for vozeada). Durante o intervalo de fechamento, a presso do ar
acumulada na boca. Na soltura da constrio, a presso abruptamente solta. A evidncia acstica desta
soltura uma exploso ou transio. A exploso um segmento ruidoso similar ao segmento para uma
fricativa, mas muito mais breve. Por exemplo, a exploso para a oclusiva alveolar [t], como em tea,
similar verso breve do segmento fricativo para o [s] alveolar de sea. Particularmente, se a oclusiva for
seguida por um som voclico, a exploso seguida por outro intervalo acstico, a transio. Durante este
intervalo, o trato vocal ajustado do fechamento completo para outra configurao. A maioria das
mudanas na configurao do trato vocal feita em um intervalo de aproximadamente 50 ms. No caso de
uma oclusiva vozeada, este intervalo de transio caracterizado por um padro formntico de mudana
rpida. A natureza exata desta mudana ser discutida amplamente no Captulo 5.
Esses eventos na produo das oclusivas podem ser modelados, como mostrado na figura 225, como um fechamento do trato vocal, uma exploso e uma transio rpida configurao do som
seguinte. Algumas caractersticas acsticas dessas trs fases so:
1. Fechamento do trato vocal: O correlato acstico primrio o silncio, exceto para as oclusivas
vozeadas, para as quais a energia de vozeamento pode ser estender para parte ou para todo o
intervalo de fechamento. Quando o vozeamento est presente, ele associado com uma energia de
baixa freqncia nos harmnicos mais baixos da fonte de vozeamento, especialmente o
primeiro harmnico ou freqncia fundamental. Teoricamente, para um tubo de parede rgida, a
freqncia de F1 zero durante um perodo do fechamento do trato vocal. Mas, por no ser o trato
vocal realmente de parede rgida, a freqncia de F1 no atinge de fato zero, e sim um valor

prximo a zero. Conseqentemente, a freqncia de F1 associada com qualquer constrio severa


do trato vocal de muito baixa freqncia. Quando a constrio liberada, a freqncia de F1
aumenta a um valor apropriado para o som seguinte.
2. Exploso: O rudo de transio moldado espectralmente de acordo com as propriedades
ressonnticas do trato vocal. Em uma primeira aproximao, o rudo se parece com o de uma
fricativa homorgnica. Portanto, a exploso para [t] parecida com o rudo de [s]. Como ser
discutido no Captulo 6, o espectro da exploso reflete o ponto de articulao para a oclusiva.
3. Transio: Por ser o movimento articulatrio de uma oclusiva para outro som (como uma vogal)
usualmente completado em torno de 50 ms, a transio associada a um intervalo breve do padro
formntico, caracterizado pela mudana. A interpretao das mudanas de freqncia dos
formantes um tpico importante na fontica acstica e ser revisado no Captulo 5.

Figura 2-25: Eventos principais na produo das consoantes oclusivas: (1) intervalo de obstruo do trato vocal; (2) soltura da
obstruo do trato vocal; e (3) transio articulatria para o som seguinte.

AFRICADAS
As africadas so similares a oclusivas, pois tem uma produo de duas fases: (1) fechamento
do trato vocal seguido por (2) uma soltura ruidosa. Entretanto, as africadas tm um segmento fricativo
que intermedirio na durao entre a exploso para as oclusivas e o intervalo fricativo para as fricativas.
O diagrama na figura 2-25 se aplica, pois, tanto produo de africadas quanto de oclusivas. A teoria
bsica da produo de africadas uma modificao da apresentada para as oclusivas e fricativas. Ou seja,
uma africada pode ser modelada em duas fases, primeiro como uma oclusiva e depois como uma
fricativa.
LQUIDAS
As lquidas em ingls so a lateral /l/ e o rtico /r/. Elas combinam caractersticas de outros
sons discutidos at aqui. Ambos os sons so similares a vogais, pois possuem padres formnticos bem

definidos e uma energia de vozeamento. Elas so propriamente chamadas de soantes, porque a sua
produo tipicamente no associada com uma significante energia de rudo.
As consoantes rticas, como o /r/ ingls, so produzidas com um caracterstico abaixamento
da freqncia de F3. O /r/ em ingls , s vezes, descrito como tendo ou uma articulao com a lngua
em concha ou retroflexa, mas, na verdade, a articulao para este som pode ser bastante complexa
(Westbury, Hashi & Lindstrom, 1999). Pelo menos trs configuraes principais do fonema /r/ precisam
ser reconhecidas: (1) [r] com a ponta da lngua retroflexa, (2) [r] com a ponta da lngua em concha para
cima, e (3) [r] com a ponta da lngua em concha para baixo (Espy-Wilson et al., 2000). A acstica do /r/
foi modelada primariamente atravs da teoria da perturbao (Johnson, 1997) e de abordagens de
desacoplamento (Stevens, 1998; Alwan, Narayanan & Haker, 1999). Ao escolher entre essas duas
abordagens tericas, Espy-Wilson et al. (2000) concluiu que a abordagem de desacoplamento a
preferida. Eles no encontraram evidncias convincentes de que os falantes exploram pontos de
velocidade volumtrica mxima ao longo do trato vocal para realizar um abaixamento marcado da
freqncia de F3. Em vez disso, eles interpretaram os dados para mostrar que F3 uma ressonncia da
cavidade anterior. As evidncias que corroboram essa concluso so (1) a eliminao da constrio
farngea tem efeito mnimo em F3, e (2) o espao sublingual uma fator crucial na determinao de F3.
As consoantes laterais, como o /l/ ingls, tm formantes e antiformantes. So, portanto,
similares s consoantes nasais. As laterais usualmente envolvem uma diviso do trato vocal em duas
partes laterais. O /l/ produzido com uma constrio apical que permite o som se radiar atravs das
aberturas dos dois lados separados pela constrio. A bifurcao do trato vocal provoca a formao de
antiformantes. O /l/ acusticamente similar a nasais, pois tem uma energia acstica relativamente baixa
com uma concentrao predominantemente de baixa freqncia.
A lateral /l/ pode ser modelada bastante bem como uma articulao de duas cavidades
(anterior e posterior). O primeiro formante usualmente tem uma freqncia entre 250 e 500 Hz e pode ser
modelado como um ressoador Helmholtz. Perdas na constrio oral so considerveis e resultam em uma
largura de banda ampla do primeiro formante e uma reduo associada da amplitude espectral total. O
segundo formante pode ser associado a uma ressonncia da metade do comprimento de onda da cavidade
posterior. Para uma anlise detalhada, vejam Narayanan, Alwan e Haker (1997).

DITONGOS E GLIDES
Ditongos e glides (semivogais) so similares a vogais, diferindo principalmente na presena
de uma caracterstica dinmica, uma mudana na configurao do trato vocal. Quando a configurao
articulatria muda, muda o padro acstico. Os ditongos e glides so associados com uma estrutura
formntica em mudana gradual. A teoria acstica desenvolvida anteriormente para as vogais se aplica de
forma geral na complexo dinmico. Por exemplo, o ditongo /aI/ envolve uma srie de configuraes do
trato vocal, partindo do glide inicial [a] para o glide final [I].
TEORIAS NO-LINEARES: TEORIA DO CAOS E FRACTAIS
A teoria linear fonte-filtro dominou o entendimento da acstica da produo da fala pela
metade do ltimo sculo. Devemos entender que a teoria linear uma aproximao, mas que foi
notavelmente bem sucedida. Uma grande parte do progresso na anlise acstica e sntese de fala foi
baseada na teoria linear fonte-filtro. Mas no queremos dizer que a teoria linear fonte-filtro descrita neste
captulo seja suficiente para modelar todos os eventos acsticos da fala. Limitaes dessa teoria devem
ser avaliadas em vrias aplicaes. Uma limitao importante a afirmao da independncia entre fonte
e filtro. Na realidade, fonte e filtro interagem, e a natureza dessas interaes uma rea importante da
pesquisa atual. A linearidade tambm pode ser questionada para alguns fenmenos. Msculos e outros
tecidos so inerentemente no-lineares, de modo que na modelagem de suas propriedades biomecnicas,
solues no-lineares podem ser a regra. Tambm deve ser reconhecido que uma propagao

unidimensional (longitudinal) das ondas sonoras no trato vocal esperada para freqncias abaixo de 5
kHz. Em freqncias mais altas, vibraes em modo transversal podem ocorrer quando o comprimento de
onda se aproxima da dimenso transversal do trato vocal. Em um nvel mais fundamental, as teorias nolineares da produo do som so uma importante alternativa para o modelo terico padro que foi a mola
mestra da acstica da fala por vrias dcadas. Este livro apenas d uma breve pincelada nas teorias nolineares de produo da fala, que provavelmente aumentaro de importncia no apenas pela
compreenso terica da fala, mas tambm para o desenvolvimento de vrias ferramentas para anlise e
sntese da fala.
Teager & Teager (1990) dizem que a produo sonora no trato vocal no linear nem
passiva. De fato, eles afirmam que ela no nem mesmo acstica. Em sua viso, as fontes no-lineares de
produo do som foram negligenciadas na teoria linear padro. Os detalhes deste argumento fogem da
abordagem proposta para este livro. Basta dizer que os processos no-lineares de gerao de som so
pensados como o resultado da interao de fluxo laminar e fluxo turbilhonante no trato vocal. A nolineariedade tambm caracteriza as teorias mais novas do caos e fractais, que esto agora sendo aplicadas
a espectros de longo termo (Voss & Clark, 1975), irregularidades na vibrao das pregas vocais (Baken,
1990) e turbulncia (Frisch & Orszag, 1990; Narayanan & Alwan, 1995), e caracterizao total da fala
(Banbrook, McLaughlin & Mann, 1999; Sabanal & Nakagawa, 1996).
A teoria do caos difere da fsica clssica, pois a ltima se concentra em sistemas ordenados,
previsveis, mas a primeira lida com sistemas que tendem para a desorganizao. Um exemplo comum de
um sistema desordenado uma coluna de fumaa subindo em uma chamin. medida que a fumaa sobe
no ar, ela eventualmente se quebra em padres aparentemente irregulares, complexos. A teoria do caos
bem adequada para a anlise de sistemas dinmicos compostos de muitos elementos em movimento (ex.:
um fluxo de molculas de gua, um conjunto de partculas de fumaa subindo na atmosfera, um grupo de
planetas em rbita em torno do sol, e, talvez, a movimentao de partculas na produo da fala). Esses
sistemas dinmicos so tidos como determinsticos (com o significado de que eles seguem leis como a da
mecnica newtoniana), mas imprevisveis (e, portanto, caticos). Esses sistemas freqentemente exibem
elementos de ordem que podem ser observados em um grfico fase-espao (tambm conhecido como
plotagem de fase ou espao de estado do sistema), que um diagrama que mostra a relao de dois ou
mais traos fsicos, como a posio e a velocidade de um objeto em movimento. A ordem pode ser
identificada pelo aparecimento de uma estrutura de baixas dimenses, como um ponto, uma rbita ou
outro padro regular. Embora a presena dessas estruturas no grfico fase-espao no seja evidncia
suficiente para um processo catico, um primeiro passo para determinar se o caos est presente.
Anlises adicionais so levadas a cabo usando-se a dimenso de correlao (simbolizada como D2), que
representa uma propriedade escalar geomtrica. Uma baixa dimenso de correlao significa que a
distribuio dos pontos no grfico fase-espao pode ser descrita por um pequeno nmero de dimenses de
atratores, ou seja, um padro ostensivamente complexo pode, de fato, ser caracterizado bem
simplesmente. Para entender o conceito de um atrator, consideramos um fenmeno fsico comum, o
aquecimento da gua.
Imaginemos uma panela de gua colocada sobre um queimador de gs. Se a chama do gs for
ajustada para fornecer apenas uma pequena quantidade de aquecimento, a propagao do calor na gua
estar em uma estado chamado de regime de conduo. Neste estado, o calor conduzido atravs da
gua, que por si mesma permanece sem movimento. Podemos dizer que a gua est sendo aquecida
simplesmente tocando um dedo nela. Suponhamos que ajustemos a chama para fornecer um nvel mais
alto de aquecimento, o bastante para fazer com que a gua se movimente. A gua agora entrou em um
regime de conveco, caracterizado por uma ao de fervura. A transio da conduo para a conveco
um exemplo de bifurcao, ou mudana de estado. A quantidade de aquecimento um exemplo de um
parmetro de bifurcao. Freqentemente, uma pequena mudana no parmetro de bifurcao causa uma
mudana no regime do sistema sob observao. Essas mudanas no sistema so tipicamente descritas
como atratores, vejam a Figura 2-26 para exemplos de atratores. Os atratores representam estados
estveis de um sistema como vistos em um diagrama fase-espao. O sistema pode passar de um estado
para o outro assim que vrias condies mudam. Turbulncia um exemplo. Lembremos que o nmero
de Reynold pode ser usado para determinar a transio do fluxo laminar para turbulento. Quando

quaisquer das variveis que determinam o nmero de Reynold mudam, um fluido pode sofrer essa
transio. Tem-se mostrado que a transio caminha na direo de um estado do atrator.

Figura 2.26. Exemplos de atratores, como podem aparecer em um grfico fase-espao. A linha espessa representa o atrator
(um ponto em A, uma rbita elptica em B e uma figura mais complexa em formato de 8 em C). O sistema representado pela
linha no grfico fase-espao, que eventualmente converge para o atrator. Nesse sentido, o atrator um estado estvel do
sistema. De The speech sciences. A volume in the speech sciences (1a edio), de Kent, direitos autorais 1998. Reimpresso com
a permisso de Delmar, uma diviso da Thomson Learning.

J vimos que as dimenses dos atratores so teis para caracterizar a distribuio de pontos no
grfico fase-espao. Uma anlise adicional, exponentes de Lyapunov, realizada para determinar a
evoluo temporal das trajetrias no grfico fase-espao. Esses componentes expressam a divergncia ou
convergncia exponencial das trajetrias na direo de um atrator. Os exponentes de Lyapunov de valor
positivo so caractersticos do comportamento catico em um sistema dinmico.
Alguns aspectos da teoria do caos esto intimamente relacionados a fractais, e estes podem
tornar visvel a organizao que se oculta no caos. Muitas formas geomtricas complexas ocorrem
naturalmente. Consideremos os exemplos de rvores, flocos de neve, nuvens cmulo, linhas costeiras e
formaes de corais. Mandelbrot (1982) desenvolveu o conceito de fractais para se referir a formas
geomtricas complexas que podem parecer, em uma primeira observao, altamente complexas e no
homogneas. Quando uma estrutura fractal examinada com nveis aumentados de magnitude
(ampliando-se pedaos cada vez menores da estrutura), detalhes adicionais podem ser vistos. Entretanto, a
estrutura observada em escalas pequenas semelhante da escala maior. Em outras palavras, a estrutura
fractal tem um padro auto-semelhante em vrios nveis de magnitude, quase como se a estrutura inteira
fosse gerada de um padro bsico que repetido em vrios nveis do tamanho. Reconhecer o padro
invariante a chave da anlise de fractais. Um exemplo de geometria fractal a turbulncia no
movimento de fluidos, como discutido anteriormente neste captulo. Lembremos que turbulncia uma
condio em que o movimento do fluido se torna complexo, medida que numerosos vrtices (elementos
volumtricos do fluido, em rotao) se formam no padro de fluxo. O padro pode parecer desordenado e
sem estrutura. Entretanto, sob certas condies, esses padres contm uma certa ordem em que os fluxos
turbulentos so padres hierrquicos de vrtices de vrios tamanhos (Figura 2-27). No topo da hierarquia
esto os maiores vrtices gerados pelas foras que guiam o fluxo. Esses grandes vrtices so instveis por
si s e produzem vrtices adicionais, um tanto menores. Esses, em contrapartida, se tornam instveis e
produzem ainda menores vrtices. Esse processo de ramificaes continua at ser freado pela viscosidade
molecular, que impe um limite para a gerao de vrtices. O efeito de ramificao mltipla da formao
de vrtices chamado de efeito cascata.
Um fractal que especificamente interessante para a anlise de eventos acsticos como a fala
a transformada da ondaleta (wavelet). Uma ondaleta um pequeno pedao de uma forma de onda que
pode ser expandida ou comprimida. A idia da transformada da ondaleta que os padres acsticos
complexos podem ser analisados em ondaletas com vrios graus de expanso ou compresso. As
transformadas da ondaleta oferecem certas vantagens na anlise acstica, e provvel que elas sejam

cada vez mais aplicadas em vrios problemas na acstica da fala. Um pouco mais ser dito sobre essas
abordagens no captulo 3.

Figura 2-27. Uma ilustrao esquemtica da formao de vrtices no fluxo turbulento. Os elementos rotacionais parecem
como padres auto-semelhantes de tamanho progressivamente menor. Isso um exemplo da geometria fractal, em que um
padro auto-semelhante repetido em diferentes escalas. De The speech sciences. A volume in the speech sciences (1a edio),
de Kent, direitos autorais 1998. Reimpresso com a permisso de Delmar, uma diviso da Thomson Learning.

A teoria fonte-filtro linear tem sido uma teoria altamente produtiva, mas suas limitaes e
suposies devem ser cuidadosamente avaliadas para certas aplicaes. As teorias no-lineares podem ser
mais apropriadas a certos fenmenos e o desenvolvimento dessas teorias deve ser observado de perto.
RESUMO
O objetivo central deste captulo resumir uma importante teoria conhecida como teoria
linear fonte-filtro e invariante temporal. O ponto crucial desta teoria que os sons da fala podem ser
entendidos em termos de uma fonte de energia que filtrada pelo trato vocal. Esta idia mostrada na
Figura 2-28, que mostra o espectro da fonte larngea (com sua queda tpica de -12 dB/oitava em energia),
os formantes (funo de transferncia do trato vocal), a caracterstica de radiao (+6 dB/oitava), e o
espectro de sada com picos conspcuos correspondendo aos formantes F1, F2 e F3. Um entendimento da
teoria acstica da produo da fala prepara o terreno para uma discusso da anlise acstica. Saber os
modos pelos quais os sons da fala so formados ajuda a determinar uma metodologia apropriada de
anlise. Por exemplo, se um segmento voclico adequadamente caracterizado em termos de seus
padres formnticos, ento a tarefa de anlise determinar as freqncias e larguras de banda dos
principais formantes para aquele segmento. Entretanto, se o padro formntico no for uma caracterizao
suficiente, ento alguns outros meios de anlise espectral so requeridos para lidar com a acstica de
vogais. A teoria acstica tambm ajuda a relacionar medidas acsticas para um segmento sonoro
articulao subjacente daquele segmento. Um simples exemplo a separao entre a energia da fonte e a
ressonncia. O objetivo relacionar uma propriedade acstica especfica com um correlato articulatrio.
Nesse sentido, a teoria acstica da produo da fala primordial anlise da fala. Certamente, pode-se
fazer medidas acsticas da fala sem saber teoria, mas a interpretao dessas medidas ser, no mnimo,
limitada. Idealmente, medies e teoria esto intimamente relacionadas.

Figura 2-28. Resumo diagramtico da teoria fonte-filtro da produo da fala. De The speech sciences. A volume in the speech
sciences (1a edio), de Kent, direitos autorais 1998. Reimpresso com a permisso de Delmar, uma diviso da Thomson
Learning.

CAP 3: Introduo Anlise Acstica da Fala


Este captulo introduz as tcnicas bsicas para gravao e anlise acstica da fala, comeando com
mtodos analgicos antigos (no-digitais) e terminando com uma discusso de tcnicas de processamento
digital de sinais (DSP, na sigla em ingls). O objetivo principal apresentar o progresso que tem sido
feito na rea.

Uma Breve Histria da Anlise Acstica da Fala


A fora dos mtodos computacionais modernos na anlise da fala pode ser apreciada atravs de uma
breve descrio histrica das anlises acsticas. Essa reviso histrica pode comear bem antes do sculo
XX, mas, para os nosso propsitos, suficiente comear nas dcadas de 1930 e 1940. A figura 3-1
resume o desenvolvimento dessa poca at os dias atuais.
Figura 3-1. Alguns desenvolvimentos histricos da anlise acstica da fala. A data aproximada de cada desenvolvimento
anotada.

O Oscilograma
O primeiro maior avano na anlise acstica da fala comeou com oscilogramas (formas de onda ou

grficos de amplitude em funo do tempo) das ondas sonoras. Os sons selecionados para anlise eram
freqentemente vogais, pois eram relativamente mais fceis de analisar do que a maioria das consoantes.
Os sons a serem analisados eram representados oscilograficamente como variaes de presso em funo
do tempo. Esse primeiro passo foi um avano importante. Devido ao fato de os sons da fala serem eventos
acsticos dissipveis, de durao relativamente curta, represent-los de maneira permanente um desafio
tcnico. Com o desenvolvimento de oscilgrafos baseados em galvanmetros de corda, tornou-se
possvel derivar formas de onda bastante precisas de vogais sustentadas. As formas de onda indicavam
certas regularidades nesses sons, mas no eram suficientes em si para descrever algumas das diferenas
importantes entre vogais diferentes. A observao dessas diferenas solicitou a gerao de representaes
espectrais, i.e., plotagens da energia do sinal em funo da freqncia.

O Analisador Henrici
A vantagem da anlise espectral para estudar a fala semelhante vantagem da anlise espectral para se
estudar a luz. Na anlise tica, a luz decomposta em componentes de diferentes comprimentos de onda.
Na anlise acstica da fala, o som decomposto em componentes de diferentes freqncias. A anlise
uma questo de decomposio ou quebra de um padro sonoro complexo em constituintes mais simples.
Uma das primeiras ferramentas para anlise espectral foi o Analisador Henrici, um dispositivo mecnico
composto de cinco unidades integradas rolantes (esferas de vidro). O procedimento da anlise era o
seguinte:
3. Obter o oscilograma da forma de onda.
4. Selecionar uma parte representativa, tipicamente no meio da onda, e ampli-la com um projetor.
5. Traar a ampliao em uma superfcie lisa branca.
6. Traar a forma de onda ampliada com o Analisador Henrici.
7. Calcular os valores das relaes de fase e amplitude das leituras do disco associadas com as
esferas de vidro.
8. Plotar a presso (em dB) em funo da freqncia para obter anlises espectrais (harmnicas).
Como o operador traava a forma de onda com o analisador, cada esfera integrava um diferente
componente ou parcial da onda. Com cada traado, cinco componentes harmnicos podiam ser
determinados. Esse procedimento desempenha uma anlise harmnica, i.e., procura componentes da
freqncia no sinal de fala complexo em mltiplos inteiros da freqncia fundamental (a mais baixa).
Esse mtodo assume que a fala verdadeiramente peridica, como o som de uma corda de violo
vibrando. Entretanto, a fala apenas quase-peridica. As freqncias que a compe no so
necessariamente mltiplas da fundamental. Como resultado, o Analisador de Henrici resultou em um
quadro impreciso da distribuio de energia dos sons da fala. Em acrscimo, o procedimento de anlise
era tedioso, pois o usurio tinha que traar mo as formas de onda e ler os valores representativos dos
componentes da freqncia. No entanto, o Analisador Henrici teve um papel significante no
desenvolvimento da compreenso moderna da acstica da fala. Ele prenunciou a abordagem geral da
anlise espectral da fala. Alm disso, os dados obtidos atravs dessa tcnica contriburam para idias
sobre concentraes de energias distintivas em sons voclicos. Atravs de trabalho cuidado e diligente, os
usurios deste dispositivo foram capazes de obter princpios fundamentais da forma de onda da fala.

Anlise de Banco de Filtros


Outra abordagem na anlise da fala foi a filtragem. Um filtro um sistema de transmisso selecionador de
freqncias, i.e., um filtro passar energia em certas freqncias, mas no em outras. Um filtro como
uma janela acstica que permite que alguma energia passe enquanto bloqueia outras. A figura 3-2 mostra
a aplicao de um banco de filtros na anlise da fala. A energia do sinal efetivamente dividida em
bandas de freqncia pelo banco de filtros. Cada filtro passa apenas a energia em sua banda de
freqncia. Dispositivos indicadores na sada de cada filtro podem ser usados na visualizao de energia
em regies especficas de freqncia. Analogamente, uma srie de telas de tamanhos diferentes de malha
pode ser usada para separar tamanhos de partcula em uma pilha de cascalho. Apenas os menores pedaos
passaro atravs de uma peneira com a malha mais fina, ento pedaos levemente maiores passaro em
uma malha levemente mais grossa, e, assim, continuamente, at que a pilha tenha sido dividida em vrias
pilhas menores de acordo com o tamanho das partculas. Detalhes sobre esses filtros sero discutidos mais
tarde neste captulo. Agora, suficiente dizer que um filtro permite uma observao seletiva da energia
em vrias regies de freqncia. De forma semelhante a um prisma que divide a luz em diferentes
comprimentos de onda, os filtros podem dividir os sons em diferentes componentes de freqncia.
Figura 3-2. Diagrama esquemtico de um banco de filtros para anlise acstica. Os filtros numerados de 1 a 8 passam,
sucessivamente, bandas de freqncia mais altas. Dispositivos indicativos na sada de cada filtro mostram a energia presente
em cada banda.

Devido ao fato de um filtro determinar a quantidade de energia em regies especficas de freqncia,


obtm-se um tipo de anlise espectral. O detalhe da anlise depende do nmero de filtros usados e das
respectivas larguras de banda. A largura de banda de um filtro a regio de freqncias em que se passa
energia. Por exemplo, um filtro centrado em 100 Hz com uma largura de banda de 10 Hz somente
passar energia entre 95 Hz e 105 Hz (105 95 = 10 Hz). Usualmente, larguras de banda muito maiores
sero usadas, de modo que a inteira extenso de freqncia desejada (digamos, 0-5 kHz) possa ser
analisada com menos de 25 filtros. Usando uma largura de banda de filtro de 500 Hz para todos os filtros,
uma extenso de 5 kHz pode ser analisada com 10 filtros. A figura 3-3 mostra como este arranjo de filtros
poderia analisar diferentes vogais produzidas por falantes adultos masculinos. Na figura 3-3, comeamos
a notar as diferenas reais entre os sons da fala: a freqncia dos componentes mais fortes que constituem
o complexo som da fala. Diferentemente do Analisador de Henrici, um banco de filtros no toma como
pressuposto que esses componentes so mltiplos da fundamental. Assim, ganha-se uma aplicao mais
ampla para os sons da fala, incluindo rudos.
Figura 3-3. Sada hipottica de um banco de filtros simples quando as trs vogais /i/ (he), /a/ (ha) e /u/ (who) so apresentadas
como entrada. Cada vogal tem bandas distintivas de energia.

Um melhoramento prtico para o banco de filtros um filtro passa-bandas varivel (figura 3-4). A idia
usar um filtro ajustvel que pode agir como qualquer dos filtros mostrados na figura 3-3. O sinal a ser
analisado alimentado repetitivamente atravs de um filtro passa-bandas varivel assim que suas
configuraes so ajustadas para diferentes regies de freqncias. Na prtica, mais fcil modular uma
freqncia veculo varivel com o sinal a ser analisado e usar um filtro fixo para anlise (processo
chamado de heterodinagem). Nesse caso, o filtro no ajustado, e o sinal efetivamente varrido para ele.
Figura 3-4. Anlise acstica usando um filtro passa-bandas varivel. O filtro arrastado para o sinal de entrada para indicar a
energia em vrias freqncias.

O Espectrgrafo
O filtro passa-bandas varivel foi incorporado no espectrgrafo do som, uma mquina desenvolvida na
dcada de 1940. O espectrgrafo forneceu grandes vantagens para o estudo da fala. Devido ao fato de ter
proporcionado uma anlise relativamente rpida, o espectrgrafo tornou possvel para os cientistas colher
uma quantidade maior de dados. Como resultado, a amostragem de dados entre sujeitos tornou-se mais
comum. Nas tcnicas de anlise anteriores, os dados eram usualmente obtidos com um nmero bem
pequeno de falantes, freqentemente um. O espectrgrafo tambm forneceu uma delineao maior das
concentraes de energia da fala. Finalmente, o espectrgrafo produziu um espectro contnuo de curto
termo, possibilitando aos cientistas visualizar como concentraes de energia mudavam ao longo do
tempo. A visualizao do espectro contnuo de curto termo chamada de espectrograma. Por causa do
forte impacto que o espectrgrafo teve na pesquisa da fala, importante que conheamos suas
caractersticas essenciais. As mesmas sero brevemente revistas abaixo. A anlise espectrogrfica de
vrios tipos de sons da fala ser discutida em detalhe nos prximos captulos.
Figura 3-5. Fotografia de um espectrgrafo do som produzido na dcada de 1980. Cortesia de Kay Elemetrics Corporation.
Figura 3-6. Desenho esquemtico dos componentes de um espectrgrafo do som convencional.

Uma fotografia de um espectrgrafo mostrada na Figura 3-5. J sua operao bsica ilustrada na
Figura 3-6. O sinal para anlise gravado em um tambor magntico que permite ouvir o sinal
continuamente repetidas vezes. O tambor magntico pode ser comparado a um loop de fita. O sinal ento
modula (multiplica) uma freqncia-veculo varivel em um processo chamado heterodinagem (como
mencionado anteriormente na referncia a anlise de filtro). mais prtico varrer o sinal para anlise
atravs de um filtro fixo do que analis-lo com um filtro varivel. por essa razo que heterodinagem
usado. O resultado final o mesmo como se o sinal fosse tocado continuamente atravs de um filtro
ajustado continuamente para agir como um banco de filtros. Na espectrografia convencional, duas
larguras de banda de filtro foram usadas. O filtro de banda larga tem uma largura de banda para anlise de
300 Hz. J o filtro de banda estreita tem uma largura de banda para anlise de 45 Hz. Alguns
espectrgrafos tm outras selees de largura de banda, como 90 Hz e 600 Hz. A seleo da largura de
banda para anlise discutida em outra seo.
A sada do filtro para anlise alimentada por um amplificador marcador que fornece um aumento na
corrente. Em qualquer regio de freqncia na anlise, a corrente do amplificador marcador
proporcional energia acstica do sinal. A corrente flui atravs de uma agulha que se apoia, em contato
prximo, a um pedao de papel especial que enrolado em torno do tambor do espectrgrafo. medida
que o tambor e o papel anexo rodam, a agulha gradualmente se move para cima no tambor, coordenandose com a freqncia de anlise. A coordenao alcanada por uma ligao mecnica entre a agulha em
movimento e um oscilador varivel. Dessa forma, a posio vertical da agulha associada com uma
freqncia particular de anlise. O fundo da viagem da agulha a freqncia mais baixa (em torno de 80
Hz) e o topo da viagem da agulha a freqncia mais alta (em torno de 8 kHz).
A corrente que flui atravs da agulha queima o papel especial, medida que vira no tambor para produzir
uma regio enegrecida. O papel tratado para que a queima seja limitada em extenso. Assim, o papel
tostado localmente, medida que a corrente passa atravs dele. Portanto, a negritude do papel
corresponde energia naquele ponto da anlise. Embora a queima controlada para produo de um
padro possa soar rude comparada s visualizaes modernas de alta tecnologia, a idia foi bastante
engenhosa. A queima realiza duas operaes essenciais: (1) retificao do sinal eltrico, de que modo que

ambas partes negativas e positivas da forma de onda sejam representadas na anlise, e (2) uma filtragem
passa-baixas (suavizao). O processo de queima produz um odor raramente descrito como fragrante e
uma acumulao de uma fuligem negra fina na rea de trabalho. Entretanto, espectrogramas de alta
qualidade eram gerados.
O processo completo, da gravao anlise, envolve estes passos:
5. A amostra de fala transduzida por um microfone, de modo que as variaes da presso do ar do
sinal acstico so colocadas na forma de variaes de voltagem.
6. O sinal eltrico ento convertido para um sinal eletromagntico para armazenamento no tambor
magntico do espectrgrafo.
7. O padro magntico armazenado convertido de volta em sinal eltrico para anlise como um
espectrograma.
8. O sinal filtrado, de modo que a energia em vrias regies de freqncia possam ser
determinadas.
9. A corrente do sinal eltrico amplificada e alimentada para uma agulha marcadora.
10. medida que a corrente flui da agulha atravs de um papel especialmente tratado, ocorre uma
queima localizada do papel. A queima produz um enegrecimento do papel proporcionalmente
corrente que flui atravs da agulha.
Uma amostra do produto final, o espectrograma, aparece na Figura 3-7. O espectrograma convencional
uma visualizao tridimensional de tempo, freqncia e intensidade. O tempo aparece no eixo horizontal,
da esquerda para a direita. A freqncia plotada no eixo vertical, aumentando do fundo ao topo. A
intensidade representada pela negritude do padro (a chamada escala cinza). A Figura 3-8 mostra
espectrogramas de trs sinais acsticos simples. Na parte A est representado o espectrograma de uma
senide (tom puro). Devido ao fato de a senide conter energia em uma freqncia nica, o
espectrograma mostra uma nica banda estreita correndo horizontalmente. O local dessa banda na eixo de
freqncia (vertical) indica a freqncia da senide. Na parte B est ilustrado o espectrograma de um
rudo de assovio. Devido ao fato de o rudo conter componentes de freqncia em muitas freqncias
diferentes, a maior parte do espectrograma escurecida de alguma forma. Prximo do ponto mdio do
eixo temporal (horizontal), o escurecimento total aumenta, correspondendo a um aumento na intensidade
total da energia do rudo. Na parte C mostrado um espectrograma para um rudo feito por batidas em
cima de uma mesa. Cada batida um evento acstico breve (transiente) possuindo energia em uma
extenso bastante ampla de freqncias. Note que cada batida representada distintamente no
espectrograma. Os trs espectrogramas da Figura 3-8 mostram a utilidade dessa forma de anlise para
determinar como os sinais acsticos variam no tempo, composio de freqncia e intensidade.
Figura 3-7. Espectrograma-amostra do enunciado, The sunlight strikes raindrops in the air. Uma transcrio fontica do
enunciado aparece na parte inferior do espectrograma.
Figura 3-8. Espectrogramas-amostra e formas de onda correspondentes para trs tipos de sons: (A) uma senide ou tom puro
com uma freqncia de 4 kHz; (B) um rudo gerado por computador; e (C) toques de dedo no topo de uma mesa.
Figura 3-9. Um espectrograma do sintagma, best way, com pontos etiquetados correspondentes discusso no texto.

A fala consiste de uma variedade de sons. As variaes nas propriedades acsticas podem ocorrer bem
rapidamente e por essa razo que um espectro contnuo uma forma desejvel de visualizao e anlise.
O espectrograma mostra como a energia espectral muda sobre intervalos relativamente breves de tempo.
Os detalhes dessa anlise sero considerados nos Captulos 4 e 5, mas apropriado darmos uma breve
olhada na forma em que um espectrograma revela as caractersticas acsticas de alguns sons da fala.
Amostras de espectrogramas so mostradas na Figura 3-9. O espectrograma pode retratar a energia bem
breve associada com a soltura explosiva de ar em uma consoante oclusiva (o ponto A na Figura 3-9), mas
o espectrograma tambm mostra as bandas de energia proeminentes e freqentemente extensas que
tipificam as produes voclicas (ponto B). Quando no se produz som, como no fechamento oral de uma
consoante oclusiva, o espectrograma mostra o silncio (ponto C). Quando o trato vocal muda sua
configurao durante um ditongo, o espectrograma representa a correspondente mudana acstica (ponto
D). O espectrograma continha uma grande quantidade de informao acstica e, assim, tornou-se
rapidamente o padro para anlise acstica, apesar de certas limitaes que sero consideradas em uma
outra seo. Espectrogramas continuam a ser teis como uma forma fundamental de anlise da fala,
embora espectrogramas contemporneos sejam gerados por computadores em vez do dispositivo
mostrado esquematicamente na Figura 3-6.

Processamento Digital do Sinal da Fala


A dominncia da espectrografia antiga somente foi seriamente ameaada com a introduo dos
computadores digitais. A ameaa foi intensificada com o refinamento contnuo dos computadores
(hardware) e programas de anlise (software). Alguns dos desenvolvimentos no uso de computadores
digitais so mostrados na Figura 3-10. Esses desenvolvimentos sero apresentados mais tarde neste
captulo e em captulos subseqentes. Uma vez que o sinal da fala foi posto em uma forma adequada para
armazenamento e anlise em um computador, vrias operaes diferentes puderam ser realizadas (Read,
Buder & Kent, 1990, 1992). A forma de onda pode ser mostrada, medida e at editada (por exemplo,
deletar uma parte e conectar pedaos remanescentes para formar um som inteiramente novo). Espectros
podem ser computados usando mtodos como Transformada Rpida de Fourier (FFT, na sigla em ingls),
Cepstro, Codificao Preditiva Linear (LPC, na sigla em ingls) e filtragem. mister dizer que
algoritmos para essas anlises revolucionaram a anlise acstica da fala. Alm disso, essas anlises so
importantes para muitas aplicaes em fsica, engenharia e biologia. Devido a seus usos diversos e
poderosos, o FFT foi chamado o mais importante algoritmo numrico de nossa vida inteira (Strang,
1994). O objetivo de detectar a composio espectral de um sinal comum a muitas aplicaes da
engenharia e da cincia.
Figura 3-10. Alguns desenvolvimentos no uso dos mtodos digitais para a anlise da fala. Esses tpicos sero cobertos nos
captulos seguintes.

O sinal digitalizado pode ser usado para gerar espectrogramas que so de muitas maneiras superiores a
aqueles feitos por espectrgrafos que ocuparam os laboratrios de anlise da fala do incio da dcada de
1950. Os computadores digitais podem fazer o que os velhos espectrgrafos fizeram, mas mais rpidos,
mais precisos e muito mais limpos. Em acrscimo, os computadores podem realizar operaes que vo
alm das capacidades de anlise do espectrgrafo. Muitas dessas capacidades esto disponveis at em
microcomputadores (computadores pessoais). Os rpidos desenvolvimentos na anlise da fala com os
microcomputadores so a razo principal para a preparao deste tutorial. Embora os sistemas de anlise
de fala estejam prontamente disponveis para microcomputadores, muitos usurios no tem conhecimento
suficiente em processamento digital para entender as capacidades e limitaes desses sistemas. Ambas
capacidades e limitaes so significantes.

Filtragem, amostragem e quantizao so operaes bsicas na digitalizao de um sinal de fala. Cada


operao tem conseqncias importantes para a natureza do sinal que eventualmente armazenado no
computador. Conseqentemente, o usurio de um sistema de processamento digital deve ter um bom
conhecimento dessas operaes. Muitos sistemas de anlise de fala permitem ao usurio especificar
variveis como configuraes de filtro e taxa de amostragem. Consideraes cuidadosas devem ser
tomadas com essas variveis sempre que um sinal de fala digitalizado. Alm disso, o usurio desses
sistemas pode encontrar uma variedade de questes relacionadas a amplificao, cabeamento e interface.
Um entendimento bsico dessas questes pode ajudar a evitar problemas e garantir que um sinal de
qualidade adequada seja obtido.
O processo bsico na digitalizao converter um sinal contnuo (analgico) em uma representao
digital (discreta). A representao digital uma srie de nmeros. Quando um sinal analgico como uma
forma de onda acstica digitalizado, duas operaes so realizadas simultaneamente. A primeira uma
discretizao do tempo, significando que a forma de onda analgica amostrada em certos pontos do
tempo, usualmente espaados periodicamente. O espaamento peridico refletido na taxa de
amostragem, que especifica a regularidade do processo de amostragem. Uma taxa de amostragem de 10
kHz significa que o sinal analgico original amostrado 10.000 vezes por segundo. A segunda operao
a discretizao da amplitude do sinal. Essa operao, chamada quantizao, representa a variao
contnua da amplitude do sinal original como uma srie de nveis ou passos. Cada nvel um quantum, e
o processo de discretizao da amplitude , portanto, de quantizao. Amostragem e quantizao so a
essncia da digitalizao.
Os principais passos do processamento digital da fala so mostrados na Figura 3-11. O sinal acstico
original da fala representado pela funo x(t), que simplesmente a forma de onda da fala como se
fosse obtida diretamente de um microfone ou tocada em um gravador de fita. A notao x(t) indica uma
varivel temporal, especificamente, a amplitude em funo da variao do tempo do sinal acstico. Como
notado anteriormente, essa forma de onda um sinal analgico e sua amplitude varia continuamente com
o tempo. Para armazenar esse sinal em um computador digital moderno, o sinal analgico deve ser
convertido para uma srie de nmeros. Os nmeros so ento armazenados como uma representao sinal
analgico. Este captulo considera os passos necessrios para converso do sinal analgico em
representao digital. O processo chamado de converso analgico-digital e tipicamente realizada por
um conversor analgico-digital, ou conversor A/D. A operao reversa da converso digital-analgico
o processo pelo qual uma srie de nmeros armazenados em um computador so convertidos em um sinal
analgico. Essa operao realizada por um conversor D/A. Tipicamente, sistemas para anlise acstica
da fala usam tanto conversores A/D quanto D/A. O conversor A/D usado para converter um sinal
analgico original em uma forma digital. O conversor D/A , pois, usado para derivar sinais analgicos
de arquivos digitais armazenados, como requerido se quisermos ouvir um sinal armazenado
digitalmente.
Figura 3-11. Estgios principais no processamento digital de sinais da fala. Vide texto para discusso.

Operaes de Filtragem
O primeiro passo no processamento digital uma filtragem pr-nfase, em que os componentes de alta
freqncia do sinal so aumentados em amplitude relativo aos componentes de baixa freqncia. A prnfase desejvel, e freqentemente necessria, porque a maior parte da energia da fala est na regio das
freqncias mais baixas e essa energia dominar a anlise a menos que alguma equalizao de energia ao

longo das freqncias seja realizada. H duas formas usuais pelas quais a pr-nfase feita. Uma o uso
de um filtro (usualmente um filtro fsico) que fornece um aumento de 6 dB/oitava ao sinal de fala acima
de alguma freqncia limtrofe, fb, em que fb usualmente escolhida acima de 100 Hz, mas abaixo de
1000 Hz. A especificao de 6 dB/oitava significa que, para cada duplicao da freqncia (oitava) acima
da freqncia limtrofe, a energia aumenta em 6 dB. Por example, um acrscimo de 6 dB seria dado
energia em 2000 Hz comparado energia em 1000 Hz. A segunda forma de realizar pr-nfase atravs
da diferenciao da entrada. Essa operao pode ser realizada pelo computador e expresa pela seguinte
frmula:
y(n) = x(n) ax(n-1),
onde x(n) uma amostra do sinal no tempo n,
y(n) o primeiro sinal diferenciado,
e a uma constante de multiplicao.
A diferenciao depende de operaes digitais, que sero explicadas mais tarde. Neste momento,
suficiente perceber que a pr-nfase pode ser realizada tanto por operaes no sinal analgico (x) ou por
operaes no sinal digitalizado x(n). Os dois mtodos resultam em resultados semelhantes. H uma
precauo a ser tomada no uso de sistemas de anlise de fala. Um sistema que realiza pr-nfase atravs
de uma computao de diferenciao no deve ser acoplado a um filtro fsico com pr-nfase, seno o
sinal ser pr-enfatizado duas vezes uma vez pelo filtro fsico e outra pela operao de diferenciao.
O sinal pr-enfatizado ento enviado a um filtro de pr-amostragem. Este um filtro passa-baixas
desenvolvido para rejeitar energia acima da mais alta freqncia de interesse. Esse procedimento de
filtragem baseado no Teorema de Amostragem de Nyquist (Nyquist, 1928), que afirma que o nmero
de amostras necessrias para representar um sinal duas vezes a freqncia mais alta de interesse no
sinal. Por exemplo, assumamos que estejamos interessados em analisar um sinal de fala apenas em 10
kHz. Essa freqncia ser o limite superior da anlise e o filtro passa-baixas ser selecionado para rejeitar
energia acima desse mximo. Os filtros possuem vrias caractersticas que definem sua operao; duas
dessas caractersticas notadas aqui so a ondulao passa-bandas e a atenuao pra-bandas. Como
mostrado na Figura 3-12, o passa-bandas a banda de freqncias em que a energia passada com perda
mnima. Muitos filtros possuem uma ondulao detectvel, ou variao na transmisso com freqncia,
dentro do passa-bandas. Se a atenuao grande demais, pode-se distorcer a anlise do sinal. Uma regra
bsica que a atenuao deva ser menor do que 0,5 dB. A atenuao pra-bandas uma medida da
energia que sobra na regio do filtro onde a transmisso de energia mnima. Essa a banda de
freqncia em que a transmisso de energia mais reduzida ou filtrada. Usualmente, os filtros no tm
sucesso em rejeitar toda a energia indesejvel, entretanto. Filtros podem ser comparados com sua
habilidade em minimizar a energia no pra-bandas. Para aplicaes gerais na anlise da fala, desejvel
ter uma atenuao pra-bandas de, no mnimo, -68 dB, significando que a energia que sobra no prabanda depois da filtragem ser, no mnimo, 68 dB abaixo do pico de energia no passa-bandas. Para o
exemplo em considerao, isso significa que os picos de energia dentro do passa-bandas de 0-10 kHz
sero, no mnimo, 68 dB mais intensos do que qualquer energia encontrada no pra-bandas.
Figura 3-12. Resposta de freqncia de um filtro passa-baixas. O passa-bandas a regio de freqncia na qual a energia
passada mais efetivamente. O pra-bandas a regio de mxima oposio (bloqueamento) transmisso do sinal, e o guardabandas uma regio interveniente s vezes chamada de saia do filtro.

Amostragem
O sinal, que est agora pr-enfatizado e filtrado com passa-baixas, est pronto para digitalizao. A
digitalizao consiste de fato em dois processos: amostragem e quantizao. A amostragem a operao
pela qual o sinal analgico convertido para um srie de amostras. Essa converso pode ser expressa com
a seguinte notao:
x(n) = x(NT),
em que x(n) uma seqncia de amostras e T o intervalo de amostragem.
O processo bsico converter um sinal que varia continuamente para uma srie de nmeros que podem
ser armazenados em um computador digital. Como mostrado na Figura 3-13, o termo amostragem
descritivo da operao real. O sinal analgico original amostrado em intervalos regulares. A energia
entre os pontos de amostragem descartada. Pode parecer estranho que essa operao ocorra sem perda
de informao. Afinal, parece-nos que que o sinal original, com infinitamente muitos valores ao longo do
eixo temporal, agora reduzido a um nmero finito de amostras. Entretanto, o Teorema de Amostragem
de Nyquist afirma que ,se a taxa de amostragem selecionada corretamente, o sinal amostrado contm a
mesma informao do sinal analgico original. Em outras palavras, a converso analgico-digital pode
ser feita sem perda de informao. Isso um conceito fundamental na aplicao de computadores digitais
para o processamento da fala ou qualquer sinal originalmente em forma analgica.
Figura 3-13. Ilustrao da amostragem de uma forma de onda. Amostras so tomadas nos pontos marcados pelas linhas
verticais. Usualmente, a amostragem peridica (recorre em uma taxa fixa).

Como se seleciona a taxa de amostragem para garantir que a informao no seja perdida? A diretriz
bastante simples: a taxa de amostragem deve ser, no mnimo, duas vezes a mais alta freqncia de
interesse, que denotaremos por Fn. No nosso exemplo, a mais alta freqncia de interesse Fn = 10 kHz.
Portanto, a taxa de amostragem deve ser 2 x 10 kHz = 20 kHz. Se um sinal analgico filtrado no passabaixas em 10 kHz amostrado em uma taxa de 20 kHz, o sinal digitalizado ser equivalente em
informao ao sinal original. importante lembrar dessa relao entre o filtro de pr-amostragem e a taxa
de amostragem da digitalizao, pois srios erros podem resultar se essa relao for negligenciada. Agora,
no h nada errado em amostrar o sinal em uma taxa mais alta. Por exemplo, podemos amostrar nosso
sinal filtrado em passa-baixas em 10 kHz em 40 kHz ou 4 vezes a freqncia de Nyquist. Entretanto, essa
taxa alta completamente desnecessria e usar dois vezes mais memria do computador para representar
o som de interesse.
Por outro lado, h algo errado em amostrar em uma taxa mais baixa do que duas vezes a mais alta
freqncia de interesse. Quando isso acontece, srios erros podem surgir na anlise. Esses erros so
chamados aliasing. O filtro de pr-amostragem s vezes chamado de filtro anti-aliasing, devido ao
reconhecimento da necessidade de se prevenir os erros de aliasing. No uso comum, um alias uma
identidade falsa ou assumida, e esta a essncia do erro que pode ocorrer no processamento digital
quando a taxa de amostragem devagar demais em relao regio de freqncias da anlise. A ttulo de
ilustrao, consideremos um exemplo dos filmes cinematogrficos. Voc provavelmente j viu filmes em
que as rodas de um vago ou carruagem pareciam se mover vagarosamente para trs, como se os
cavalos fossem empurrados para frente em uma velocidade considervel. O efeito mais aparente em
rodas com raios. Obviamente, as rodas no esto se movendo para trs de verdade, nem isso efeito de

uma iluso visual. O aparente movimento lento para trs um exemplo de aliasing um erro na
amostragem do evento original. Neste caso, a taxa de amostragem determinada pelo taxa de filmagem
de 30 quadros por segundo, a taxa usual na indstria do cinema. Os raios de uma roda em movimento de
um vago variam de posio ao longo do tempo, mas a taxa relativamente lenta de quadros simplesmente
no registra as posies reais dos raios durante a rotao das rodas. Como resultado, a roda parece se
mover vagarosamente na direo errada. O que se v nos filmes uma identificao com alias ou falsa do
evento dinmico real. O problema poderia ser corrigido aumentando-se a taxa de quadros da filmagem.
Entretanto, uma taxa aumentada de quadros no importante para a maior parte do que vemos na tela, de
modo que o aliasing das rotaes das rodas da carruagem simplesmente tolerada como um
aborrecimento pequeno. Entretanto, aliasing no apenas uma amolao pequena no processamento
digital de sinais. Ele pode ser o causador de uma anlise extremamente errada.
O aliasing ocorre se freqncias maiores do que a metade da taxa de amostragem so adquiridas. Por
exemplo, se uma freqncia de amostragem de 5 kHz usada para digitalizar componentes do sinal
maiores do que 2,5 kHz, o aliasing pode ocorrer. O efeito do aliasing ilustrado na Figura 3-14. O sinal
original o sinal a ser amostrado mostrado no topo da ilustrao e uma verso amostrada do sinal
mostrada abaixo. Na taxa de amostragem representada pelas linhas verticais, o sinal est sub-amostrado.
Como resultado, a operao de amostragem resulta em um sinal falso, ou com aliasing, mostrado no
fundo da ilustrao. (Note que, na metade da freqncia de amostragem, cada ciclo de um sinal peridico
representado por duas amostras, que o nmero mnimo de amostras que pode representar as pores
negativas e positivas da forma de onda senoidal.)
Figura 3.14. Representao grfica de aliasing causado por subamostragem de um sinal. (A) Amostragem a uma taxa de 1/T
o perodo de amostragem. (B) Gerao de um sinal esprio de baixa freqncia, o sinal aliasing.

Figura 3.15. Representao grfica de aliasing como uma freqncia foldover. Energia amostrada em menos do que 2/T pode
aparecer como energia de baixa freqncia.

Um tipo de erro de aliasing a gerao de freqncias foldover (Figura 3-15). Essa freqncia falsa
ocorre em uma freqncia dada por
Ff = S F,
em que Ff a freqncia foldover,
S a taxa de amostragem e
F uma freqncia maior do que metade do valor de S.
Para se evitar aliasing, os seguintes passos devem ser seguidos:
4. Determinar a maior freqncia de interesse na anlise; isso Fn.
5. Filtrar a energia acima de Fn; e
6. Amostrar o sinal em uma taxa de, no mnimo, 2Fn.
Outros produtos do aliasing podem ocorrer tambm, mas suficiente notarmos aqui que todo o problema
do aliasing usualmente pode ser evitado se a taxa de amostragem for cuidadosamente escolhida em

relao s freqncias de interesse no sinal original, e se a energia acima da maior freqncia de interesse
for filtrada. A maior razo do advrbio usualmente na sentena anterior que o aliasing pode ocorrer
tambm sob outra condio que resulta em algo chamado rudo de granulao. A discusso dessa questo
ter de ser adiada at comentarmos em seguida a quantizao.

Quantizao
Vamos revisar o que vimos at agora. Comeamos com um sinal acstico que varia continuamente
denotado por x(t). Devido ao fato de este sinal no poder ser usado em sua forma original por um
computador digital, ele tem de ser convertido para uma forma digital uma seqncia de nmeros
(amostras). A operao de amostragem divide o sinal analgico em um nmero de intervalos iguais. O
tamanho do intervalo depende da taxa de amostragem. Quanto maior a taxa, menor o intervalo. Por
exemplo, em uma taxa de amostragem de 5 kHz, o intervalo entre os pontos de amostragem 0,2 ms.
Nesta taxa, pois, o sinal analgico convertido para uma seqncia de 5.000 amostras por segundo.
Agora temos entradas discretas apropriadas para uso em um computador digital, a no ser por um
problema a amplitude ou nvel de energia das amostras tambm devem ser convertidas para uma forma
digital. A amostragem resolve apenas parte da operao de digitalizao, a saber, a converso do tempo
contnuo para um tempo discreto ou amostrado.
A operao remanescente na digitalizao a quantizao. Um sinal quantizado quando as amostras
determinadas pela operao de amostragem so divididas em um nmero discreto de nveis de amplitude.
O termo quantizao descritivo do que feito. Um quantum um incremento de energia . Quando um
sinal analgico quantizado, as variaes contnuas da amplitude so convertidas em valores ou
incrementos discretos. A operao ilustrada na Figura 3-16 para vrios nveis de quantizao. Note que,
se a quantizao realizada com apenas alguns passos ou nveis, o sinal quantizado tem um formato de
escada que apenas grosseiramente se assemelha ao sinal analgico original. Entretanto, medida que os
nveis de quantizao so aumentados, a similaridade entre o sinal quantizado e o sinal analgico
aumenta, i.e., quanto maior o nmero de nveis de quantizao, mais acuradamente o sinal quantizado
representa o sinal analgico. Obviamente, h uma negociao em relao demanda de memria.
medida que o nmero de nveis de quantizao aumenta, tambm aumenta a necessidade de memria para
armazenar os dados. Como regra geral, a fala deve ser quantizada com, no mnimo, uma converso de 12
bits, que fornece 4.096 nveis de quantizao. Se muito poucos nveis so usados, o sinal ter uma
distoro chamada de rudo de quantizao. Note que para cada bit adicional de converso de amplitude,
h o dobro dos nveis de quantizao, por exemplo, 8 bits fornece 256 nveis. 9 bits fornece 512 nveis, e
assim por diante. Uma converso de 8 bits, como, s vezes, feita com sistemas de baixo custo, produzir
um sinal de baixa qualidade. Para tudo, exceto para propsitos mais grosseiros, a converso de 8 bits
inadequada na anlise da fala. Felizmente, melhoramentos nos computadores tornaram fcil obter
excelente quantizao, com converso de 16 ou 32 bits sendo facilmente acessveis.
A operao de quantizao pode ser expressa bem simplesmente como um processo de discretizar as
variaes contnuas na energia do sinal que sobra depois da operao de amostragem:
x[n] = x(n) + e(n),
onde x[n] a amostra quantizada,
x(n) a amostra no-quantizada, e
e(n) o erro ou rudo da quantizao.

O objeto minimizar e(n), i.e., torn-lo pequeno o suficiente, de modo que no cause problemas na
anlise ou qualidade do sinal.
Vrias escolhas de quantizao esto disponveis. Talvez a mais simples seja a quantizao uniforme, em
que os passos ou incrementos so de igual tamanho ao longo da extenso da energia do sinal. Uma
desvantagem para essa abordagem que o sinal da fala tem uma grande extenso dinmica (a extenso da
energia mais baixa mais alta em uma amostra) e os falantes variam consideravelmente o uso dessa
extenso. Se a extenso dinmica de anlise for ajustada para a poro mais intensa de uma amostragem
de fala, os passos da quantizao para as partes mais fracas de uma amostra podem ser grosseiras demais,
se uma quantizao uniforme for empregada. Portanto, deve-se dar preferncia a uma quantizao nouniforme, na qual os incrementos de quantizao so menores na extenso de energia baixa do sinal. Em
acrscimo, o sinal pode ser transformado de vrias formas antes de a quantizao ser realizada. Por
exemplo, pode-se usar uma transformao logartmica do sinal para se alcanar incrementos mais finos
para os componentes mais fracos. Entretanto, deve-se notar que a quantizao inerentemente uma
operao no-linear. Diferentemente da amostragem, que seguramente baseada no teorema da
amostragem, a quantizao um conceito muito mais difcil matematicamente.
Depois das operaes de amostragem e quantizao, o sinal foi digitalizado como uma srie de amostras
quantizadas. Matematicamente, pode-se expressar esse processo como:
x[n] = {Q[x(n)]},
em que x[n] so as amostras quantizadas correspondentes
forma de onda original x(t),
Q a operao de quantizao, e
x(n) a seqncia de amostras.
O sinal est agora em uma forma que pode ser codificada para armazenamento no computador. A forma
de onda original da fala variante no tempo agora toma a forma de uma srie de amostras quantizadas. A
converso analgico-digital est completa.
Quando a amplitude do sinal aproximadamente a mesma de um incremento de quantizao, o efeito de
quantizao produzir um sinal dc (uma mudana dc ou mudana na linha base) ou uma onda quadrada.
A onda quadrada rica em harmnicos mpares que podem alcanar bem alm a mais alta freqncia de
interesse, Fn. At mesmo o uso de um filtro anti-aliasing no pode prevenir aliasing nessa situao,
resultando em um som sujo chamado rudo de granulao. Devemos lembrar que os sinais be amplitude
bem baixas so vulnerveis gerao de uma distoro de rudo. O nvel de quantizao deve ser
escolhido cuidadosamente se sinais muito fracos forem processados. A amplificao do sinal pode ser
necessria, o que ser considerado em uma seo posterior. Outro ponto importante que os nveis de
quantizao so distribudos sobre a gama de valores de amplitude (a extenso dinmica).
Aplicao prtica
Como uma reviso rpida, consideremos um problema prtico na converso A/D. Suponhamos que um
sinal de fala seja analisado para informao que est contida em uma extenso de freqncia abaixo de 3
kHz. Devido ao fato de a amostra total da fala ser muito longa, importante usar a menor quantidade de

memria do computador quanto possvel para armazenar o sinal. Quais so as configuraes apropriadas
para a taxa de amostragem, o filtro de amostragem e a quantizao? Em primeiro lugar, a taxa de
amostragem deve ser, no mnimo, duas vezes a mais alta freqncia de interesse na anlise, Fn. Esta
freqncia mais alta 3 kHz, que significa que a taxa de amostragem deve ser, no mnimo 6 kHz. Devido
ao fato de configuraes de filtros serem, s vezes, apropriadas, e devido ao fato de a energia do sinal
poder ser aprecivel na banda de rejeio, sbio escolhermos uma freqncia de corte para o filtro de
pr-amostragem passa-baixas que esteja levemente abaixo da taxa de amostragem. Portanto, esse filtro
deve ter uma caracterstica passa-baixas com uma freqncia de corte levemente abaixo de 3 kHz,
digamos 2,8 kHz. Finalmente, uma quantizao de 11 bits deve fornecer uma converso de amplitude
suficientemente acurada, a menos que haja um interesse em variaes pequenas na amplitude do sinal.
sempre desejvel superamostrar, i.e., usar uma taxa de amostragem maior do que aquele derivada do
teorema da amostragem? Sim. Primeiramente, pode ser desejvel superamostrar quando o filtro antialiasing tem um guarda-bandas raso. Se a taxa de rejeio do guarda-bandas for rasa, ento alguma
energia do sinal indesejada acima de Fn pode ser digitalizada e pode resultar em aliasing. usualmente
um bom procedimento selecionar a freqncia passa-baixa do filtro anti-aliasing que menos do que a
metade do valor da taxa de amostragem. Superamostragem tambm usada para ganhar resoluo
temporal. Um exemplo est na determinao da freqncia fundamental vocal (f0). Whalen et al. (1990)
notaram que quando um arquivo amostrado em 10 kHz, a fidelidade na determinao da freqncia
fundamental ser +- 0,5% para um homem com um f0 de 100 Hz, +- 1,0% para uma mulher com um f0 de
200 Hz e +- 2,5% para uma criana com um f0 de 500 Hz. A questo se torna especialmente importante
para a determinao de irregularidades (perturbaes) na voz. Uma dessas perturbaes chamada jitter,
que a variao ciclo-a-ciclo na amplitude de pico da forma de onda larngea. A medio dessas
perturbaes, ou desvios da regularidade real, podem ser intoleravelmente imprecisas em taxas de
amostragem baixas ou nveis de quantizao baixos. A superamostragem freqentemente usada tambm
na gravao de msica, porque proporciona uma qualidade sonora mais satisfatria ( um som mais
encorpado ou gordo).

Outras questes na converso D/A e A/D


Para informao adicional sobre A/D e questes brevemente consideradas aqui, veja Lang (1987) e Gates
(1989). A seguir veremos alguns comentrios altamente condensados sobre questes relacionadas a A/D.

Amplificao (Ganho)
importante saber a extenso de entrada para o conversor A/D usado em uma aplicao especfica.
Alguns conversores possuem uma extenso de entrada de -1 a +1 volt, mas outros requerem um sinal de
entrada com uma extenso diferente, por exemplo, -7 a +7 volts, ou -10 a +10 volts. desejvel ajustar o
sinal de entrada para essa extenso para obter completa vantagem dos nveis de quantizao
disponibilizados pelo A/D. Se um sinal possui uma extenso de apenas -2 a +2 volts e um conversor com
uma entrada com extenso de +- 10 volts for usado, muitos nveis potenciais de quantizao sero
perdidos medida que o sinal for digitalizado. Devido ao fato de a sada analgica de instrumentos como
gravadores de fita freqentemente no corresponder extenso do sinal de um conversor A/D, uma
amplificao freqentemente necessria. Tomemos como um exemplo simples, a sada de um toca-fitas
que fornece uma extenso de sinal de -1 a +1 volt. Se este sinal for alimentado em um A/D que requer
uma extenso do sinal de -10 a +10 volts, ento a sada do toca-fitas deveria ser amplificada por um fator

de dez.
A amplificao usualmente realizada por um de dois meios: (a) usando um amplificador externo, ou (b)
usando um amplificador interno fornecido em alguns A/Ds. Amplificadores internos vm com vrias
funes, uma ganho programvel, ou a capacidade de mudar o ganho no programa, de acordo com as
necessidades da converso de dados. Uma vantagem de um amplificador externo o fato de ele poder ser
colocado bem perto do equipamento fornecedor do sinal para o A/D. Proximidade especificamente
importante no caso de sinais fracos. Quando um sinal fraco passado ao longo de um cabo longo, ele
vulnervel a rudos e diminuies adicionais pela resistncia do cabo conector. Rudo pode surgir, por
exemplo, porque o cabo pode servir como antena, pegando murmrios de 60 Hz de fontes como
transformadores e lmpadas fluorescentes. A diminuio do sinal possvel porque o enrolamento dos
cabo, apesar de ser um condutor, apresenta alguma resistncia ao fluxo de energia eltrica. A resistncia
proporcional extenso do fio. A regra simples: mantenha a conexo entre o instrumento do sinal e o
A/D a mais curta possvel.

Cabeamento
Conectar instrumentar pode parecer uma questo trivial, mas isso de fato uma considerao muito
importante. Escolhas incorretas ou procedimentos falhos podem comprometer enormemente o
desempenho de um sistema de anlise da fala. Um fator a ser considerado o tipo de cabo que usado
para se fazer as conexes. O custo do cabo aumenta com sua habilidade em afastar o rudo do sinal. Os
menos caros so com fios simples e cabos planos. A maior diferena entre esses dois est relacionada ao
nmero de conexes que devem ser feitas. Quando muitas conexes so feitas com fios simples, o
resultado pode ser uma mistura confusa. Cabos planos reduzem a confuso, porque contm vrios fios.
Para aplicaes envolvendo sinais de alta freqncia ou um sinal com uma relao sinal-rudo baixa, fios
simples ou cabos planos no so conexes para escolhermos. prefervel usar um dos seguintes: cabos de
par torcido, coaxial ou triaxial. Essas conexes protegem o sinal da contaminao ambiental. Finalmente,
como notado acima, sempre desejvel manter o tamanho dos cabos mnimo.

Interface
Cabos requerem conectores para que sinais possam passar de um dispositivo para outro. Para sinais
digitais, o problema de interface surge. Interface refere-se ao esquema de comunicao que permite que
dispositivos troquem sinais. H dois tipos principais de interface serial e paralela. H um grande
nmero de questes que surgem sobre interface, a maioria das quais no so diretamente relevantes s
aplicaes deste livro. Leitores que necessitam de informao nessa rea devem consultar Lang (1987) ou
referncias gerais para os sistemas computacionais especficos envolvidos.

Algumas Consideraes Gerais na Anlise Acstica da Fala


Agora consideramos dois grandes domnios da anlise acstica: domnio do tempo e domnio da
freqncia. Embora esses domnios estejam relacionados por transformadas matemticas, como a
transformada de Fourier, os mesmos no so iguais para vrios propsitos na anlise acstica. Cada um
possui certas vantagens e desvantagens no exame dos sons da fala.

As vantagens da representao da forma de onda (domnio temporal) so as seguintes:


5. A forma de onda pode ser uma representao fiel do som original e, portanto, uma boa referncia
para garantir qualidade de reproduo e anlise.
6. Tipicamente, a forma de onda pode ser obtida facilmente e a baixo custo.
7. A forma de onda um registro sensvel das variaes temporais no sinal e, portanto, de valor
especfico quando fatores temporais sutis devem ser observados. Muitas tcnicas de domnio da
freqncia perdem algumas das informaes temporais do sinal.
8. Com a forma de onda de um sinal, freqentemente fcil de detectar eventos de distoro (ex.:
recorte de picos que surgem quando excurses de alta amplitude so cortadas) ou a presena de
um sinal intruso (ex.: rudo de fundo).
Entre as desvantagem da representao da forma de onda (domnio temporal) esto as seguintes:
8. A forma de onda pode ser cara para armazenar, porque o sinal da fala tipicamente possui uma
largura de banda grande e, portanto, requer uma grande capacidade de armazenamento. Os
computadores modernos com sua vasta capacidade de armazenamento reduziram a seriedade
desse problema.
9. As formas de onda geralmente so difceis de interpretar e resumir. At mesmo especialistas
acham difcil adivinhar qual som da fala representado por uma forma de onda especfica. Por
exemplo, as formas de onda dos sons voclicos no permitem uma identificao fcil de suas
qualidades fonticas.
10. A forma de onda sensvel a variaes de fase que podem no ser importantes para os objetivos
finais de anlise e podem ser ignoradas pelo ouvido.
As vantagens da representao espectral (domnio da freqncia) inclui:
1. O espectro pode permitir uma caracterizao fcil, relativamente econmica, de muitas
caractersticas importantes (ex.: freqncias dos formantes das vogais, regies de energia de sons
aperidicos).
2. O espectro sensvel a variaes de fase que podem ser negligenciadas em aplicaes tpicas da
anlise da fala.
3. O espectro pode ser usado para caracterizar eventos em estado estacionrio ou, com uma
amostragem prpria, eventos dinmicos como transies.
4. O espectro em movimento, como em um espectrograma, oferece capacidades de segmentao que
so difceis de se alcanar em uma forma de onda.
As desvantagens da representao espectral (domnio da freqncia) so:
1. s vezes difcil detectar eventos de distoro em um espectro ou notar o acrscimo de rudo.
2. Anlises realizadas com alguns mtodos tradicionais podem no refletir o processamento
psicofsico, por exemplo, no-linearidades.

3. As anlises podem disfarar ou tornar obscuras algumas propriedades de interesse.


4. Anlises espectrais podem ser caras de serem realizadas em termos de tempo e recursos
(hardware ou computao).
5. Anlises espectrais podem ser insensveis a algumas variaes temporais do sinal.
Tcnicas analticas modernas significam tcnicas digitais, i.e., computar com amostras de fala
representadas com nmeros. Dispositivos analgicos, que lidam com dados contnuos, ainda so usados
na amplificao, gravao e playback, mas raramente em anlises. Instrumentos para anlise da fala agora
so basicamente de dois tipos: dispositivos dedicados especialmente desenvolvidos para a fala, como
espectrgrafos digitais, e computadores de uso geral rodando programas para anlise de fala. As
similaridades so menores do que as diferenas: ambos so, de fato, computadores digitais, operando na
fala que foi amostrada como descrito neste captulo. Eles realizam computaes similares e produzem,
tipicamente, visualizaes similares no monitor, que o usurio pode optar por imprimir.
A diferena que, no dispositivo dedicado, o hardware e os programas de anlise foram selecionados e
optimizados para trabalhar juntos na anlise da fala, e os programas foram escritos (semipermanentemente) na memria da mquina. Como resultado, o dispositivo dedicado pode operar mais
rpido ou exibir resultados mais transparentes, mas, em princpio, um computador de propsitos gerais
pode ser programado para fazer as mesmas anlises. Instrues para usar um dispositivo dedicado lidam
somente com anlise de fala, enquanto o usurio de computadores de propsitos gerais tipicamente se
confronta, no mnimo, com dois manuais: um para a mquina bsica e outro para o programa de anlise
de fala.
Tipicamente, uma desvantagem de um dispositivo dedicado que o usurio no pode modificar ou
adicionar seus programas. Pelo contrrio, para alguns micro e minicomputadores, usurios podem
escolher, a partir de vrios programas disponveis, diversas combinaes de anlise. Alguns programas
at tornam fcil para o usurio adicionar suas prprias anlises. Alguns programas so de domnio
pblico, como os desenvolvidos com apoio governamental, e podem ser obtidos por uma pequena taxa de
cpia. Devido s similaridades fundamentais entre computadores de uso geral e dedicados, usualmente
no precisaremos distinguir entre eles na discusso das tcnicas analticas. Com ambos os tipos, o usurio
quem decide determinar que uma anlise especfica apropriada aos seus propsitos e dados. Um
usurio sofisticado tambm comea com algum dado conhecido, a fim de checar se as anlises so
realizadas precisamente.

Exibio da Forma de Onda


No comeo deste captulo, comeamos nossa breve histria da anlise acstica com o oscilgrafo, que
traava no papel as mudanas em voltagem de um microfone, representando as mudanas na presso do
ar que passam do falante ao ouvinte. Exibir essa forma de onda da presso do ar uma funo bsica da
maioria dos dispositivos para anlise da fala. Dessa exibio, pode-se determinar a durao e a amplitude
relativas. Pode-se julgar periodicidade, e da durao de perodos, pode-se estimar a freqncia
fundamental. Tipicamente, pode-se selecionar pores da forma de onda para uma inspeo mais prxima
e para edio. Revisaremos cada uma dessas funes abaixo. A Figura 3-17 mostra a forma de onda de
um enunciado de we como exibido por um programa chamado CSpeech rodando em um computador
pessoal.

Figura 3-17. Forma de onda da fala no comeo de We show speech. Os cursores marcam we.

Medindo a Durao
Note os cursores esquerdo e direito na Figura 3-17: o usurio os coloca em torno de we, usando tanto
pistas auditrias quanto visuais. A prxima palavra no enunciado era show, e a forma de onda mais fina
alm do cursor direito resulta do rudo de [S]. Pela movimentao dos cursores e escuta do som entre eles,
o usurio pode julgar em que ponto a qualidade sonora mudou de vogal para fricativa. A taxa de
amostragem em que o som foi gravado foi 22 kHz (22.000 amostras por segundo). Assim, o tempo entre
amostrar foi 0,045 ms, i.e., 45 (microssegundos), a resoluo temporal potencial de uma gravao
naquela taxa. CSpeech relata (linha 1 da exibio) que o tempo entre os cursores 263,273 ms, ento o
usurio pode concluir que a slaba we foi, assim, precisamente longa.
Entretanto, h duas limitaes escondidas. A principal a dificuldade de julgar exatamente onde um
segmento de fala comea e termina. Nesse caso, o cursor esquerdo est precisamente no comeo da
vogal? Quanta diferena faria se o usurio decidisse que a vogal comea antes, onde a forma de onda
comea peridica ou onde ela primeiramente excede algum limiar de voltagem (amplitude)? O cursor
direito deveria se mover para dentro para o ltimo perodo regular da vogal? Essas questes se tornam
crticas ao se tentar fazer medidas confiveis, especialmente de tipos diferentes de sons da fala ou sons
em contextos diferentes. Dizer que a resoluo potencial 0,045 ms enganoso, porque no se pode
localizar fronteiras em unidades da fala to precisamente. A articulao leva tempo, de modo que os sons
da fala comeam e terminam gradualmente. A segunda limitao que enquanto a resoluo potencial
0,045 ms, o menor movimento do cursor pode ser maior do que isso, dependendo da durao do som
exibido. Nesse caso, um movimento de cursor foi 0,4 ms, assim essa foi a resoluo efetiva. Se
tivssemos exibido vrios segundos da fala, a resoluo teria seria sido bem mais grosseira. Por ambas
essas razes, no podemos sempre pegar (ou oferecer) medidas de durao com seus valores nominais.
A resoluo tambm uma questo na dimenso da amplitude. Uma quantizao de doze bits significa
que a voltagem de entrada representada por um nmero que pode ter 4.096 valores diferentes. Assim, se
a voltagem de entrada se estende de +10 volts a -10 volts, essa extenso de 20 volts ser dividida em
4.096 passos ou 5 mv (milivolts) por passo. Essa resoluo normalmente adequada para a anlise da
fala, mas devemos saber a resoluo do equipamento. Alguns dispositivos baratos de amostragem usam
apenas uma resoluo de 8 bits (256 valores diferentes), que faz uma diferena considervel na qualidade
da fala gravada e em anlises subseqentes. Quanto maior a resoluo, mais forte o sinal, comparado com
o rudo introduzido pelo processo de quantizao. A Tabela 3-1 mostra a relao entre a resoluo da
amplitude (em bits, passos e milivolts) e esse quociente sinal-rudo de quantizao, para alguns nveis de
resoluo comumente usados.
TABELA 3-1.
Resoluo de amplitude e quociente sinal-rudo
Bits

Passos

Tamanho do passo (se


a extenso de 20v)

Quociente sinal-rudo

256

78 mv

41 dB

12

4096

5 mv

65 dB

16

65336

0,3 mv

89 dB

Devemos pensar que esse quociente sinal-rudo um mximo terico para um sinal de energia constante,
que a fala nunca . Na Tabela 3-1, parece que at mesmo uma resoluo de 8 bits se iguala ao quociente
sinal-rudo de um gravador comum de fita cassete, mas vrios outros fatores operam para reduzir o
quociente real e para introduzir outros tipos de rudo. Para citar apenas um exemplo, se o hardware de
amostragem for selecionado para uma extenso de 20 volts de entrada, mas a entrada real de apenas dois
volts (+1 a -1), que muitos pr-amplificadores fornecem, a resoluo de amplitude apenas um dcimo
do potencial, e o rudo ser muito mais alto em relao ao sinal.

Edio
Devido ao fato de podermos selecionar partes da fala digitalizada (usualmente com cursores na tela) e
toc-los, podemos editar a fala. Por exemplo, suponhamos que tenhamos gravado um enunciado de
team. Poderamos ouvir que o [t] aspirado ([th]), e, para um experimento de percepo, poderamos
remover a aspirao e tocar o resultado. A Figura 3-18 mostra esse enunciado, com os cursores marcando
a aspirao. Nos velhos tempos (cerca de 30 anos atrs), teramos de cortar a fita de gravao com uma
lmina de barbear e junt-la novamente. Hoje, temos um equivalente eletrnico: cortar nos cursores e
rejuntar o som digitalizado. A forma precisa em que fazemos isso depende do programa ou dispositivos;
alguns possuem um comando unir, alguns requerem que transfiramos segmentos para outro canal ou o
etiquetemos e listemos os segmentos a serem unidos. De qualquer forma, a operao ser mais limpa,
mais rpida e mais precisa do que o corte de fita, principalmente porque podemos localizar os pontos de
corte mais precisamente atravs da visualizao da forma de onda e da escuta das partes antes, depois e
entre os cursores.
Figura 3.18. Forma de onda da fala de team, com os cursores marcando a aspirao do [th].

Entretanto, algumas dicas de especialistas em corte de fita podem ser utilizadas. Primeiramente, nenhum
corte ser completamente natural devido coarticulao. Se separamos uma consoante de uma vogal, a
vogal ainda conter transies que sugerem aquela consoante, ou, no mnimo, seu ponto de articulao.
As vogais antes de nasais sero nasalizadas, as antes de /r/, em ingls, sero retroflexas, e aquelas antes de
consoantes desvozeadas sero encurtadas. Quase todos os sons contm efeitos de seus contextos. Em
segundo lugar, uma juno onde a forma de onda fortemente positiva ou negativa provavelmente
produzir um rudo de estalo (uma transio acstica). Cortadores experientes fazem seus cortes em
momentos onde a forma de onda est nos ou perto dos zeros, ou, no mnimo, juntam dois finais com a
mesma amplitude. Felizmente, com cortes de fita eletrnicos, podemos facilmente experimentar
diferentes junes.

Medindo a Amplitude
A forma de onda da fala tambm fornece informao sobre a amplitude relativa. O canal superior da
figura 3-19 mostra as formas de onda de import, um substantivo com acento em im e import, um
verbo com acento em port. Pode-se ver que a amplitude da primeira slaba (im com acento primrio)

maior do que a da terceira, e que a amplitude da quarta slaba (port com acento primrio) maior do
que a da segunda.
Figura 3.19. Forma de onda da fala de IMport (substantivo) e imPORT (verbo), com trs representaes de amplitude. O canal
2 a forma de onda retificada; os canais 3 e 4 so os contornos de amplitude em rms, calculados com uma janela deslizante de
20 e 80 ms, respectivamente.

Essas comparaes da forma de onda bruta podem ser difceis, entretanto, pois o visualizador deve de
alguma forma combinar a metade negativa (inferior) da forma de onda com a metade positiva. Ambas
representam mudanas na presso do ar que movem o tmpano de um ouvinte. O canal 2 da Figura 3-19
mostra a mesma forma de onda retificada, i.e., com presses negativas mudadas para positivas o efeito
que a metade inferior da forma de onda do canal 1 foi dobrada para cima. Isso torna mais fcil
comparar no s o formato da amplitude das slabas, mas tambm o formato da mudana de amplitude
durante cada slaba. Podemos inferir, por exemplo, que em cada im (slabas 1 e 3), a maior amplitude
est na primeira metade da slaba, i.e., a vogal em vez da nasal.
No entanto, a onda do canal 2 continua a ter todas as ondulaes do original. Para obter uma curva
suavizada da amplitude, temos que, de alguma maneira, tirar uma mdia do sinal ao longo do tempo. Com
efeito, fizemos isso, informalmente, pelo olho, quando acessamos a forma de cada slaba. Essa
suavizao pode ser feita aritmeticamente, e uma dessas formas conhecida como amplitude rms, sigla
em ingls para raiz quadrada mdia. O nome identifica trs das etapas, na ordem inversa. Para se
calcular a amplitude rms:
1. Selecione um comprimento de janela, o nmero de amostras de fala para mdia;
2. Eleve ao quadrado o valor de cada amostra na primeira janela, eliminando, assim, nmeros
negativos e diferenas exageradas;
3. Calcule a mdia aritmtica dos valores ao quadrado na janela;
4. Pegue a raiz quadrada da mdia resultante, trazendo-a de volta para a escala original;
5. V para a prxima janela, ou seja, o prximo conjunto de amostras.
A forma de onda no canal 3 da Figura 3-19 a amplitude rms da forma de onda original, calculada com
uma janela "deslizante" de 20 ms, ou seja, uma que avanou por apenas uma amostra com cada clculo de
rms. Agora muitas ondulaes desapareceram e a mdia foi calculada com preciso.
Para criar uma curva bem mais suavizada, vamos alongar a janela, fazendo a mdia com trechos mais
longos. A curva de amplitude rms no canal 4 exatamente como a do canal 3, exceto pelo clculo com
uma janela de 80 ms. No entanto, note que o comprimento da janela tem um efeito: se estivssemos
tentando localizar o pico exato de cada slaba, obteramos respostas ligeiramente diferentes dos canais 3 e
4.

Amplitude e acento no ingls


Essa discusso da Figura 3-19 pode dar a impresso de o acento silbico, ou proeminncia, em ingls, ser
marcado principalmente pela amplitude. De fato, essa tambm nossa intuio. A maioria dos falantes do
ingls relatam que a principal diferena entre o substantivo import e o verbo import devido silaba
ser mais forte. Entretanto, a durao tambm um fator. Na Figura 3-19, a segunda slaba do verbo, a
acentuada, mais longa do que a do substantivo. De fato, a durao realmente uma pista mais
consistente para o acento do que a amplitude. Na Figura 3-19, as slabas im so atpicas, pois no

diferem em durao. Note tambm que no comparamos im com port em relao ao acento; por
serem constitudas de diferentes sons da fala, elas so inerentemente diferentes tanto na amplitude quanto
na durao.

Medindo a Freqncia Fundamental


Pode-se facilmente ver que algumas partes da forma de onda so peridicas, ou seja, elas consistem de
padres similares de mudanas repetidos ao longo do tempo. Por exemplo, na Figura 3-17 (we), a
maior parte da forma de onda entre os cursores peridica. Os maiores padres (perodos mais longos)
resultam de vibraes das pregas vogais e correspondem freqncia que percebemos como um tom
vocal (pitch); medida que esses padres se tornam mais freqentes, o tom percebido aumenta. Devido
ao fato de sermos muito bons em reconhecer padres visuais, parece-nos fcil julgar a periodicidade em
uma exibio de forma de onda. Para programar um computador para fazer os mesmos julgamentos , no
entanto, uma tarefa bastante difcil. Entretanto, at mesmo julgamentos de humanos so usualmente
imprecisos sobre onde a periodicidade comea e termina. No lado direito da Figura 3-17, por exemplo,
onde que a vogal deixa de ser peridica? Da mesma forma, depois do cursor esquerdo na Figura 3-17, o
som est rapidamente mudando de amplitude e qualidade; essa a natureza de /w/. H uma parte
aperidica no comeo? Respostas a essas questes so parcialmente arbitrrias porque as pregas vogais se
movem e mudam seus modos de vibrao gradualmente. Justamente por podermos ver os efeitos da
atividade (e da articulao) das pregas vocais em uma escala temporal expandida, podemos perceber que
a fala no muda instantaneamente. Tecnicamente, a fala apenas quase-peridica, pois ela muda
constante de freqncia e qualidade.
Dentro dessas limitaes, pode-se usar uma exibio de forma de onda para se medir a durao de
perodos e, portanto, a freqncia fundamental da fala vozeada. A Figura 3-20 mostra uma vogal, com os
cursores ao redor de dez perodos. O intervalo entre os cursores de 95,9 ms (Comprimento=; linha
um), assim a durao mdia de um perodo de 9,59 ms. Devido ao fato de durao e freqncia serem
inversos, a freqncia fundamental, em mdia, 104 Hz ([1/9,59] x 1000), ou dez vezes a freqncia
mostrada no fim da linha um. Mdia sobre dez ou vinte perodos dessa forma bastante recomendvel
por duas razes. Primeiramente, o erro, ou incerteza, na colocao dos cursores reduzida por um fator
de dez, e, em segundo lugar, queremos freqentemente saber o tom mdio em alguma regio da forma de
onda, no a freqncia absoluta de um perodo voclico especfico. Obviamente, esse mtodo de medir a
freqncia fundamental pode ser tedioso se temos de fazer muitas medies. A penltima seo deste
captulo discutir vrios outros mtodos, mas no h mtodo perfeito.
Figura 3.20. Forma de onda de fala de we, com os cursores marcando 10 perodos glotais. A durao daquela poro 95,8
ms, ento a f0 mdia de 104 Hz.

Filtros
Termos bsicos
Vimos no Captulo 2 que um filtro um sistema que passa (ou aumenta) algumas freqncias, mas atenua
outras. A filtragem tambm foi mencionada anteriormente neste captulo, como no uso de banco de filtros
para realizar uma anlise espectral da fala. Agora hora de dar uma olhada mais detalhada na filtragem.
Devido ao fato de um filtro oferecer uma transmisso de energia selecionadora de freqncias, ele tem uma
curva de resposta que varia ao longo do espectro de freqncias. Como mostrado na Figura 3-21, uma curva

de resposta de um filtro ter um ou mais passa-bandas, e um ou mais pra-bandas. O filtro pode ser passaaltas ou passa-baixas (se o passa-bandas estiver acima o abaixo do pra-bandas), ou, no caso geral, como na
Figura 3-21, ele pode ser um filtro passa-bandas, que pra bandas em ambos os lados. A freqncia em que a
resposta do filtro comea a mudar chamada de freqncia corner (corner). Devido ao fato de a mudana
ocorrer de fato sobre uma gama de freqncias, a freqncia corner apenas nominal, entretanto. Se a
mudana na resposta abrupta, diz-se que o filtro tem cortes bem marcados ou com saias ngremes. Filtros
reais no tem uma resposta perfeitamente plana no passa-bandas ou no pra-bandas. Em vez disso, eles
possuem alguma ondulao na resposta, como na Figura 3-21. A Figura 3-21 de cabea para baixo seria a
curva de resposta de um filtro rejeitador de bandas, com um pra-bandas no meio e passa-bandas em cada
lado. Um filtro rejeitador de bandas com um pra-bandas estreito chamado de filtro notch.
Figura 3.21. Curva de resposta de um filtro passa-bandas, identificando o passa-bandas, o pra-bandas e o guarda-bandas.

Usos de Filtros na Cincia da Fala


Duas aplicaes comuns foram introduzidas neste captulo: pr-nfase e anti-aliasing. Um filtro de prnfase para a fala um filtro passa-altas, usualmente com uma resposta que aumenta em 6 dB por oitava
acima de uma freqncia corner de umas poucas dezenas de hertz. Esse filtro aumenta as freqncias,
que so, em mdia, de amplitude mais baixa na fala. De fato, medida que a fala erradia dos labios, ela
atenuada por 6 dB por oitava, de modo que o pr-nfase naquela taxa simplesmente re-armazena o sinal
gerado de fato no trato vocal.
Um filtro anti-aliasing (pr-amostragem) um filtro passa-baixas que atenua finamente as freqncias
acima da metade da taxa de amostragem. Como explicado no Captulo 3, esse filtro necessrio para a
gravao e anlise digital, mas no para processos anlogos, como na gravao convencional por fitas.
Outro uso da filtragem focar uma anlise na extenso de freqncias de interesse. Por exemplo, suponha que
desejssemos estudar dois tipos de sons de [s], como os do coreano. Todas amostras de [s] consistem
primariamente de um som de alta freqncia, e so baixos em amplitude comparado s vogais. Se
simplesmente plotarmos uma forma de onda da presso sonora com uma escala de amplitude larga o
suficiente para as vogais, todas amostras de [s] sero de baixa amplitude, e teremos dificuldade para discernir
quaisquer diferenas. Entretanto, se primeiramente aplicarmos um filtro passa-altas, a amplitude dos sons de
alta freqncia como [s] sero relativamente maiores, e as diferenas entre eles sero mais fceis de se ver.
Outras anlises, como espectrogramas, so tambm tipicamente mais reveladoras se a extenso de freqncia
de interesse for feita mais proeminente pela filtragem.
Outro uso para os filtros est no estudo da percepo. Por exemplo, suponhamos que trabalhemos para
uma companhia telefnica, avaliando possveis melhoras nos sistemas de transmisso. Esses sistemas
agora transmitem uma largura de banda de apenas cerca de 300 a 3000 Hz; portanto, eles so filtro passabandas. Suponhamos que alguma melhora projetada para o sistema aumente essa largura de banda para
5000 Hz. Poderamos realizar uma srie de estudos perceptuais para determinar se o efeito na percepo
das pessoas valeria o aumento dos custos.
Um quinto uso maior para os filtros no estudo da fala est nas anlises espectrais e espectrogrficas.
Como notado anteriormente neste captulo, um espectrgrafo quebra a fala em seus componentes de
freqncias atravs da filtragem, seja com filtros digitais ou anlogos. A largura de banda desses filtros
faz uma diferena crucial para o espectrograma resultante. Alguns exemplos dessa diferena so
mostrados mais tarde neste captulo.
Esses so apenas alguns exemplos de como filtros so usados no estudo da fala. Uma parte central da

cincia da fala est relacionada com as freqncias que constituem a fala, e sempre que se foca em um
certa faixa de freqncias, usa-se filtros. A filtragem tambm uma parte essencial na produo da fala,
como vimos no Captulo 2.

Filtros Digitais versus Analgicos


Filtros podem ser construdos de duas formas: analgico e digital. Um filtro analgico um circuito
eletrnico, elaborado para responder a certa faixa de freqncias em resumo, um ressoador. Este
circuito feito de resistores, capacitores e indutores. Atravs do ajuste dos valores desses componentes,
podemos modificar a curva de resposta de nosso filtro, afetando a largura de banda, as freqncias corner
e ondulaes. (Para exemplos, veja Baken, 1987, pp. 21-6).
Um filtro digital, por outro lado, no contm esses componentes fsicos; uma regra, uma equao,
aplicada uma seqncia de amostras de fala. O simples exemplo introduzido anteriormente neste
captulo foi o de diferenciao, para cada amostra, subtrao de alguma proporo da amostra anterior:
y(n) = x(n) ax(n-l),
onde x(n) uma amostra do sinal original no tempo n
y(n) a amostra correspondente do sinal diferenciado
e a um multiplicador constante, usualmente entre 0,9 e 1,0.
Em outras palavras, damos um passo para trs atravs de um sinal digitalizado, amostra por amostra,
subtraindo de cada amostra alguma grande proporo de seu predecessor, de modo que as amostras
resultantes representam principalmente as mudanas. Por que essa operao age como um filtro passaaltas? Basicamente, porque diferenas de amostra a amostra so variaes de alta freqncia, assumindo
que a taxa de amostragem alta. Esas variaes so relativamente bem preservadas pela diferenciao,
mas uma variao de baixa freqncia atenuada em cada passo. De fato, quando a = 0,9, a diferenciao
resulta em uma curva de resposta perto de uma pr-nfase de 6 dB por oitava.
Obviamente, h outros tipos de filtros digitais. De fato, qualquer funo da freqncia pode ser
considerada um filtro. De interesse especfico na cincia da fala so filtros baseados na codificao
preditiva linear (LPC, na sigla em ingls), discutido abaixo. Os parmetros da anlise de LPC
representam as freqncias e larguras de banda dos formantes, para que se possa filtrar um sinal atravs
da alterao desses parmetros.

A Negociao Tempo/Freqncia
Sejam analgicos ou digitais, os filtros compartilham uma propriedade crucial com todos os outros
ressoadores, a saber, h uma negociao entre resoluo de freqncias e resoluo temporal. Um aspecto
dessa negociao bastante bvia: um filtro de banda larga ir manchar uma faixa de freqncias
atravs da resposta a qualquer freqncia dentro de sua largura de banda. Como mostrado na Figura 3-22,
um filtro com uma largura de banda de 300 Hz centrado em 450 Hz responder eficientemente a qualquer
freqncia entre 300 e 600 Hz; ele fracassar em distinguir entre elas. Do outro lado, um filtro com uma
largura de banda de 60 Hz (banda estreita), tambm centrado em 450 Hz, responder eficientemente
somente a freqncias entre 420 e 480 Hz, dando-nos informaes mais detalhadas sobre freqncia.
Figura 3.22. Curvas de resposta de filtros passa-bandas de banda larga (curva inferior) e estreita (curva superior).

O que menos bvio que o reverso verdadeiro para a resposta dos filtros ao longo do tempo. O filtro
de banda larga responde rapidamente a sinais dentro de sua faixa de freqncias, enquanto o filtro de
banda estreita responde mais vagarosamente. por isso que um espectrograma de banda estreita (ou seja,
o produzido com filtros de banda estreita) fornece informao refinada da freqncia, mas a mancha ao
longo do tempo, destruindo eventos breves, enquanto um espectrograma de banda larga mancha
informao ao longo da freqncia, mas exibe eventos breves mais claramente. A Figura 3-23 ilustra essa
diferena para um segmento da vogal [I]. A anlise de banda larga (parte superior da Figura 3-23), devido
a sua resoluo temporal, mostra as estrias verticais associadas com pulsos glotais, enquanto a anlise de
banda estreita (parte inferior da figura), devido sua resoluo de freqncia, exibe os harmnicos da
fonte larngea. A negociao entre resoluo de freqncia e tempo um exemplo do princpio da
indeterminncia na fsica. Aplicado anlise da fala, isso significa que no podemos alcanar ambas
resoluo de freqncia precisa e resoluo temporal precisa na mesma anlise (ao menos no com os
mtodos convencionais descritos neste captulo). Devido ao fato de anlise de banda estreita e larga serem
complementares nesse respeito, pode ser desejvel usar ambos tipos para determinar as propriedades
acsticas de uma amostra de fala especfica. A figura 3-24 mostra o uso de ambas anlises para o
sintagma talk today. Note que as estrias verticais associadas com os pulsos glotais e as exploses de rudo
associadas com as consoantes t e d so bem definidas no tempo na anlise de banda larga (parte superior
da Figura 3-24). Entretanto, os harmnicos da fonte da voz so evidentes apenas na anlise de banda
estreita (parte inferior da figura).
Figura 3.23. Anlises de banda larga (topo) e estreita (fundo) da mesma amostra de fala (um segmento de uma vogal
sustentada [i] como em he) para ilustrar diferenas em freqncia e resoluo temporal entre os dois filtros de anlise. Notem
que a vibrao das pregas vocais analisada como pulsos glotais (estrias verticais) na anlise de banda larga e como
harmnicos (bandas horizontais finas) na anlise de banda estreita.

Em um filtro analgico a largura de banda est na faixa de freqncias em que o circuito elaborado
ressoa. Um filtro digital no ressoa literalmente. Como ele pode ento ter uma largura de banda? Um
filtro digital no pode filtrar uma amostra (um nmero), claro; ele pode achar variao (i.e., freqncias)
apenas em uma srie de amostras. A contraparte largura de banda em um filtro digital o nmero de
amostras (freqentemente chamados pontos) que o filtro toma como unidade de anlise. Uma diferena
pequena em freqncia leva um longo tempo para se manifestar. Por exemplo, duas freqncias que so
diferentes apenas por 10 Hz levam 1/10 s (segundo) para diferir em um ciclo completo, mas diferenas de
100 Hz se apresentam dez vezes mais rpidas. Se nosso filtro opera em um longo intervalo (muitas
amostras), ele pode detectar pequenas diferenas em freqncia, mas sua resposta mudar apenas depois
daquele intervalo resposta devagar no tempo. Em outras palavras, temos exatamente a mesma
negociao entre a resoluo temporal e de freqncia na filtragem digital que tnhamos com os filtros
fsicos. De qualquer forma, se quisermos responder a pequenas diferenas em freqncia, temos de operar
em longos intervalos de tempo, ou se quisermos trabalhar com intervalos curtos de tempo, poderemos ver
apenas diferenas grandes em freqncia. Nem os ressoadores, nem as equaes podem ser altamente
seletivos em ambos tempo e freqncia, pois tempo e freqncia so inversamente relacionados.
Sempre que filtramos um sinal, perdemos alguma informao sobre mudanas ao longo do tempo. De
fato, esse efeito pode ser quantificado: a constante temporal de um filtro (analgico ou digital) o tempo
requerido para sua resposta cair em cerca de 37% de seu valor de pico. Mais precisamente, a proporo
1/e, em que e a base dos logaritmos naturais. a resposta do filtro a seu plo mais alto, sua maior
freqncia de ressonncia, que medida. Alguns programas computacionais permite que construamos
filtros que suportam vrias especificaes; a constante temporal uma dessas variveis, junto com as
freqncias corner e largura de banda. s vezes a constante temporal para um filtro digital colocada em
termos de nmero de amostras. Por exemplo, uma constante temporal de 100 amostras em uma taxa de
amostragem de 10 kHz significa que a resposta cai para 1/e em 10 ms. Esse filtro distorcer as mudanas
mais rpidas da fala, como as exploses das oclusivas e as transies de vogais.

Embora os filtros possuam muitas aplicaes prticas no estudo da fala, talvez sua maior importncia seja
como modelos do trato vocal, pois, como vimos no Captulo 2, o trato vocal um filtro complexo em
constante mudana. Com a excitao das pregas vogais vibrando, ele pode ser descrito como um conjunto
de ressoadores, cada um com uma freqncia central e uma largura de banda. Essa viso da fala permitiu
cincia da fala aplicar as propriedades conhecidas dos filtros anlise da produo da fala.

Tipos de Filtros
H alguns tipos clssicos de filtros que ilustram as negociaes que um desenvolvedor de filtros deve
fazer. Esses tipos eram originalmente filtros analgicos, mas podem ser imitados pelos filtros digitais.
Filtro Butterworth: maximamente plano, i.e., ondulao mnima em cada passa-bandas ou prabandas. A negociao so transies graduais entre as pra e as passa-bandas.
Filtro Chebychev: transies mais suaves do que no Butterworth, mas com ondulao no passabandas.
Filtro Chebychev II: o oposto, ondulao no pra-bandas, mas plano no passa-bandas.
Filtro elptico: ondulao tanto no passa quanto no pra-bandas, mas transies mais suaves entre
as bandas (saias ngremes).
Como essas descries ilustram, em acrscimo negociao entre resoluo de freqncia e temporal, h
uma negociao entre transies suaves e onduladas. A escolha depende da aplicao. Por exemplo,
transies suaves no so desejadas na pr-nfase, mas elas so essenciais no anti-aliasing; quaisquer
componentes de freqncia acima da metade da taxa de amostragem adicionar distoro a um sinal
digitalizado.

Anlise Espectral
A discusso at esse ponto cobre os procedimentos pelos quais um sinal armazenado em um
computador digital e visualizado como uma forma de onda para o propsito de se fazer medidas
temporais e de amplitude. Agora nos voltaremos para algumas das mais importantes aplicaes na anlise
acstica-anlise espectral. Para esse propsito, necessrio selecionar uma parte da forma de onda (ou
mais precisamente uma seqncia de valores digitais que representam a forma de onda). Esse intervalo
selecionado chamado de moldura e ilustrado na Figura 3-25. A durao do intervalo selecionado para
anlise chamado de largura da moldura e tipicamente da ordem de 20-30 ms (grande o suficiente para
incluir dois ou trs perodos glotais), mas valores mais longos ou curtos podem ser apropriados para
certos propsitos de anlise. A anlise de uma amostra de fala de qualquer largura requer o uso de vrias
molduras sucessivas (a moldura anda ao longo da forma de onda, de modo que um intervalo constante
selecionado para anlise em vrias regies do sinal). O intervalo da moldura define o grau de
sobreposio entre molduras sucessivas. Se a sobreposio grande demais, uma computao
desnecessria realizada. Se a sobreposio grande demais, ento a anlise poderia perder mudanas
rpidas no sinal. A energia em uma moldura pesada de acordo com a janela. Como discutido
anteriormente, a janela uma funo de peso que minimiza a amplitude do sinal nas quinas da janela. A
moldura e a janela de anlise definem uma poro do sinal que ser analisado com uma transformada de
curto termo de algum tipo.
Figura 3.25. Ilustrao da anlise de curto termo de uma forma de onda da fala, mostrando o comprimento da moldura, a

janela da moldura e o formato da janela. A anlise realizada na poro da forma de onda contida na moldura. Esse intervalo
moldado por uma janela ou uma funo de peso. As molduras de anlise so repetidas em pontos determinados pelo intervalo
da moldura. Para muitas anlises de curto termo, desejvel incluir, no mnimo, dois perodos glotais na moldura de anlise.

Todo o processo, comeando com o sinal original e prosseguindo com filtragem, converso A/D, seleo
de moldura, janelamento e aplicao de uma transformada de curto tempo, mostrado na Figura 3-26. As
transformadas de curto tempo incluem vrios tipos de anlise espectral bem como outras funes como
autocorrelao. Todas elas operam no sinal contido na moldura de anlise. Agora discutiremos essas
anlise de curto termo.
Figura 3.26. Diagrama dos passos principais na anlise de curto termo digital, comeando com a operao da converso
analgico-digital e prosseguindo atravs de seleo da moldura, janelamento e clculo de uma transformada de curto termo
especfica, quatro dais quais so discutidas neste captulo.

Anlise de Fourier
A anlise de Fourier toma seu nome do matemtico Jean Baptiste Joseph Fourier, que foi transformado
em baro por Napoleo em 1808 por seu servio no governo, no pela sua matemtica. Fourier mostrou
que formas de onda peridicas, no importa quo complexas, podem ser analisadas como a soma de uma
srie infinita de componentes senoidais, variando em amplitude e fase. Cada componente um mltiplo
inteiro da fundamental. Essa prova essencial cincia da fala, porque freqentemente lidamos com
formas de onda peridicas complexas, cujas freqncias componentes mais fortes so as ressonncias do
trato vocal e so essenciais produo e ao reconhecimento. Assim, a anlise de Fourier pode nos dizer
muito sobre os sons da fala. Essencialmente, ela transforma uma amplitude peridica em funo da forma
de onda temporal em forma de onda de freqncia, conhecida como espectro, um grfico da amplitude
dos vrios componentes de freqncia.
Entretanto, como comum na aplicao de matemtica ao mundo fsico, h alguns furos.
Primeiramente, o teorema de Fourier aplica-se a ondas peridicas, enquanto os sons da fala so apenas
quase peridicos, como vimos. Por exemplo, qualquer som que acaba com o tempo no
verdadeiramente peridico. Em segundo lugar, Fourier estava falando sobre formas de onda contnuas,
enquanto na anlise digital estamos lidando com amostras discretas dessa forma de onda. Em terceiro
lugar, levar a cabo a anlise de Fourier como desenvolvida por ele computacionalmente difcil, mesmo
utilizando um nmero finito de componentes. Entretanto, h algumas solues para todos esses
problemas. Podemos adaptar a anlise de Fourier para forma de onda quase peridica atravs do
janelamento (gradualmente aumentando e diminuindo a amplitude do sinal, em vez de subi-la e baix-la
abruptamente). H Transformadas Discretas de Fourier (DFT, na sigla em ingls) que se aplicam a
dados amostrados. Um tipo de DFT uma Transformada Rpida de Fourier (FFT, na sigla em ingls),
que computadores de mesa podem realizar rapidamente.
At mesmo antes das melhorias computacionais, o teorema de Fourier foi essencial, porque garantiu que
uma forma de onda complexa tivesse freqncias componentes que um banco de filtros, por exemplo,
pudesse encontrar. Como vimos anteriormente, essa foi de fato a forma que a anlise tomava nos
dispositivos analgicos. Agora a anlise digital consiste de um FFT de amostras de uma forma de onda.
Ele resulta em um espectro mostrando a amplitude de cada harmnico da fundamental. (Teoreticamente,
ele deveria indicar a fase relativa de cada componente tambm, mas fase no to importante quanto
freqncia e amplitude para especificar sons da fala.)
A Figura 3-27 mostra esse espectro para uma parte da vogal [i] em we. O eixo horizontal a
freqncia, de 0 a 5000 Hz (o corte do filtro). O eixo vertical a amplitude, de uma referncia de 0 dB no
topo para -80 dB no fundo. Cada pico no grfico um harmnico (mltiplo inteiro) da fundamental. O
cursor (linha vertical) aponta para o dcimo terceiro harmnico, que um mximo local, pois est perto

de uma freqncia de ressonncia do trato vocal articulando essa vogal: o segundo formante. Como o
painel lateral indica, a freqncia desse harmnico 2051 Hz e sua amplitude 44 dB abaixo do nvel de
referncia. O primeiro formante est perto do segundo harmnico, em aproximadamente 300 Hz. Essa
grande separao entre o primeiro e o segundo formantes uma caracterstica distintiva da vogal vogal /i/.
A anlise de Fourier torna possvel identificar essas propriedades essenciais dos sons da fala.
Figura 3.27. Forma de onda da fala e espectro de Fourier de [i]. O cursor no espectro aponta para o 13o harmnico, que est
perto do pico de F2.

Predio Linear
A anlise de Fourier bsica para o estudo da fala, mas no a nica forma de determinar um espectro
nem a melhor para todos os propsitos. Um mtodo de anlise desenvolvido mais recentemente a
predio linear ou a codificao preditiva linear (LPC, na sigla em ingls) ( Atal & Hananer, 1971;
Atal & Schroeder, 1970). O LPC vem de duas fontes: o ramo da estatstica conhecido como anlise de
sries temporais, que tem como finalidade identificar regularidades nos dados variantes no tempo, e o ramo
da engenharia preocupado com a transmisso de sinais. A anlise de sries temporais no se aplica apenas
fala, mas tambm a taxas de nascimento, eletroencefalogramas, pontos de sol, preos da bolsa de valores
qualquer fluxo de dados em funo do tempo.
Um problema clssico na transmisso de sinais que a capacidade de qualquer canal limitada. Os canais
de telefone intercontinentais via satlite, por exemplo, so caros, e, por isso, os engenheiros tentam
descobrir meios de comprimir os sinais. Uma forma o cdigo preditivo linear. O LPC construdo do
fato que qualquer amostra na fala digitalizada parcialmente previsvel de seus predecessores imediados;
a fala no varia enormemente de amostra a amostra. A predio linear apenas a hiptese que qualquer
amostra uma funo linear daqueles que a precedem. Expressa por uma equao, essa hiptese :
x(n) = a1[x(n-l)] + a2[x(n-2)] + ... - e(n),
que significa: a amostra no tempo n [x(n)] igual amostra precedente [x(n-l)], vezes algum peso [a1],
mais a amostra antes daquela, vezes algum peso, mais outras amostras com pesos, menos algum erro
[e(n)]. Sendo essa predio precisa, pode-se transmitir no as amostras individuais, mas os pesos e erros.
Parece que complicamos nossa transmisso e no o contrrio; a simplificao que os pesos no mudam
to rapidamente quanto as amostras em si. Ou seja, se amostramos um sinal 10.000 vezes por segundo,
temos uma nova amostra a cada 100 s. Mas enquanto o sinal permanece em um padro (ex.: uma vogal
em estado estacionrio), os pesos do LPC tendem a permanecer o mesmo. Assim, eles precisam ser
atualizados apenas a cada 10 ou 20 ms, a fim de transmitir uma fala inteligvel, uma economia de cerca de
um cem avos (one-hundredfold). Obviamente, a predio no completamente precisa, de modo que a
fala transmitida no perfeita. Uma varivel o nmero de amostras precedentes includas na predio,
usualmente da ordem de 10 ou 20 para a anlise da fala.
Como discutido at aqui, a codificao preditiva linear um modelo da seqncia de amostras que
constituem um sinal, uma representao do sinal ao longo do tempo. Entretanto, um conjunto de
coeficientes de predio linear possui uma igualmente vlida interpretao em termos de freqncia. a
resposta de freqncia de um filtro digital daqueles coeficientes. (A derivao est alm do escopo deste
livro; para uma viso geral, vide Makhoul, 1975.) Em sua interpretao de freqncia, os termos com
peso na equao representam as freqncias e amplitudes das ressonncias do trato vocal, e o termo de
erro, conhecido como o resduo, representa aquilo que fica sem ser explicado. Se o modelo das
ressonncia bom, o que sobra apenas a entrada: a excitao do trato vocal pelo sinal na glote. Assim, o
modelo de LPC como um todo representa exatamente o que queremos saber.

A anlise preditiva linear, como uma transformada de Fourier, relaciona uma representao de tempo
para uma de freqncia. Uma diferena crucial que um espectro de Fourier representa harmnicos da
fundamental, enquanto um espectro de LPC representa as freqncias e amplitudes dos formantes
(ressonncias). Qual melhor depende parcialmente dos propsitos. No espectro de Fourier, as
freqncias dos formantes podem apenas ser inferidas das freqncias dos harmnicos de amplitude alta,
um problema que se torna complicado para uma fala com uma freqncia fundamental alta. Monsen e
Engebretson (1983) compararam a anlise LPC com medidas espectrogrficas, usando leitores
experientes de espectrogramas. Para amostras com f0 entre 100 e 300 Hz, esses leitores puderam medir a
freqncia central de F1 e F2 em cerca de 60 Hz; as medidas espectrogrficas foram menos precisas
para F3. Ambos mtodos foram muito menos precisos quando a freqncia fundamental excedia 350 Hz.
A escolha depende tambm da amostra; a anlise de Fourier assume que h uma estrutura harmnica
(peridica); a anlise de LPC no. Entretanto, a anlise de LPC faz suposies prprias: a maioria das
anlises de LPC hoje so modelos de ressonncia apenas, no anti-ressonncias. Entretanto, o trato vocal
introduz anti-ressonncias sim, especialmente na produo de sons da fala nasais e laterais. Por essa
razo, a anlise preditiva linear (no mnimo, um modelo todos os plos) no uma boa escolha para
analisar esses sons.
Para sons que se encaixam em ambos modelos, gostaramos de ver ambas representaes do espectro. A
Figura 3-28 mostra um espectro preditivo linear sobreposto no espectro de Fourier da Figura 3-27
(mesma vogal, mesmos eixos). O espectro LPC no mostra harmnicos; um envelope do espectro. Note
que em geral ele encaixa os picos do espectro de Fourier tambm. Nesse caso, as duas anlises resultam
em espectros altamente similares, parcialmente porque a fala para anlise se encaixa em ambos modelos:
vozeado (peridico) e no-nasalizado. Entretanto, note tambm que da anlise de Fourier sozinha,
poderamos ter dificuldade em inferir a freqncia precisa de F2, medida como 2012 Hz no espectro de
LPC. Do espectro de Fourier, um especialista pode inferir que o F2 est centrado entre o 12o e o 13o
harmnicos, mas difcil interpolar exatamente onde. No espectro de Fourier, f0 a diferena em
freqncia entre dois harmnicos. No espectro do LPC no h indicao da freqncia fundamental,
embora o F0 possa ser derivado da anlise LPC porque a fonte glotal deve ser o principal componente do
termo de erro. (Embora seja incomum assim o fazer, os harmnicos podem ser vistos em um espectro
LPC se o nmero dos coeficientes dele for aumentado substancialmente; isso uma ilustrao do
princpio de que a sensibilidade da anlise LPC a variaes temporais depende do nmero de
coeficientes).
Figura 3.28. A mesma forma de onda da figura 3.27, mas com um espectro de LPC sobreposto ao espectro de Fourier. O
cursor aponta para o pico de F2.

Espectrgrafos em Tempo Real


Os espectrgrafos agora no mercado trazem Fourier com outras anlises e exibem espectrogramas em
tempo real. Tempo Real significa simplesmente a durao do sinal em si; uma anlise em tempo real
a conduzida medida que o sinal chega, sem atrasos (Permita-nos uma licena para propaganda,
entretanto). Nesta seo usaremos o Kay DSP 5500 Sona-GraphTM como exemplo. (Para os que gostam
de detalhes tcnicos, o Kay usa realmente trs microprocessadores: um para gerenciar a exibio e
responder a comandos do usurio, e dois que so especialmente desenvolvidos para analisar sinais como a
fala.)
Do ponto de vista do usurio, talvez a principal vantagem dos espectrgrafos atuais seja o fato de a
anlise ser sempre exibida primeiramente em um monitor, como o de um computador. O usurio ento
escolhe se quer ou no imprimir essa exibio. Anteriormente, a impressora era a nica exibio, de modo
que um usurio tinha de esperar um minuto ou dois para cada anlise ser impressa mesmo se resultasse

em uma anlise ruim. A exibio do monitor nos poupa uma grande quantidade de tempo e dinheiro.
Outra diferena a grande flexibilidade em selecionar anlises e exibies. Escolhe-se de menus ou tipos
de anlises, extenses de freqncias, escalas temporais, larguras de banda efetivas e outros parmetros.
A maioria dessas escolhas no so novas. Anteriormente, podia-se selecionar uma extenso de
freqncias e imprimir uma forma de onda ou contorno de amplitude sobre um espectrograma, por
exemplo; mas a gama de combinaes possveis agora muito maior. Uma terceira grande diferena est
nas medidas. Mede-se tempo ou freqncia atravs da movimentao de cursores na tela, que mais fcil,
mais rpido e mais precisa do que medir um espectrograma impresso. Imprime-se espectrogramas para
documentao de trabalhos, no para se fazer medidas. Em suma, as principais vantagens esto no modo
como se interage com o dispositivo, no na natureza da anlise em si.
As Figuras 3-29 e 3-30 mostram uma das muitas combinaes possveis: a Figura 3-29 a documentao
e a Figura 3-30 a exibio grfica. Na Figura 3-30, o espectrograma tem as trs tradicionais dimenses;
ele representa o enunciado We show speech (no o mesmo enunciado das figuras anteriores). Acima
do espectrograma est um espectro de energia (esquerda) e uma forma de onda (direita) para o intervalo
demarcado pelos cursores verticais no espectrograma, i.e., a parte em estado estacionrio de [i] em we.
Os cursores de freqncia no espectro marcam o primeiro e segundo formantes dessa vogal, em 260 Hz e
1980 Hz. (Somente o cursor de mais baixa freqncia aparece no espectrograma.) Podemos responder
vrias questes atravs dessas duas exibies:

Quanto dura a parte da vogal entre os dois cursores de tempo?


117 ms. No texto, debaixo das leituras do cursor, veja ^T, a diferena entre os dois cursores do
tempo.
Quantos perodos h naquela parte da vogal?
Cerca de 15. No espectrograma, conte as estrias verticais entre os dois cursores do tempo.
Quais transies formnticas precedem a vogal?
No espectrograma, trace F2, por exemplo, na vogal de show, entre as duas fricativas.
Qual a largura de banda efetiva da anlise?
300 Hz no espectrograma [banda larga] e 29 Hz no espectro [banda estreita]. No texto, sob
Analysis Settings [configuraes de anlise], veja Transform size [tamanho da transformada].
As altas freqncias foram estimuladas antes da anlise?
Sim para o espectrograma; no para o espectro. No texto, sob Input Settings [configuraes de
entrada], veja Input Shaping [formato da entrada].
Qual janela de anlise foi aplicada amostra?
Uma janela Hamming, com comeo e fim especificamente gradual. No texto, sob Analysis
Settings [configuraes de anlise], veja Analysis Window [janela de anlise].
Em qual taxa foi amostrada a fala?
No respondido na exibio. Com este espectrograma, a taxa de amostragem efetiva sempre
2,56 vezes a mais alta freqncia exibida (8 kHz), ento foi 28,48 kHz.

Figura 3.29. A impresso textual que acompanha a figura 3.30. Ambas foram produzidas pelo espectrgrafo digital, modelo
5500, da Kay Elemetrics.
Figura 3.30. Espectrograma de We show speech, produzido por um adulto masculino. As duas janelas acima do
espectrograma mostram um espectro de Fourier da vogal de we e a forma de onda no comeo dessa vogal.

Para muitos propsitos, um espectrograma de banda larga e um espectro de banda estreita, como na
Figura 3-30, uma boa combinao. Afinal de contas, o valor especial de um espectrograma mostrar as
mudanas dinmicas na fala ao longo do tempo, de modo que a resoluo temporal freqentemente
importante. Entretanto, pode-se facilmente selecionar outras combinaes em um espectrgrafo digital.
Pela versatilidade, velocidade e convergncia de informao, parece difcil bater os espectrgrafos
digitais de hoje. Alguns oferecem anlise de Fourier e de LPC, com a habilidade de alterar os parmetros

de LPC e ressintetizar os enunciados, bem como passar dados para e de computadores. A pesquisa bsica
na fala desenvolver at mesmo melhores modelos de anlise.
Discutimos agora duas transformadas comuns de curto termo, o FFT e o LPC. Elas so teis para
propsitos gerais de anlise, como estimar a estrutura formntica de um som. Duas transformadas de
curto termo adicionais, cepstro e autocorrelao, so usadas tipicamente para extrair a freqncia
fundamental e sero discutidas na prxima seo juntamente com outros meios de se determinar a
freqncia fundamental da voz.

Determinando a Freqncia Fundamental


Um dos principais objetivos da anlise da fala determinar f0, que ouvintes geralmente percebem como
tom. Uma seo anterior deste captulo tocou no problema de extrair f0. Notou-se que no h meios
perfeitos de se fazer essa medida. Pode ser surpreendente, mas a estimao de f0 no de forma alguma
uma simples questo, especialmente quando o objeto fazer a estimativa para diferentes falantes e
diferentes amostras de fala. Uma variedade de procedimentos foram introduzidas (Hess, 1982,1992), e o
que segue apenas uma amostra das possibilidades.

Manualmente e Visualmente
Devido ao fato de f0 ser o recproco do perodo fundamental, um modo de estimar f0 atravs de
sucessivos perodos fundamentais. Em uma exibio da forma de onda da presso sonora, como na Figura
3-17, pode-se medir a durao de perodos e assim determinar f0, seja perodo a perodo ou como uma
mdia ao longo do tempo. Esse mtodo pode ser bastante preciso, mas lento, e mais importante, no
precisamente confivel (repetvel). Devido ao fato de ele depender da colocao de cursores em torno de
padres percebidos, dois pesquisadores podem obter resultados diferentes dos mesmos dados. Filtrar altas
freqncias pode tornar os perodos fundamentais mais fceis para identificar, mas os problemas bsicos
de velocidade e confiabilidade continuam.
De forma semelhante, pode-se medir a freqncia da fundamental em um espectro de Fourier ou em um
espectrograma com mtodos discutidos abaixo. Eles so as contrapartes no domnio da freqncia da
medio manual da durao e podem sofrer dos mesmos defeitos, somado ao fato da resoluo pobre em
alguns casos. Os pesquisadores tm desenvolvido muitos dispositivos e programas para rastrear
automaticamente a freqncia fundamental, procurando uma que seja rpida, precisa e confivel. At
agora, nenhum mtodo possui todas essas trs virtudes, especialmente entre amostras de fala variadas.

Mtodos Espectrogrficos
Um espectrograma exibe os componentes de freqncia da fala ao longo do tempo e um desses componentes
a freqncia fundamental. Exibir a f0 em um espectrograma retorna a antigas publicaes sobre o espectrgrafo
(Koenig, Dunn, & Lacy, 1946). Entretanto, a fundamental mostrada bem diferentemente nos
espectrogramas de banda larga e estreita. Consideremos novamente o espectrograma de banda larga da
Figura 3-30, especialmente a vogal [i] de we entre os cursores. Esperaramos encontrar a freqncia

fundamental exibida como um formante: como uma linha horizontal escura mas em uma freqncia baixa, e
de fato h uma linha escura na parte inferior do espectrograma desta vogal. Entretanto, o filtro digital que
produziu este espectrograma tinha uma largura de banda de 300 Hz, i.e., ele ressoava excitao sobre
aquela faixa de freqncia. Nesse caso, aquele filtro respondeu ao mesmo tempo tanto fundamental
quanto ao seu segundo harmnico; eles foram manchados juntos. Pior ainda, esta vogal tem um primeiro
formante baixo (F1), que tambm afeta esta largura de banda mais baixa de 300 Hz. Assim, a barra escura
na parte inferior do espectrograma inclui essas trs fontes de som; no podemos identificar f0 l.
Entretanto, a fundamental est refletida nos segmentos vozeados da Figura 3-30; note as barras verticais
nas trs vogais de We show speech. Devido ao fato de partes escuras em um espectrograma
representarem a amplitude do espectro, uma estria escura vertical representa um momento de
relativamente grande amplitude entre uma gama de freqncias. De fato, cada uma dessas estrias
representa a ressonncia do ar no trato vocal em resposta a um pulso glotal. (A ressonncia de fato
comea em cada fechamento da glote.) Essas estrias gradualmente se afastam na vogal de speech
indicando um tom em queda no final desse enunciado. Na vogal de we, h quinze estrias entre os
cursores: quinze pulsos glotais. O tempo entre os cursores (^T na Figura 3-29) 0,117 segundos. O
nmero de pulsos dividido pelo tempo em segundos resulta no nmero de pulsos por segundo. Neste caso
15/0,117 = 128 Hz, o tom mdio durante esta vogal.
Esse mtodo de determinar a freqncia fundamental possui os mesmos problemas de velocidade e
confiabilidade como medir perodos glotais no domnio temporal. somente to preciso quanto nossa
habilidade em contar as barras verticais e colocar os cursores em seus cantos, as fronteiras dos perodos
glotais. Nesse caso, poderamos chegar a maior preciso atravs da expanso da escala temporal,
separando as estrias depois. Podemos obter melhor uma mdia de f0 ao longo do tempo, espalhando o erro
de medio sobre vrios perodos. Felizmente, uma mdia freqentemente apenas o que queremos.

Espectrogramas de Banda Estreita


No podemos ver a fundamental diretamente na Figura 3-30, poque o filtro analisador possui uma largura
de banda grande demais. Ento estreitemos a largura de banda. A Figura 3-31 mostra dois espectrogramas
de Yes falado com uma entonao subida-descida. A parte superior um espectrograma de banda
estreita. Tendo-se separado cada espao de 59 Hz, podemos ver agora a fundamental e seus harmnicos
como linhas horizontais igualmente espaadas dentro dos formantes mais amplos. O padro subidadescida especialmente claro com os harmnicos de freqncia mdia. Um espectrograma de banda
estreita particularmente bom para ver um padro de mudana de tom ao longo do tempo.
Figura 3.31. Um espectrograma de banda larga (inferior) e de banda estreita de yes, falado com uma entonao subidadescida. As larguras de banda de anlise so 300 Hz e 59 Hz, respectivamente.

Podemos quantificar f0 dessa exibio atravs da medio da freqncia da fundamental ou de um de seus


harmnicos, cada um um mltiplo inteiro da fundamental. Se possvel, escolhemos um dos harmnicos,
como o dcimo. Na Figura 3-31, a barra mais inferior a fundamental com um pico em 160 Hz, e seu
dcimo harmnico tem um pico em 1600 Hz, logo acima da quarta linha horizontal da grelha (1500 Hz).
Medimos sua freqncia (atravs da movimentao de um cursor horizontal) e dividimos por 10 para
obter f0. Nossos erros de medio so tambm divididos por dez, ento eles sero um dcimo maiores do
que se tivssemos medido f0 em si. Sendo mltiplos da fundamental, os harmnicos mudam muito
rapidamente: H10 muda 10 vezes mais do que f0 no mesmo perodo de tempo. Se olharmos apenas os
harmnicos, mudanas no tom aparecem mais dramtica do que elas realmente so, mas depois de

dividirmos, as medidas so corretas.


Para medir f0 ou um de seus harmnicos baixos, as freqncias mais altas so irrelevantes. Pode-se mudar
a escala de freqncia exibida em um espectrgrafo, a fim de dar um zoom nas freqncias relevantes
mais baixas. A Figura 3-32 mostra a mesma palavra e o mesmo padro entonacional como na Figura 331, mas limitados para 0-250 Hz e, at mesmo, com uma anlise de largura de banda mais estreita. Com a
fundamental (e partes do segundo harmnico) preenchendo a tela, podemos tanto visualizar quanto medir
a mudana mais precisamente.
Figura 3.32. Um espectrograma de banda estreita do mesmo contorno entonacional mostrado na Figura 3.31, mas para a
regio de freqncias de 0 a 250 Hz apenas. O resultado mostra o contorno de f0 e partes do segundo harmnico.

O espectrgrafo digital em que essas figuras foram criadas tambm tem um programa para computar e
plotar a freqncia fundamental. Na Figura 3-33 um espectrograma de banda larga de yes est na
metade da parte inferior, enquanto uma forma de onda da presso do som est centrada na metade
superior. Sob a forma de onda esto trs linhas entre sees. A linha pontilhada que est mais baixa
durante a vogal, mas sobe durante a fricativa uma contagem de cruzamentos com zero (o nmero de
vezes que a forma de onda cruza o ponto zero). A linha pontilhada que cai quase a zero durante a fricativa
a amplitude. A linha pontilhada que aparece apenas durante a parte com maior volume na vogal (subir,
cair e finalmente subir um pouco) a freqncia fundamental.
Figura 3.33. A visualizao combination [combinao] do espectrgrafo Kay 5500. O canal inferior um espectrograma de
banda larga de yes, falado com uma entonao subida-descida-subida. O canal superior mostra os traos acima da forma de
onda da fala ,que representam os cruzamentos em zero, amplitude e freqncia fundamental. Esses traos so distinguidos pela
cor no monitor do espectrgrafo.

Dispositivos Dedicados
Alguns dispositivos especializados exibem a freqncia fundamental e a amplitude em tempo real (ou
seja, to rpido quanto a fala produzida). Dois bem conhecidos so o Kay Visi-Pitch e o Voice
Identification PM Pitch Analyzer, ambos dos quais medem f0 perodo a perodo. Esses dispositivos so
rpidos, portteis e relativamente fceis de usar, mas no so inteiramente precisos. Um erro tpico
dobrar a verdadeira f0; este erro freqentemente fcil de detectar, porque produz uns poucos pontos que
esto substancialmente desalinhados com o restante. Precisamente porque esses dispositivos so
independentes, pode ser difcil alinhar e integrar suas exibies com os de um espectrgrafo ou de um
computador. A Figura 3-34 mostra os contornos de tom e amplitude de um enunciado exibido por um PM
Pitch Analyzer.
Figura 3.34. Contornos de freqncia fundamental (branco) e amplitude (preto) na visualizao de um Voice Identification PM
Pitch Analyzer. Os nmeros representam a amplitude, f0 e o tempo nos pontos marcados pelos cursores.

Mtodos Computacionais
Alm de usar espectrgrafos e outros dispositivos desenvolvidos especificamente para analisar a fala, os
pesquisadores esto agora programando computadores comuns para rastrear a freqncia fundamental no
sinal da fala. H muitos tipos desses programas, pelo simples fato de nenhum deles ser perfeito. Como os
dispositivos dedicados, esses programas cometem erros caractersticos, como confundir F1 com f0, dobrar
a freqncia de f0, achar a freqncia fundamental em partes desvozeadas do sinal ou falhar em ach-la
em partes vozeadas. Nesta seo, levantaremos apenas trs abordagens como exemplos: anlise cepstral,

anlise de autocorrelao e reconhecimento de padro, uma alternativa mais geral.

Anlise Cepstral

Um mtodo de anlise de f0 desenvolvido desde os meados dos anos 1960 conhecido como anlise
cepstral. Pronunciada /'kepstral/. Esta tcnica comea com um sinal de fala e aplica uma transformada
de Fourier para gerar um espectro como a da Figura 3-27. Os harmnicos exibidos neste espectros so
peridicos, ou seja, eles recorrem em intervalos regulares. De fato, aquele intervalo a freqncia
fundamental, pois os harmnicos esto em mltiplos da fundamental. Poderamos medir manualmente
esse intervalo, movendo o cursor para cada harmnico. Na Figura 3-27, acharamos que os harmnicos
esto separados por 127 Hz: f0 est em 127 Hz, H2 em 254 (como mostrado), H3 em 381 e assim por
diante. A anlise cepstral primariamente uma forma de se recuperar esse intervalo precisa e
automaticamente.
Consideremos o espectro na Figura 3-27. Suas unidades (amplitude vs. freqncia) so diferentes dos da
Figura 3-17 (presso vs. tempo), mas certamente uma forma de onda peridica, assim o teorema de
Fourier aplicvel. Para separar os componentes de freqncia da forma de onda da presso na Figura 317, aplicamos uma transformada de Fourier, produzindo a Figura 3-27, seu espectro. Se agora aplicarmos
uma transformada de Fourier novamente na forma de onda peridica da Figura 3-27, separaremos seus
componentes, dos quais o principais o perodo fundamental. (Na verdade, aplicamos a transformada de
Fourier no espectro em potncia logartmica, i.e., um espectro dos logaritmos dos nmeros complexos
somados e elevados ao quadrado que constituem o espectro bsico de Fourier.) O resultado dessa
transformao (em uma amostra diferente) mostrado na Figura 3-35 e, com certeza, h uma ponta em
um componente.
Figura 3.35. Cepstro na caixa e a forma de onda janelada a partir da qual ele foi calculado. O pico est no perodo
fundamental.

Suspeitamos que esse componente corresponda ao perodo fundamental, mas quais so as unidades da
Figura 3-35? Uma transformao de Fourier se move entre o domnio temporal (um eixo temporal) e o
domnio de freqncia (um eixo de freqncia). Atravs de uma nova aplicao da mesma transformao,
a anlise cepstral reverte isso: comeamos um eixo temporal (a forma de onda da presso sonora),
transformamos para um eixo de freqncia (o espectro de Fourier) e ento transformamos de volta para
um eixo temporal (o cepstro). Assim, o eixo horizontal da Figura 3-35 medido em milissegundos. A
ponta est em cerca de 8,5 ms, o perodo de uma freqncia fundamental de 118 Hz.
Para indicar que essas unidades so da anlise cepstral, foram dados a elas seus prprios nomes (Noll,
1967). Cepstro apenas espectro com a primeira slaba lida de trs para frente (porque a anlise
cepstral reverte um espectro, em um sentido). A unidade temporal correspondente quefrncia, ou
seja, freqncia com as duas primeiras slabas invertidas (porque inverso de Fourier do eixo da
freqncia de um espectro). Outras unidades na anlise cepstral so nomeadas da mesma forma:
harmnico se torna rahmnico, que so os componentes de baixa quefrncia na Figura 3-35. Os
nomes podem ser um excesso de esperteza, mas o resultado claro: o pico de quefrncia na Figura 3-35
representa o perodo fundamental da fala original. A anlise cepstral requer bastante computao: pegar a
transformada de um espectro de Fourier em potncia logartmica para obter apenas uma medida de f0.
Entretanto, com as Transformadas Rpidas de Fourier e computadores mais poderosos, porm baratos,
tornou-se prtico realizar anlise cepstral de longos trechos de dados de fala, plotando automatica e
precisamente as mudanas do perodo fundamental sobre o tempo. Alm disso, as melhorias nos
algoritmos computacionais tornaram as anlises cepstrais mais robustas diante de rudo. Ahmadi e Spanias
(1999) descrevem um mtodo baseado no cepstro modificado que funcionou muito bem em uma grande base

de dados de voz. Embora essa discusso enfatiza o uso do cepstro para determinar f0, h outras aplicaes dessa
transformada que a torna de considervel interesse na moderna cincia da fala e na tecnologia da fala.

Autocorrelao
Duas sries de nmeros so tidas como altamente correlacionadas se elas aumentam e diminuem juntas.
Essa srie de nmeros poderia ser as temperaturas de hora a hora para ontem e hoje, por exemplo. Se a
temperatura seguiu o mesmo padro de subidas e descidas de hora a hora, as duas listas de nmeros
seriam altamente correlacionadas, mesmo se ontem foi, digamos, muito mais frio do que hoje. Quando
amostramos um sinal de fala digitalmente, obtemos uma srie de nmeros, cada um representando a
amplitude da forma de onda da presso sonora em um momento especfico, como impresso no canal
superior da Figura 3-36.
Figura 3.36. Forma de onda de vogal (canal superior) com duas cpias atrasadas de si mesma. Os cursores marcam um
perodo fundamental no canal superior e aproximadamente um perodo nos canais inferiores.

Dizer que essa forma de onda peridica dizer que h um padro repetido de subidas e descidas. Se
fssemos computar a correlao entre essa forma de onda e uma cpia exata da forma de onda (assim
autocorrelao), as duas cpias seriam, obviamente, perfeitamente correlacionadas. Mas e se
computssemos a correlao deste com uma cpia levemente atrasada de si, como entre os canais de cima
e do meio na Figura 3-36? A correlao seria mais alta quando o atraso, conhecido como intervalo (lag,
em ingls), estivesse perto de um perodo do tom, como entre os canais superiores e inferiores na Figura
3-36. Se computssemos as correlaes em intervalos que se estendem sobre os perodos de tom
provveis (digamos, de 20 a 3 ms, correspondendo a 50 a 300 Hz em f0), veramos picos nas correlaes
no perodo de tom real (e seus mltiplos). Essa a idia essencial da anlise de tom por autocorrelao.
Ela funciona porque na fala vozeada, a estrutura formntica no muda drasticamente dentro de alguns
milissegundos, de modo que sucessivos perodos se parecem uns com os outros. Em sons desvozeados
como [f] e [s], por outro lado, a qualidade no muda rapidamente por causa da fonte de rudo aperidica,
assim uma autocorrelao em um termo curto normalmente no resultar em picos regulares.
Obviamente, at mesmo a fala vozeada apenas quase peridica; ela muda sim, de alguma forma, em
qualidade (e tom) de perodo a perodo. Uma mudana relativamente lenta no perturba a anlise de
autocorrelao, entretanto, por causa da similaridade remanescente geral de perodo a perodo.
Infelizmente, a autocorrelao nesta forma simples aplicada ao sinal de fala bruto no funciona muito
bem. Os formantes tambm afetam a localizao dos picos de correlao, de modo que um erro comum
encontrar, no o perodo glotal, mas o perodo glotal somado ao perodo do primeiro ou segundo
formante. Pesquisas desde os anos 1960 dedicaram-se a pr-processar o sinal para reduzir a influncia dos
formantes. Um mtodo simples filtrar com passa-baixas para eliminar efetivamente formantes em
freqncias maiores do que o maior f0 esperado. Tcnicas muito mais sofisticadas, alm do escopo desta
introduo, tambm sero usadas. Para mencionar uma melhoria, as funes de autocorrelao so
calculadas para um ponto no tempo especfico usando larguras mltiplas das janelas de anlise e ento
pesando os candidatos do perodo do tom obtido das diferentes janelas (Takagi, Seiyama & Miyasaka,
2000). Em acrscimo, a funo de autocorrelao pode ser computada em verses diferentes do sinal,
como no sinal clipado no centro ou o sinal filtrado invertido. Qualquer adaptao deve confrontar dois
problemas bsicos: a estrutura formntica muda sim com o tempo (s vezes rapidamente), que interrompe
a anlise de autocorrelao pela mudana do formato da forma de onda, e a freqncia de F1 em alguns
exemplos mais baixa do que f0, de modo que simplesmente filtrar o sinal no funcionar. Apesar dessas
dificuldades, a autocorrelao um dos mtodos mais confiveis de se determinar a freqncia
fundamental, e vrios procedimentos podem ser considerados.

Reconhecimento de Padro
Todos esses mtodos relativamente elaborados possuem limitaes. Somos tentados a voltar bsica
observao com a qual comeamos: a periodicidade da fala vozeada evidente em padres repetidos na
forma de onda da presso do som. Consideremos, por exemplo, a Figura 3-37: seus quatro canais exibem
as formas de onda de [i], [Q], [o] e [u], as vogais em bead, bad, baud and booed,
respectivamente. Em cada um, vemos um formato que repetido de cinco a sete vezes ao longo da tela;
esse formato varia de vogal a vogal. No podemos de alguma forma achar sozinhos, automaticamente,
esses perodos da forma de onda, sem primeiro achar um espectro, um cepstro ou uma autocorrelao?
Podem os computadores aprender a reconhecer o padro que nossos olhos vem de primeira?
Figura 3.37. Formas de onda da fala de [i], [Q], [ ] e [u] (canais do topo ao fundo). Em cada forma de onda, pode-se ver cinco
a seis perodos fundamentais.

Isso um caso de reconhecimento de padres, um processo que central na pesquisa em inteligncia


artificial. Comeamos a ver dificuldades quando tentamos estabelecer um procedimento explcito, como:
Coloque os cursores em dois picos sucessivos (ou dois sucessivos vales). H muitos picos e vales na
forma de onda da fala; como estabelecemos quais? Se dissermos, dois picos que coincidem entre si,
teramos de criar um critrio para a coincidncia, que exatamente a maior dificuldade. Se dissermos
dois picos grandes sucessivos, teramos de distinguir os grandes sem confiar circularmente na noo
que estamos tentando explicar a de padro.
A maioria das abordagens a esse problema primeiro simplificam a forma de onda. Uma forma usar um
filtro passa-baixas em vrias centenas de hertz, maiores do que qualquer freqncia fundamental
provvel, ao menos que nosso falante seja uma criana. Isso remove muitos dos picos locais atravs da
remoo dos efeitos dos formantes mais altos. A Figura 3-38 exibe uma forma de onda da vogal (canal
superior) e essa mesma forma de onda filtrada em 850 Hz (canal do meio). Uma simplificao alternativa
clipar os picos da forma de onda, deixando apenas os picos ou vales, como no canal inferior da Figura
3-38. (Apenas reduz todos os vales a zero, ao menos que eles excedam um certo limiar.) Outra
simplificao pedir ao operador humano uma estimativa. Se o programa sabe que a resposta certa est
na vizinhana de 100 Hz, ele pode criar uma regra para picos que esto muito perto ou muito longe.
Figura 3.38. Canal superior: forma de onda da fala da vogal [i]. Canal mdio: a mesma forma de onda filtrada com passabaixas em 850 Hz. Canal inferior: a mesma forma de onda com as amplitudes clipadas, de modo a ficarem somente os picos
negativos.

A anlise ento prossegue para identificar os candidatos a picos, cruzamentos com zeros ou vales. Devido
ao fato de esse processo estar longe de estar prova de falhas, h vrias elaboraes. Idealmente, esses
mtodos acham o perodo (e portanto a freqncia) de cada perodo glotal. Isso pode ser uma vantagem
sobre a autocorrelao ou anlise no domnio da freqncia, que deve lidar com, no mnimo, vrios
perodos. At quando essa anlise prossegue, entretanto, no se est fazendo o que um ser humano faz.
No procuramos apenas picos, vales e cruzamentos com zeros; reconhecemos uma similaridade no
formato geral de perodo a perodo.

Comparaes de Mtodos Diferentes


As mais confiveis abordagens para rastrear a freqncia fundamental hoje so aquelas que usam mais do
que um mtodo e ento selecionam um valor modal (mais freqente) ou mediano (central). Obviamente,
essas anlises mltiplas requerem muita computao, mas compensam as fraquezas de um mtodo com as
foras do outro. Mtodos diferentes tendem a fracassar em situaes diferentes, ento a resposta certa

provvel de ser proeminente dentro de um conjunto computado de vrias formas.


Entretanto, ainda relevante perguntar se alguns algoritmos so superiores a outros para certos propsitos
ou condies. Parsa e Jamieson (1999) compararam vrios algoritmos desenvolvidas para gerar
estimativas altamente precisas de f0. Eles usaram diferentes tipos de sinais, inclusive variando f0,
variando nveis de rudo, variando shimmer e jitter, os quais so tambm comparados a diferentes
algoritmos para analisar tanto vozes normais quanto patolgicas. Eles concluem que a funo de
coincidncia da forma de onda (um procedimento de reconhecimento de padro) preferido para medidas
de perturbao na voz tando de amostras normais quanto de patolgicas. Esse mtodo foi bastante robusto
ao lidar tanto shimmer quanto jitter, mas foi afetado por quocientes sinal-rudo menores do que 15 dB. O
artigo de Parsa e Jamieson uma boa referncia para consultar quando tomar uma deciso sobre
algoritmos para se extrair f0.

Recuperando a Forma de Onda Glotal


Sentindo o Movimento da Glote
Uma forma de melhorar a preciso de quase qualquer mtodo de rastrear a freqncia fundamental comear
com a forma de onda na glote em vez de nos lbios. Plotar a forma de onda glotal tambm de valor ao testar a
abordagem fonte-filtro da produo da fala e ao estudar anormalidades das pregas vocais no vozeamento.
Foneticistas observaram a forma de onda glotal diretamente atravs da passagem de pequeninos microfones em
direo s glotes. Essa tcnica no apenas desconfortvel, mas perigosa; se os fios finos que seguram o
microfone quebram, eles podem cair at chegar aos pulmes. H agora formas de pegar as forma de onda glotal
externamente. Um dessas o eletroglotgrafo (EGG), que rastreia o movimento das pregas vocais atravs da
passagem de ondas de rdio-freqncia atravs da laringe e medindo mudanas em impedncia causadas pela
abertura e fechamento das pregas. EGG pode ser usado para determinar um nmero de propriedades da
vibrao das pregas vocais (Abberton, Howard, & Fourcin, 1989; Childers, Hicks, Moore, Eskenazi, &
Lalwani, 1990; Herte-gard & Gauffin, 1995). Uma nova tcnica promissora a glotografia eletromagntica
(Titze et al., 2000). At um simples e barato acelermetro, um pequeno microfone de contato, na verdade, pode
medir o movimento na superfcie da garganta medida que ele forado para dentro pela presso acima ou
abaixo da glote. A Figura 3-39 mostra a forma de onda da presso do som de uma vogal [a] (canal superior) e o
movimento simultneo da garganta transduzida por um acelermetro anexado parte frontal da garganta
abaixo da laringe (canal mdio). A freqncia fundamental pode ser observada e medida mais confiavelmente
pelo ltimo na maioria dos mtodos.
Figura 3.39. Canal superior: forma de onda da fala da vogal [a]. Canal mdio: sada do acelermetro colocada no lado de fora da
garganta, logo abaixo da laringe. Canal inferior: a forma de onda do canal superior depois de uma anlise de LPC e filtragem inversa
para estimar a forma de onda do fluxo areo glotal.

Filtragem Inversa
Outra abordagem baseada na teoria fonte-filtro da fala apresentada no Captulo 3. Lembramos que nessa
abordagem, o espectro do som na glote filtrado pela funo de transferncia do trato vocal e dos lbios.
Em outras palavras, o sinal de fala que erradia de nossos lbios possui um espectro que apenas essa
funo de transferncia aplicado ao espectro produzido na glote. Se pudssemos desfazer o efeito da
funo de transferncia, recuperaramos o espectro glotal, onde a freqncia fundamental bastante
bvia, porque a ao das pregas vogais de longe a maior perturbao no fluxo de ar naquele ponto.

Dos filmes de raios-x sabemos muito sobre o formato do trato vocal e, portanto, sua funo de
transferncia na produo normal da maioria dos sons da fala (em ingls e algumas outras lnguas, no
mnimo). Se computarmos uma funo de transferncia apropriada a um dado trecho em estado
estacionrio da fala, pegar seu inverso, aplicar essa inverso ao espectro da fala radiada e ento computar
a forma de onda correspondendo a esse espectro, conseguimos mesmo uma forma de onda que
corresponde bem forma de onda da presso na glote. O canal inferior na Figura 3-39 mostra a forma de
onda glotal subjacente estimada pela filtragem inversa da forma de onda da vogal no canal superior. Note
que, quando a glote fecha (onde esse traado cai vertiginosamente), a presso abaixo da glote sobe, como
mostrado no canal do meio. Novamente, medir a freqncia fundamental ou computar seu contorno ao
longo do tempo relativamente fcil na forma de onda glotal estimada, porque os efeitos da funo de
transferncia, as ressonncias, se foram.
Como poderamos esperar, a filtragem inversa computacionalmente custosa, e est ainda sendo desenvolvida.
Ela requer um sinal com reproduo precisa de freqncias baixas. No podemos aplicar filtragem inversa em
gravaes em fita de microfones comuns, sem falar em telefones, por exemplo. Entretanto, a filtragem inversa
pode fornecer evidncia no invasiva de anormalidades larngeas e glotais, bem como ajudar a rastrear a
freqncia fundamental.

Olhando para o Futuro: Teoria do Caos, Fractais e Ondaletas


Embora essas ferramentas analticas no sejam muito usadas hoje e no esto geralmente disponveis
nos sistemas comerciais para anlise de fala elas podem bem ser as melhores escolhas no futuro.
Portanto, apropriado comentar brevemente sobre essas anlises. Essas abordagens so baseadas na idia
de que a fala um processo no-linear, que uma abordagem muito diferente das que vimos neste
captulo. A forma padro da teoria fonte-filtro discutida no Captulo 2 qua a fala produzida por um
sistema biolgico que linear e invariante no tempo. Entretanto, como notado na seo final daquele
captulo, alguns escritores advogam uma abordagem no-linear para teoria e anlise. A teoria do caos
espalhou-se virtualmente em todas as cincias: fsicas, biolgicas e sociais.
Apenas exemplos selecionados dessas anlises sero considerados aqui. Ban brook, McLaughlin e Mann
(1999) exploraram a anlise de vogais sustentadas com uma gama de traos geomtricos invariantes
desenvolvidos para analisar sistemas caticos. Eles concluram que embora a fala vozeada possa ser
caracterizada por um pequena nmero de dimenses, no , necessariamente, catica. Banality e
Nakagawa (1996) tambm relataram que propriedades fractais so um modo efetivo de anlise dos sons da
fala, incluindo ambos vogais e consoantes, se as dimenses fractais dependentes do tempo so usados nas
anlises.

Gravando a Fala: Requerimentos Bsicos

Este captulo conclui com uma breve descrio do qu usualmente o comeo da anlise da fala a
essncia da gravao da fala. Essa cronologia reversa justificada pelo fato de que as questes na
gravao da fala refletem alguns dos tpicos abordados na discusso da anlise da fala. Ultimamente, as
anlise da fala so limitadas pela qualidade das gravao dos sinais da fala. Bem frequentemente, a
qualidade ruim da gravao limita ou at mesmo impede algumas anlises potencialmente interessantes.
O desenvolvimento de um laboratrio para gravaes acsticas e anlises acsticas deve considerar vrias

questes, incluindo o ambiente de gravao, o equipamento e o meio de gravao, requerimentos de


armazenamento e expectativas para tipos e quantidade de anlise. Cada um desses itens sero
consideramos brevemente. Vejam tambm Gopal (1995).

Ambiente de Gravao
Um primeiro passo que pode ser criticamente importante para o sucesso de quaisquer tentativas de gravar
os sinais de fala avaliar o ambiente de gravao e remediar quaisquer problemas que possam surgir. O
rudo de fundo de vrias fontes pode contaminar as gravaes da fala. Algumas fontes so: luzes
fluorescentes; sistemas de bipes (pagers), banheiros ao redor, corredores e elevadores; playgrounds ou
parques; rodovias bastante movimentadas; um equipamento eletrnico (incluindo computadores
pessoais). Rudo ambiental pode limitar severamente a preciso da anlise acstica, especialmente para as
medidas de perturbao de jitter e shimmer (Ingrisano, Perry, & Stepson, 1998). Quando no possvel
eliminar as fontes de rudo indesejveis, pode ser vivel para fazer gravaes em horas que o rudo
reduzido em intensidade ou ser menos provvel de ocorrer (como madrugadas ou noites). Se nada pode
ser feito para eliminar um rudo no ambiente de gravao, ento a filtragem pode ser considerada como
uma forma de eliminar a energia acstica indesejada.
Mesmo se fontes externas de som no estiverem presentes, outros problemas podem ocorrer. Um desses
reverberao,ou som refletivo na sala de gravao. Para algumas aplicaes, a reverberao pode ser um
problema considervel (Archetype, 1998). A reverberao pode ser especialmente problemtica em
quartos que possuem superfcies paralelas rgidas (uma situao tpica na maioria dos prdios). As ondas
sonoras viajam para frente e para trs em salas deste tipo, causando uma condio conhecida como eco
de tapa (slap echo) que especialmente perturbador para altas freqncias. Outro problema de refleco,
chamado refleces ao redor resulta quando um microfone de gravao localizado perto de uma
superfcie rgida. Portanto, freqentemente melhor colocar um microfone no centro de uma sala em vez
de perto de uma parede.

Meio e Equipamento de Gravao


Alguns tipos diferentes de microfones esto disponveis. Embora alguns usurios prefiram um microfone
grande montado no topo de uma mesa ou um pedestal de microfone, h boas razes para se considerar um
microfone condensador de cabea miniaturizado. Microfones modernos deste tipo podem garantir
gravaes de alta qualidade mesmo quando o falante muda a posio da cabea ou do corpo. Rheinholdt e
Titze (1997) relataram que um microfone deste tipo se adapta perfeitamente a necessidades gerais de
gravao. Esses microfones e seu suporte de cabea so leves e usualmente podem ser usados
confortavelmente para longos perodos se necessrio.
O tipo de gravador e o meio so decises conjuntas. Entre as escolhas esto: (1) gravadores de fita
analgicos com fitas rolo-a-rolo ou fitas cassete; (2) gravadores com fita de udio digital (DAT); CDROMS, ou (4) um disco digital. Para a maioria dos propsitos, um gravador DAT fornecer resultados
satisfatrios. Gravadores DAT so disponveis com diferentes taxas de amostragem, mas a maioria dos
usurios ficar satisfeita com uma taxa de amostragem de 44,1 kHz e uma converso de 16 ou 32 bits.
Uma converso de 16 bits permite que 65.536 nveis de amplitude sejam representados na amostra de fala
digitalizada. Os gravadores DAT possuem controles que so altamente similares aos de gravadores de fita
analgicos. Portanto, a maioria dos usurios se adapta rapidamente tecnologia digital.
Para gravaes de alta qualidade, as taxas de amostragem devem ser maiores do que 8 kHz. Bettagere e

Fucci (1999) relataram que a qualidade julgada pelo ouvinte foi superior na fala digitalizada em 16 kHz,
comparado fala gravada por fita analgica. Quando uma taxa de amostragem de 8 kHz foi usada para a
fala digitalizada, a qualidade foi essencialmente igual da fala gravada em fita analgica.
Idealmente, as gravaes da fala durariam indefinidamente. Entretanto, as gravaes se deterioram com o
tempo, especialmente em ambiente com altas temperaturas e umidades. Tanto fitas analgicas quanto
digitais so fitas com partculas de metais que esto sujeitas a deteriorizaes eventuais (Speliotis &
Peter, 1991). Para a mdia magntica, geralmente, a deteriorizao pode ser detectada dentro de 5 a 8 anos
depois que as gravaes foram feitas (Leek, 1995). No se deve assumir que o DAT fornece um
armazenamento relativamente permanente da informao gravada. Embora o controle de temperatura
estendero a preciso da informao gravada, os erros, ultimamente, contaminaro a qualidade da fala
gravada. Um arquivo acstico permanente teria de ser baseado em outras mdias de gravao, mas elas
no so geralmente usadas nas gravaes de fala para propsitos gerais.
Concluso
Neste captulo apresentamos algumas das atuais tcnicas para anlise da fala. Essas tcnicas esto em
constante mudana; tanto na anlise de freqncia fundamental quanto na de anlises espectrais, novas
abordagens matemticas e novas formas de visualizar o sinal e seus componentes tm aparecido
regularmente. A excitao da cincia da fala hoje no apenas no novo entendimento da fala e novas
aplicaes prticas desse entendimento, mas tambm em novas formas de ganhar entendimento.
Similarmente, a motivao para todo esse desenvolvimento tem, pelo menos, trs fontes: o desejo bsico
de entender uma atividade central humana, o desejo de desenvolver melhores terapias para a fala que, de
alguma fora, deu errado, e um interesse comercial considervel na sntese e reconhecimento de fala.
Especificamente, a dificuldade de programas mquinas para reconhecer a fala nos forou a reconhecer
que o que sabamos sobre a fala, mesmo apenas cinco anos atrs, estava incompleto.
Um exemplo pode ilustrar os problemas no resolvidos: uma criana, uma mulher e um homem podem
cada um dizer a mesma sentena com a mesma entonao e cada um reconhecer que assim o fizeram.
Entretanto, os trs enunciados devem ter algo em comum. No entanto, todas as tcnicas pesquisadas neste
captulo no podem definir o que elas tm em comum, no mnimo, no de uma forma geral que possamos
desenvolver uma mquina que possa reconhecer palavras em contextos falados por qualquer falante
normal. Note que se pudssemos fazer isso, teramos um transcritor geral, uma mquina de ouvir para os
surdos, outros dispositivos que responderiam a comandos de fala complexos. Todos esses objetivos
prticos e muitos outros ajudam a energizar a cincia da fala hoje.
Como resultado dessa energia, as idias deste captulo, at mais do que dos outros, esto sujeitas a
mudanas. Isso resultante da excitao da anlise da fala contempornea.

Sumrio

Este captulo comeou com uma breve reviso da histria da anlise acstica da fala. A histria
basicamente a da instrumentao analgica. O equipamento dominante hoje digital. Qualquer um que
usar mtodos modernos de anlise acstica, portanto, deve entender os princpios bsicos de
processamento digital de sinais. Este captulo discutiu as operaes bsicas de digitalizao e anlises
selecionadas que so usadas no processamento digital de sinais da fala. Uma ateno especial foi dada a
alguns mtodos de anlise diferentes, que fornecem informao sobre as propriedades espectrais e

temporais dos sons da fala. Os captulos subseqentes sumarizam os resultados dessas anlises para
vrios aspectos da fala (vogais e ditongos no Captulo 4, consoantes no Captulo 5, variveis dos falantes
no Captulo 6 e propriedades suprasegmentais no Captulo 7).

Captulo 4

As Caractersticas Acsticas de Vogais e Ditongos


Parte I: Vogais
Questes Gerais na Produo e Percepo de Vogais
Em alguns aspectos, as vogais so os sons mais simples de se analisar e descrever acusticamente. Pelo
menos no entendimento tradicional, as vogais so associadas com uma configurao articulatria em
estado estacionrio e um padro acstico em estado estacionrio. Supostamente, ento, uma vogal pode
ser prolongada indefinidamente como um fenmeno acstico ou articulatrio. Nessa abordagem, no
necessrio considerar a dimenso temporal alm de escolher um instante que tomado como
representativo da produo da vogal. Teoreticamente, pode-se pegar um nico pulso glotal como
definidor da vogal, pois seu pulso refletir as ressonncias do trato vocal associadas com uma vogal
especfica. Em acrscimo, as vogais freqentemente so caracterizadas com um conjunto muito simples
de descritores acsticos, a saber, as freqncias dos trs primeiros formantes, como mostrado na Figura 41. Uma dada vogal poderia, portanto, ser representada como um simples ponto em um espao
tridimensional definido pelas freqncias F1, F2 e F3.
Figura 4.1. Espectrograma da vogal Q, com flechas apontando para os trs primeiros formantes F1, F2 e F3. As linhas finas na
grelha horizontal representam intervalos de freqncia de 1kHz.

Assumindo que uma vogal representada adequadamente por apenas uma amostra temporal e pelas
freqncias de seus trs primeiros formantes, sobre tudo que necessrio para caracterizar as vogais no
Ingls Americano est uma tabela tridimensional mostrando os valores de freqncia dos formantes de
cada vogal. De fato, at mesmo uma representao mais simples freqentemente usada a tabela
bidimensional da vogal que mostra as freqncias de apenas os dois primeiros formantes F1 e F2. A
tabela F1-F2, como a mostrada na Figura 4-2, talvez a mais amplamente usada e mais conhecida
descrio acstica de uma classe de sons da fala. Quase todo livro-texto introdutrio que toca nas
propriedades acsticas da fala inclui essa tabela de alguma forma. Nas sees seguintes, consideraremos o
grau com o qual essa descrio simplificada suficiente para a descrio acstica de vogais.
Figura 4.2. Grfico F1-F2 mostrando os quadrilteros voclicos para homens (etiquetado com smbolos fonticos), mulheres e
crianas.

O Modelo de Alvo Simples

A abordagem clssica de vogais e sua percepo pode ser chamada de modelo de alvo simples. Este
modelo assume que a vogal existe em uma forma cannica que invariante entre contextos fonticos e
suficientemente definida por um formato esttico do trato vocal ou por um ponto no plano F1-F2 (ou,
alternativamente, por um ponto no espao tridimensional F1-F2-F3). Este modelo esta implicitamente
assumido em muitas abordagens introdutrias (e outras no to introdutrias) de vogais. Esse modelo no
est livre de limitaes ou dificuldades. Primeiramente, como se torna imediatamente evidente em
qualquer tabela F1-F2 que inclui dados para falantes que diferem em idade e sexo, as vogais que so
ouvidas como foneticamente equivalentes pelos ouvintes muito freqentemente possuem diferenas
marcadas em seus valores de freqncia de formantes. Uma exibio clssica da diversidade acstica para
uma dada vogal reproduzida na Figura 4-3, que mostra as freqncias de F1 e F2 para vrias vogais
produzidas por uma amostragem de 76 falantes incluindo-se homens, mulheres e crianas. Como
explicado no Captulo 2, essas diferenas so esperadas na teoria acstica, em que as freqncias de
ressonncia de um tubo so determinadas em parte pelo comprimento do tubo. Quanto maior o tubo,
maiores so as freqncias de ressonncia. Obviamente, uma tabela F1-F2 como a mostrada na Figura 4-3
no d um suporte claro para o simples modelo de alvo de vogal. Este modelo pode funcionar apenas se
alguma forma de normalizao de falante for aplicada. A normalizao de falante para vogais se refere a
um processo que elimina ou corrige as diferenas intra-falantes nas freqncias dos formantes da vogal. O
processo envolve tipicamente uma transformada de escala. A normalizao no um problema trivial e
esforos contnuos esto sendo feitos para identificar uma soluo confivel, especialmente com o rpido
desenvolvimento de reconhecimento de fala por mquina. Esse problema considerado em maiores
detalhes mais tarde neste captulo e no Captulo 6.
Figura 4.3. Grfico F1-F2 (esquerda) mostrando as elipses voclicas que englobam a maioria das freqncias de F1 e F2
relatadas por Peterson e Barney (1952) para vogais produzidas por homens, mulheres e crianas. A escala de freqncia de F2
logartmica. Palavras-chave (direita) para vogais esto posicionadas de modo a corresponder s elipses de F1-F2 esquerda.

As variaes dinmicas ou temporais so outra dificuldade para o simples modelo de alvo da vogal. Uma
limitao a inabilidade do modelo em dar conta do fenmeno do alvo no-alcanado (undershoot)
(Lindblom, 1963). Este fenmeno ilustrado na Figura 4-4, que mostra os padres formnticos para
uma vogal produzida isoladamente e a mesma vogal produzida em uma slaba CVC. Note que a
freqncia F2 alcanada na slaba CVC no alcana o valor de alvo determinado pela vogal isolada.
Parece que a vogal na slaba CVC no alcana o alvo. De fato, dados de raios-x na articulao de vogais e
dados acsticos para vogais confirmam que esses efeitos de falta de alcance so abundantes na fala.
Portanto, os pontos F1-F2 para as produes de um falante da mesma vogal em diferentes contextos
exibiro uma faixa de valores. O simples modelo de alvo da vogal deve lidar com essa variao. Uma
possvel soluo propor que ouvintes compensem o undershoot acstico por um overshoot [alcance
exagerado] perceptual que essencialmente corrige a discrepncia acstica (Lindblom, 1963).
Figura 4.4. Ilustrao espectrogrfica do undershoot voclico. Uma produo sustentada, isolada, da vogal /u/ esquerda
tomada como padro-alvo. A produo da mesma vogal na slaba /dud/ direita mostra uma freqncia de F2 mais alta para /u/
do que ocorre no padro-alvo. Essa diferena chamada de undershoot e reflete os efeitos do contexto fontico.

Uma anlise acstica de perto das vogais revela que elas diferem no apenas nos valores de freqncia de
formantes de suas partes em estado estacionrio, mas em vrios outros aspectos tambm. Por exemplo,
Lehiste e Peterson (1961) acharam que as vogais diferem uma das outra nos seguintes pontos:
9. As vogais tem diferenas inerentes em durao. As vogais longas ou tensas possuem maiores
duraes do que as vogais curtas ou relaxadas e as vogais produzidas com uma posio de
mandbula relativamente aberta (as vogais baixas ou abertas) so mais longas do que as
vogais produzidas com uma posio de mandbula relativamente fechada (as vogais altas ou

fechadas).
10. Quando as vogais so produzidas em contexto com outros sons, elas diferem em suas trajetrias
formnticas. Por exemplo, vogais tensas tendem a ter offglides curtos (transies de vogal a
consoante) e longos estados estacionrios. As vogais relaxadas, por outro lado, tendem a ter
proporcionalmente longos offglides e estados estacionrios curtos.

O trabalho de DiBenedetto (1989a e b) tambm pe em dvida a adequao do modelo de alvo simples.


Ela relata que um alvo definido pelo tempo, em que F1 alcana seus mximo de freqncia, no um
atributo invariante da vogal. Em vez disso, o padro temporal de F1 tinha de ser levado em considerao
para determinar um correlato invariante da articulao da vogal. Sua pesquisa mostrou que as vogais mais
baixas so associadas com maiores freqncias de incio do F1 e mximos de F1 perto do incio da parte
voclica de uma slaba. Esses resultados indicam que uma nica propriedade F1, como um mximo de
freqncia F1, no suficiente para fazer distines da altura da vogal.
Essas diferenas dinmicas ou temporais no so tratadas pelo modelo de alvo simples. Vrios
experimentos j demonstraram que essas diferenas so relevantes para vogais. Em um desses, foi
mostrado que as vogais em contexto poderiam ser muito bem identificadas mesmo se apenas seus
segmentos transicionais fossem apresentados (Jenkins, Strange, & Edman, 1983).

Outro teste da adequao do modelo de alvo simples foi realizado por Hillenbrand e Gayvert (1993), que
sintetizaram as vogais em estado estacionrio usando os dados de freqncia fundamental e de freqncia
de formantes relatados por Peterson e Barney (1952). Os dados sintetizados foram apresentados aos
ouvintes para identificao da vogal. Se o modelo de alvo simples estivesse correto, ento as altas taxas
de identificao seriam esperadas, porque a informao acstica essencial estaria disponvel para os
ouvintes. Mas, Hillenbrand e Gayvert relataram uma taxa de erro de identificao de 27,3%, mais do que
quatro vezes a taxa de erro de 5,6% que Peterson e Barney obtiveram para seus ouvintes que
identificaram vogais produzidas naturalmente. Hillenbrand e Gayvert explicaram esta grande diferena na
taxa de erro em termo das pistas dinmicas que ajudam na identificao da vogal.

Modelos de alvo elaborados


Em reconhecimento a esses limitaes do modelo de alvo simples, alguns escritores propuseram outros
modelos que podem ser chamados de modelos elaborados de alvo. A maioria deles lida primariamente
com o problema da normalizao de falante. Uma soluo usual transformar as medidas acsticas de
formantes da vogal para um espao psicofsico ou perceptual. Este espao pode ter dimenses com
escalas em mels ou Barks (essas transformaes so definidas no Apndice C). A idia por trs desses
esforos est no fato de que o sistema auditrio realiza uma normalizao dos dados acsticos. Portanto,
uma transformao similar quelas supostamente aplicadas pelo sistema auditrio resolveriam o problema
de normalizao. A transformada de Bark ser considerada mais tarde neste captulo.

Modelo de Especificao Dinmica


Strange (1987) acreditava que nem o modelo de alvo simples nem o modelo de alvo elaborado poderiam

lidar adequadamente com a percepo das vogais. Ela props ao invs disso um modelo de especificao
dinmica em que a informao dinmica ou temporal, como tambm a informao de estado estacionrio,
fosse usada para identificar vogais. Includa nesta informao est a natureza das transies formntica
para dentro e fora de uma vogal em estado estacionrio e a durao do estado estacionrio. O que
necessrio uma representao que inclua informao espectral definida temporalmente. Ou seja, as
vogais no devem ser conceptualizadas como formantes em estado estacionrio, mas como histrias de
formantes.

Identificao de Vogal: Templates versus Padres Construdos

A discusso anterior introduziu o problema da normalizao de vogais. Podemos frasear a questo bsica
bem simplesmente: Se falantes diferem nas propriedades acsticas de suas vogais, ento como que um
ouvinte sabe qual vogal um dado falante est tentando produzir?
Uma resposta a esta questo, como dada por Joos (1948), que um ouvinte constri ativamente os
padres idiossincrticos de vogal para cada falante. Esses padres, ou molduras de referncia, podem ser
desenvolvidas na base de um pequeno nmero de enunciados daquela pessoa. De acordo com a hiptese
de moldura de referncia, o contexto acstico geral de uma vogal fornece a informao essencial da qual
o ouvinte pode construir um espao voclico de referncia para um dado falante. Uma possibilidade
estimar o comprimento do trato vocal da freqncia F3 mdia (Claes, Dologlou, Tenbosch, &
Vancomper-nolle, 1998). Ento as vogais produzidas por aquele falante so interpretadas dentro do
espao voclico. Uma variante desta idia que falantes constroem o espao voclico de referncia na
base de uma vogal [i] do falante (como em he). Esta vogal tem propriedades distintivas especiais que a
torna uma boa vogal de calibrao (Matthei & Roeper, 1983). Uma fraqueza deste conceito que os
ouvintes no podem sempre esperar um falante produzir uma vogal [i]. O aviso, Look out for that car,
como poderia ser gritado por um pedestre que nota um carro dirigido perigosamente, no contm a
referida vogal de calibrao. O ouvinte em perigo que espera pela vogal [i] pode bem esperar at a
eternidade.
Uma dia alternativa que ouvintes adquirem os exemplares (templates) de vogal baseados em suas
experincias de longo termo com a fala de vrias pessoas. Esses templates so como mdias acsticas
determinadas por homens, mulheres e crianas (Bergem, Pols & Koopmans-van Beinum, 1988). Quando
os ouvintes tentam identificar uma vogal, eles correspondem a vogal desconhecida com uma vogaltemplate apropriada que uma mdia para homens, mulheres ou crianas. O template apropriado
selecionado na base do tom e timbre da vogal desconhecida. Bergem et al. (1988) dizem que a teoria de
templates respaldada pelo fato de que ouvintes podem identificar com preciso considervel at mesmo
vogais sozinhas (sem contexto) produzidas por qualquer falante (homens, mulheres ou crianas).

Descrio Acstica de Vogais


Com esses modelos como pano de fundo, consideramos a especificao acstica das vogais. Os
parmetros candidatos para a descrio acstica so padres formnticos, espectro, durao e freqncia
fundamental. Uma escolha adicional a escala usada para expresso de medidas de freqncia. Como
notado no Captulo 3, as escalas lineares de freqncia tradicionalmente foram assimiladas para a anlise
da fala. Entretanto, bem conhecido o fato que o sistema auditrio humano no analisa freqncia de
uma forma linear. Portanto, j foi sugerido que a anlise da fala deveria ser realizada de uma forma que
modele a anlise feita pelo ouvido humano. A seleo de escalas de freqncia no-lineares apropriadas
uma grande questo na anlise acstica da fala, e este tpico sempre voltar neste livro. O apndice C

descreve alguma das mais comuns transformadas de freqncia usadas.

Padro de Formante da Vogal


Muita da experincia com a fala sintetizada d suporte ao padro de formante como um pista primria
para a percepo das vogais. Quando as vogais foram sintetizadas usando freqncias de formante
estimadas da fala natural, os resultados foram geralmente satisfatrios (Fry, Abramson, Eimas &
Liberman, 1962; mas note as altas taxas de erro relatadas por Hillenbrand & Gayvert, 1993). De fato, a
maior parte do trabalho recente em sntese de fala confia em uma especificao formntica de vogais, e
uma estratgia baseada em formantes uma das formas mais comuns de sntese de fala (Captulo 8). As
freqncias de formantes derivadas das anlise da fala natural so usadas para especificar o padro
formntico de vogais sintetizadas. O grande sucesso dessa abordagem poderia ser tomado para favorecer
as descries de formantes, embora no necessariamente uma descrio baseada apenas em suposies
estticas.
As tabelas 4-1 e 4-2 listam a freqncia fundamental mdia dos trs primeiros formantes para vrias
vogais produzidas por homens e mulheres, respectivamente. Os dados de Peterson and Barney (1955) so
possivelmente os valores mais freqentemente citados em fontica acstica e, portanto, eles se
configuram como um clssico. Suas amostras de vogal foram gravadas por 76 falantes (homens, mulheres
e crianas) e foram analisadas tanto acstica quanto perceptualmente. Este estudo de vogal foi um dos
primeiros a examinar as propriedades acsticas dos sons da fala em uma amostra grande de falantes. Os
dados mais recentes de Hillenbrand, Getty, Clark e Wheeler (1995) representam uma rplica e extenso
do estudo de Peterson e Barney. Os valores so relatados em vrios outros estudos, incluindo: Zahorian e
Jagharghi (1993); Hagiwara (1995); Yang (1996); Childers e Wu (1991), Assmann e Katz (2000),
e Lee, Potamianos, e Narayanan (1999). As mdias e desvios-padro calculados para as freqncias
F1, F2 e F3 do um conjunto mdio de valores para cada vogal e um ndice da variao entre estudos.
Notem que essas estatsticas so baseadas em apenas seis dos estudos relatados nas Tabelas 4-1 e 4-2 que
parecem ser mais comparveis em seus padres gerais de freqncia de formantes. Para os homens
(Tabela 4-1) os desvios padro para F1 so geralmente menores do que cerca de 50 Hz. Para F2 e F3, os
desvios padro so maiores do que para F1. Os valores para F2 geralmente so menores do que 130 Hz,
com a exceo de /u/. Geralmente, os desvios-padro para F2 so maiores do que os para F3. Para
mulheres (Tabela 4-2), os desvios-padro para F1, so, com duas excees, menores do que 100 Hz. Os
desvios padro para F2 e F3 tendem a ser maiores do que os de F1, e os valores, tipicamente, so maiores
para F3 do que para F2. Possivelmente, a freqncia de F2 mais sensvel a variaes idioletais e
dialetais do que a freqncia de F3, que poderia explicar uma maior variao nas freqncias de F2 do
que nas de F3.

TABELA 4-1
Dados mdios sobre a freqncia fundamental e as trs primeiras freqncias de formantes para
vogais do ingls americano produzidas por falantes adultos masculinos. Os dados so de
1. Peterson e Barney (1952), (2) Hillenbrand et al. (1995); (3) Zahorian e Jagharghi (1993);
(4) Hagiwara (1995), (5) Yang (1996), (6) Childers e Wu (1991), (7) Assman e Katz (2000) e (8) Lee,
Potamianos e Narayanan (1999). Mdias (M) e desvios-padro (dp) so mostrados para F1, F2 e F3
quando um nmero suficiente de valores esto presentes; essas estatsticas so baseadas apenas no dados
dos estudos de 1 a 6.
TABELA 4-2

Dados mdios sobre a freqncia fundamental e as trs primeiras freqncias de formantes para
vogais do ingls americano produzidas por falantes adultos femininos. Os dados so de
2. Peterson e Barney (1952), (2) Hillenbrand et al. (1995); (3) Zahorian e Jagharghi (1993);
(4) Hagiwara (1995), (5) Yang (1996), (6) Childers e Wu (1991), (7) Assman e Katz (2000) e (8) Lee,
Potamianos e Narayanan (1999). Mdias (M) e desvios-padro (dp) so mostrados para F1, F2 e F3
quando um nmero suficiente de valores esto presentes; essas estatsticas so baseadas apenas no dados
dos estudos de 1 a 6.

Os valores nas tabelas de formante-freqncia no devem ser consideradas prescritivamente, mas, em vez
disso, como mdias em torno das quais variaes considerveis podem ocorrer. Geralmente, os valores
formante-freqncia do estudo de Peterson e Barney se assemelham razoavelmente bem com os dos
estudos mais recentes. Entretanto, para ambos homens e mulheres, as freqncias de F2 tendem a ser
mais baixas para as vogais posteriores no estudo de Peterson e Barney do que nos outros estudos. Os
valores de F2 para [u] variam notavelmente. Diferenas dialetais podem dar conta dessas variaes.
Precauo deve ser observada na aplicao de dados de qualquer um dos cinco estudos para falantes que
podem ter dialetos diferentes dos representados nas investigaes. Os dados de Hagiwara (1997) para 15
falantes monolinguais do ingls do sul da Califrnia diferem em alguns aspectos potencialmente
importantes dos resultados do estudo de Hillenbrand et al. Especificamente, os resultados de F1-F2 para
/ae/ em Hillenbrand et al. so alados de determinada forma que o espao voclico F1-F2 mais um
tringulo do que um quadriltero. Mas os dados de Hagiwara mostram um formato quadriltero
semelhante ao formato que representa os dados de Peterson e Barney. Como Hagiwara apontou, o ingls
americano is an amorphous entity at best, and ... there are considerable regional (and also social)
differences, particularly in urban centers (p. 658). [, na melhor das hipteses, uma entidade amorfa e... h
diferenas regionais considerveis (e tambm sociais), especificamente em centros urbanos.]
Uma regra geral aproximada para relacionar as freqncias dos formantes da vogal com a articulao da
vogal que F1 varia na maior parte com a altura da lngua e F2 varia na maior parte com o avano da
lngua (ou seja, com variao na posio antero-posterior da lngua). A Figura 4-5 mostra padres
formnticos estilizados que ilustram a relao acstico-articulatria. Precauo deve ser tomada no uso
desta regra, porque h excees. Entretanto, experimentos escalares multidimensionais confirmam a
preciso geral da regra. Rakerd e Verbrugge (1985) relataram as seguintes correlaes significantes entre
as dimenses perceptuais e os parmetros acsticos de vogais: Dimenso D1 (interpretada como avano)
com a freqncia F2 e F3; Dimenso D2 (interpretada como altura) com a freqncia F1, e Dimenso D3
(interpretada como tenso) com durao. Em geral, as vogais baixas possuem uma freqncia F1 alta e
vogais altas possuem uma freqncia baixa. As vogais posteriores possuem um F2 baixo e tipicamente
uma pequena diferena F2-F1, enquanto as vogais anteriores possuem uma freqncia de F2
relativamente maior e uma grande diferena F2-F1. Parece, ento, que um padro formntico de uma
vogal pode ser usado para identificar uma vogal e at mesmo estabilizar relaes entre parmetros
acsticos e perceptuais. Por exemplo, as diferenas nas freqncias de F2 descritas acima para os dados
de vogais de Peterson e Barney (1952) e Hillenbrand et al. (1995) parecem indicar que as vogais
posteriores foram produzidos com uma articulao mais frontal pelos sujeitos na investigao de
Hillenbrand et al. Talvez este resultado signifique que as vogais posteriores no ingls americano
contemporneo estejam mudando em direo parte anterior da boca.
Figura 4.5. Espectrogramas estilizados mostrando o relacionamento entre as freqncias de formantes de F1 e F2 e a posio
da lngua na cavidade oral.

Como j notado, no inteiramente certo que os formantes so a melhor (mais precisa e mais eficiente)
descrio de vogais. Alguns experimentos usando vogais sintetizadas pe dvida no papel de formantes.
De interesse especfico so os experimentos que estudaram modelos de dois formantes das vogais. Esses
estudos exploraram as identificaes de ouvintes de vrias combinaes dos padres de F1 e F2. Carlson,
Fant e Granstrom (1975) relataram um estudo em que F1 foi colocado em valores apropriados para fala
natural, mas F2 foi variado experimentalmente. s vezes o F2' experimental (o prime usado para
distinguir este formante do formante real da fala natural) variou sobre uma gama de valores, incluindo os
valores de freqncia alm dos esperados para F2 na fala natural. Um sumrio grfico dos resultados
dado na Figura 4-6. A barra retangular aberta mostra os valor de freqncia de F2' que deu o resultado
acstico mais satisfatrio para cada vogal. Para as vogais posteriores, F2' se aproxima dos valores para F2
na fala natural. Entretanto, para as vogais anteriores, um resultado bem diferente pode ser visto. F2' para
as vogais [e] e [] cai em torno do caminho mdio entre os naturais F2 e F3. Para a vogal [i] F2' cai perto
do F4 natural.
Figura 4.6. Espectrogramas estilizados para mostrar as segundas freqncias efetivas de formantes (F2')
comparadas s segundas freqncias naturais de formantes para cinco vogais. Veja o texto para
explicao. Redesenhado com permisso de R. Carlson, G. Fant e B. Granstrom (1975). Two-formant
models, pitch and vowel perception. In G. Fant e M.A.A. Tatham (Eds.), Auditory analysis and
perception of speech (pp. 55-82). London: Academic Press. Direitos autorais 1975.
Esses resultados so difceis de conciliar com modelo de formante simples da percepo de vogais.
Diferentes abordagens foram usadas para prever F2' das medidas acsticas dos formantes voclicos
(Bladon, 1983; Bladon & Fant, 1978; Paliwal, Lindsay, & Ainsworth, 1983). Bladon (1983) concluiu
atravs de uma avaliao dessas abordagens que a melhor explicao pode estar um integrao espectral
auditria da energia do formante voclico dentro de uma largura de banda ampla de cerca de 3,5 Bark. (O
Bark uma transformao linear de freqncia e definida no Apndice C). medida que a energia do
formante voclico se move para dentro e para fora desta largura de banda integrante, ocorrero no
linearidades na qualidade da vogal percebida. A integrao de 3,5 Bark tambm foi indicada em outros
experimentos na percepo de vogais e sons semelhantes a vogais (Chistovich & Lublinskaja, 1979;
Chistovich, Sheikin, & Lublinskaja, 1979). Se no mais do que isso, esses experimentos e explicaes
tentativas nos dizem que a qualidade fontica de uma dada vogal pode ser associada a mais de um padro
formntico especfico.
Como mencionado anteriormente, vrias transformaes no lineares de freqncia foram propostas para
a anlise da fala. A transformada Bark uma das mais influentes escalas no lineares, pois ela foi
elaborada para ser uma boa aproximao da anlise da freqncia real percebida pelo ouvido. As
freqncias formnticas transformadas para Bark so s vezes usadas em preferncia a valores de
formante-freqncia lineares. Em um importante artigo, Syrdal e Gopal (1986) relataram sobre a preciso
da classificao voclica alcanada com a transformada Bark. Eles concluram que as diferenas em Bark
foram especialmente teis na classificao. As diferenas em Bark representam a diferena entre dois
valores de formante-freqncia transformados em Bark, como apresentado na Tabela 4-3. Esta tabela
mostra que uma dada vogal pode ser classificada em relao a valores de diferena em Bark.
Tabela 4-3
Classificao das vogais do ingls americano baseada em traos de distncia crticos
em cinco dimenses de diferena em Bark. Adaptada de A. K. Syrdal e H.S. Gopal (1986).
Um modelo perceptual de reconhecimento de vogais baseado na representao auditria

das vogais do ingls americano. Journal of the Acoustical Society of America, 79,
1086-1100. (Reimpresso com permisso do Instituto Americano de Fsica.)
Direitos autorais 1986.
Outra escala no linear a taxa de largura de banda retangular equivalente (escala de taxa ERB, na sigla
em ingls) que foi introduzida por Patterson (1976) e definida analiticamente por Moore e Glasberg
(1983), Glasberg e Moore (1990) e Greenwood (1990). A maior diferena entre a escala de taxa ERB e a
escala Bark que, em freqncias abaixo de 500 Hz, a escala Bark linear mas a escala de taxa ERB d
valores que caem entre uma transformada logartmica e linear. Nessas freqncias baixas, a escala de taxa
ERB d uma melhor resoluo de freqncia (menores larguras de banda) do que a escala Bark. As
diferenas entre a taxa ERB e as escalas Bark podem ser mais importantes para entonao da fala do que
para a anlise dos formantes voclicos (Hermes & van Gestel, 1991). A vantagem da escala ERB que
ela supera a escala Bark em freqncias baixas, mas comparvel escala Bark em freqncias altas.
Portanto, a escala ERB oferece as mesmas vantagens da escala Bark para a anlise das freqncias dos
formantes, mas oferece anlise superior para entonao.
Como o Captulo 7 discute em detalhes, os sons voclicos so importantes transportadores da entonao e
, portanto, desejvel que a anlise acstica de vogais possa extrair informao entonacional bem como
informao da freqncia de formantes. A anlise acstica da fala freqentemente deve extrair mais do
que um tipo de informao. Devido ao fato de vogais terem um servio duplo como segmentos
fonticos e como transportadoras da informao prosdica e extralingstica (como a emoo), um relato
adequado da anlise acstica pode incluir vrias medidas acsticas. Este captulo foca os aspectos
fonticos ou segmentais. Aspectos suprasegmentais so levados em considerao no Captulo 7, mas
alguns comentrios preliminares so includos aqui.
Estudos tm sido feitos para determinar a relao entre as freqncias dos formantes das vogais e as
oitavas timas na percepo de vogais. Se um certo nmero de formantes voclicos, digamos os trs
primeiros, so os principais determinantes da qualidade voclica, ento experimentos de filtragem devem
mostrar que as oitavas timas para a percepo voclica esto localizadas de modo a conter essas regies
de energia. Os resultados desses experimentos de filtragem so um pouco mais complicados do que isso.
Miner e Danhauer (1977) relataram as seguintes oitavas timas para as trs vogais [i], [u] e [a].
[i]: 1250-2500 Hz; 2500-5000 Hz; 5000-10000 Hz (todas as quais abordaram os nveis de
identificao da vogal controle (no filtrada)).
[u]: 80-160 Hz e 160-315 Hz (que se aproximaram bem dos nveis de identificao da vogal
controle).
[a]: 630-1250 Hz e 1250-2500 Hz (a primeira dessas foi mais efetiva do que a segunda).
Os dados de Miner e Danhauer indicam que as oitavas timas para a percepo voclica no esto
necessariamente na vizinhana do segundo formante da vogal. De fato, somente a vogal [a] acomoda-se
previso de que F2 crtica para a identificao voclica. interessante que, para a vogal [i], trs bandas
no sobrepostas foram igualmente efetivas para a identificao da vogal (embora no igualmente nos
julgamentos de distoro dos ouvintes).
Embora questes permaneam sobre a escolha do padro formntico como melhor descrio acstica de
vogais, muitas aplicaes tm sido satisfatoriamente usadas nessa abordagem. Como ser discutido em
mais detalhes mais tarde, as snteses de fala modernas (produo de fala por mquinas) freqentemente
confiam nas especificaes de freqncia dos formantes de sons para produzir fala gerada por mquina
(os chamados sintetizadores de formantes). Uma vantagem da descrio de vogais por padro formntico

a economia. Na maioria dos casos, necessrio especificar apenas os trs primeiros formantes para
alcanar um bom resultado. Alm disso, os padres formnticos de vogais freqentemente so contnuos
com os padres formnticos de consoantes vizinhas. Outra vantagem da descrio formntica que os
formantes tipicamente so facilmente observados nas anlises acsticas da fala. De fato, em uma
abordagem da sntese de fala, propriedades acsticas salientes, como padres formnticos, so traados de
visualizaes da fala natural e usados como especificaes de entrada para sntese. O padro sintetizado ,
assim, uma cpia da fala natural original.

A discusso at agora foi restrita aos dados do ingls americano sobre as vogais em vrias lnguas, embora
no abundantes, permitem um exame adicional do papel das freqncias formnticas na especificao fontica
de vogais. Antes de nos voltarmos a alguns dados para lnguas especficas, apropriado dar uma perspectiva
ampla sobre a questo dos inventrios dos sistemas voclicos. Um bom ponto de partida uma anlise das
vogais em uma grande base de dados coletados para 317 lnguas. Essa base de dados conhecida pela sigla,
em ingls, UPSID, que significa Base de Dados do Inventrio de Segmentos Fonolgicos da UCLA
[University of California at Los Angeles] (Maddieson, 1984). Schwartz, Boe, Vallee e Abry (1997)
examinaram esta base de dados para descobrir tendncias gerais nos inventrios voclicos desta amostra de
lnguas. A Figura 4-7 mostra a grelha na qual os 37 smbolos voclicos na UPSID so representados. Entre as
concluses principais descobertas por Schwartz et al. esto as seguintes que tm uma relevncia especfica na
presente discusso:
11. As lnguas primeiramente selecionam vogais de um sistema voclico primrio que tem uma alta
freqncia de ocorrncia entre lnguas e na qual a durao o diacrtico (modificao) tpico. O
sistema primrio consiste de 3 a 9 vogais, mas os sistemas de 5 a 7 vogais so particularmente
favorecidos. Entre as vogais nesse sistemas, as que ocorrem mais freqentemente so as vogais
extremas /i/, /a/ e /u/.
12. Quando as lnguas tm mais do que cerca de 9 vogais, elas tendem a selecionar vogais adicionais alm
do conjunto primrio atravs da explorao de uma nova dimenso. Essas vogais adicionais so
nomeadas como um sistema voclico secundrio e consistem geralmente de 1 a 7 vogais (com 5 sendo
preferido).
13. As vogais em ambos sistemas primrio e secundrio esto concentradas na periferia da grelha voclica
(i.e., os lados do quadriltero voclico), e h uma tendncia para um balano entre as vogais anteriores
e posteriores. Quando esse balano no ocorre, as vogais anteriores usualmente so mais numerosas
do que as posteriores.
14. A vogal no periferal preferida o schwa, sendo que essa ocorrncia no parece interagir com outras
vogais em um sistema especfico. Ou seja, o schwa uma vogal paralela, cuja ocorrncia pode ser
motivada por princpios intrnsecos, como a reduo voclica
Figura 4-7. Grelha para representar os 37 smbolos de vogais no UPSID. Reimpresso de J. L. Schwartz, L.-J. Boe, N. Vallee, e
C. Abry (1997). Major trends in vowel system inventories. Journal of Phonetics, 25, 236. Reimpresso com permisso de
Academic Press. Direitos autorais 1997.

Idias adicionais na seleo de vogais em lnguas especficas vm de uma considerao de propriedades


psicoacsticas (Iivonen, 1994, 1995). H muito tempo pensa-se que vogais eram selecionadas de acordo
com princpios de mximo contraste. Ou seja, referindo-se grelha na Figura 4-7, se uma lngua possui
apenas 3 vogais, 2 das quais so /i/ e /u/, ento /a/ bem mais provvel de ocorrer do que, digamos, /I/ ou
/o/. Espera-se que vogais maximamente contrastivas sejam mais facilmente discriminadas
perceptualmente, o que reduz a probabilidade de confuses e a inteligibilidade reduzida.

Agora nos voltaremos a exemplos de freqncias de formantes em lnguas diferentes. Se se toma a


afirmativa de que um /i/ um /i/, independentemente da lngua em que aparece, ento um nico conjunto
de dados acsticos (ajustados para variaes etrias e de sexo) seriam suficientes para cada fonema
voclico no Alfabeto Fontico Internacional. Essa afirmativa simplificada segura de se fazer: Os valores
de amostra so dados nas Tabelas 4-4 (hebraico), 4-5 (espanhol), 4-6 (japons), 4-7 (estoniano), 4-8
(sueco), 4-9 (grego), 4-10 (holands), 4-11 (ingls britnico), 4-12 (coreano) e 4-13 (hindu). Uma nota de
precauo importante: essas tabelas so baseadas em dados de nmeros diferentes de sujeitos (que
podem variar nas caractersticas fsicas como comprimento do trato vocal e nas caractersticas
sociolingsticas como dialeto regional) e de diferentes procedimentos de gravao e anlise.
Comparaes diretas devem ser feitas com esses pensamentos em mente.
TABELA 4-4
Freqncias de formantes de cinco vogais do hebraico moderno produzidas por um falante
adulto masculino L-masculino (Laufer, 1975), seis falantes masculinos A-masculino
(Aronson, Rosenhouse, Rosenhouse & Podoshin, 1996); e seis falantes femininos A-feminino (Aronson et al., 1996). Aronson et al. relataram resultados tanto para
as anlises de LPC e FFT; os valores de LPC so dados neste tabela.
TABELA 4-5
Freqncias de formantes das vogais espanholas produzidas em enunciados CVCV por quatro
falantes adultos masculinos do espanhol madrilenho. Reimpresso de A.R. Bradlow (1995).
A comparative acoustic study of English and Spanish vowels. Journal of the Acoustical
Society of America, 97, 1916-1924. (Reimpresso com permisso do Instituto Americano
de Fsica). Direitos autorais 1995. Os valores mostrados so mdias (com desvios-padro
em parnteses).
TABELA 4-6
Freqncias de formantes das 5 vogais japonesas produzidas por um falante adulto masculino.
Reimpresso de T. Hirahara e H. Kato (1992). The effect of F0 on vowel
identification. In Y. Tohkura, E. Vatikiotis-Bateson, e Y. Sagisaka (Eds.), Speech
perception, production and linguistic structure, (pp. 89-112). Amsterdam: IOS Press.
(Reimpresso com permisso de ATR Auditory and Visual Perception Research
Laboratories, Kioto, Japo). Direitos autorais 1992.
TABELA 4-7
Freqncias de formantes para vogais estonianas produzidas por um falante adulto masculino.
Reimpresso de A. Eek e E. Meister (1994), Acoustics and perception of Estonian vowel types,
PEMLUS, No. XVIII, pp.55-90. Reimpresso com permisso do Departamento de Lingstica da
Universidade de Estocolmo.) Direitos autorais 1994.
TABELA 4-8

Freqncias de formantes de dez vogais suecas; valores mdios para 24 falantes adultos masculinos
produzindo vogais longas isoladas. Reimpresso de G. Fant (1973), Speech
Sounds and Features (p. 96), MIT Press. (Reimpresso com a permisso de MIT Press,
Cambridge, Massachusetts.) Direitos autorais 1973.
TABELA 4-9
Freqncias de formantes de cinco vogais gregas (acentuada, posio de foco na taxa lenta). Os
falantes foram cinco jovens homens que falavam grego padro (ateniense). Reimpresso de M.
Fourakis, A. Botinis, and M. Katsaiti (1999) Acoustic characteristics of Greek
vowels, Phonetica, 56; 28-43. (Reimpresso com permisso, S. Karger AG, Basel).
Direitos autorais 1999.
TABELA 4-10
Freqncias de formantes de 12 vogais holandesas; mdias para 50 falantes masculinos (Pols,
Tromp & Plomp, 1973). Reimpresso de L. C. W. Pols, H. R. C. Tromp, and R. Plomp (1973),
Frequency analysis of Dutch vowels from 50 male speakers. Journal of the Acoustical Society of
America, S3, 1093-1101. (Reimpresso com permisso do Instituto Americano de Fsica.) Direitos
autorais 1973.
TABELA 4-11
Freqncias de formantes de vogais do ingls britnico. Baseado nos dados de J. C. Wells, A study
of formants of the pure vowels of British English. Unpublished M.A. thesis, University
of London, 1962.
TABELA 4-12
Freqncias de formantes de 10 vogais coreanas. Mdias para 30 falantes masculinos (M) e 30
femininos (F) (Yang, 1996). Reimpresso de B. Yang (1996), A comparative study of American
English and Korean vowels produced by male and female speakers. Journal of Phonetics, 24, 245261. (Reimpresso com permisso de Academic Press.) Direitos autorais 1996.
TABELA 4-13
Freqncias de formantes de dez vogais do hindu em palavras C1VC2. Mdias para dois falantes
masculinos calculadas de dados relatados de Khan, Gupta e Rizvi (1994).
Como um exemplo do tipo da questo crosslingstica, pode-se perguntar sobre as vogais aspectos como:
A vogal /i/ em sueco idntica vogal /i/ do ingls americano (ou qualquer outra lngua) no que concerne
freqncias de formantes? A resposta no pode ser dada com grande confiana hoje, mas parece que os
valores de freqncia de formantes representadas pelo mesmo smbolo IPA (Alfabeto Fontico
Internacional, na sigla em ingls) so, de alguma forma, ajustados para lnguas individuais
(Andrianopoulos, Darrow, & Chen, no prelo; Bradlow, 1995; Krull & Lindblom, 1992). Alguma variao
nas freqncias de formantes bastante evidente na comparao dos diferentes valores para /i/ para
falantes masculinos nas Tabelas de 4-5 a 4-13. Os valores de F1 para esta vogal (310, 286, 281, 254, 255,
340, 294, 300, 341 e 385 Hz) cobrem uma faixa de freqncias de 131 Hz. Os valores de F2 (2560, 2147,
2281, 1881, 2190, 2046, 2208, 2300, 2219 e 2480 Hz) cobrem uma faixa de quase 700 Hz. Outras vogais que
so nominalmente as mesmas no IPA exibem uma variabilidade similar entre lnguas. As vogais classificadas
como /u/ tm uma faixa de freqncias de F1 de mais de 300 Hz e uma faixa de freqncias de F2 de quase

800 Hz. Possivelmente, h, no mnimo, trs grandes tipos de /u/, com um tipo tendo uma freqncia de F2
muito baixo (abaixo de 600 Hz), uma segunda tendo uma freqncia de F2 na faixa de cerca de 800 a 1000 Hz
e uma terceira com uma freqncia de F2 maior do que 1200 Hz.
Devido ao fato de os dados compilados nas Tabelas 4-5 a 4-13 pertencerem a nmeros muito pequenos de
falantes, deve-se tomar cuidado ao serem utilizados para desenvolver grandes concluses. Alm disso,
surpreendente que os dados de freqncia de formantes sejam assim to desiguais. Atravs de comparao, os
valores de F1 e F2 relatados para vrios estudos do ingls americano nas Tabelas 4-1 e 4-2 geralmente se
assemelham bem com a exceo notada em algumas vogais posteriores. Tomando-se a vogal /i/ como
exemplo, as freqncias de F1 e F2 para os falantes masculinos na Tabela 4-1 tm uma mdia de 294 Hz (dp =
26 Hz) e 2275 Hz (dp = 68 Hz), respectivamente. Se verdade que as vogais so ajustadas de acordo com
uma lngua especfica, ento os smbolos do IPA so apenas uma indicao geral da similaridade acstica
entre sons de lnguas diferentes.
Pode no haver uma especificao de freqncias de formante nica, universal para qualquer vogal dada,
embora possa haver uma preferncia (um modo) estatstica para um conjunto especfico de valores. A
origem de diferenas crosslingsticas no clara, mas assumindo-se que essas diferenas so reais no
simplesmente uma variabilidade resultante de diferenas metodolgicas uma possibilidade que lnguas
diferentes possuam diferentes bases de articulaes (Honikman, 1964; Bradlow, 1995). A base de
articulao de uma lngua uma configurao articulatria que reflete as configuraes dos segmentos que
ocorrem mais freqentemente e as combinaes de segmentos na lngua. Por exemplo, talvez vogais
posteriores em alemo sejam geralmente mais extremas (mais baixas em F2) do que em muitas outras
lnguas, incluindo ingls. Possivelmente, a base de articulao pode ser prevista de dados em freqncia de
ocorrncia. Entretanto, parece que poucos testes experimentais desta hiptese foram conduzidos. Um
problema relacionado a normalizao de vogais para dados crosslingsticos. Idealmente, uma estratgia
especfica para a normalizao de vogais pode ser aplicada entre os dados de vogais de lnguas diferentes.
Entretanto, Disner (1980) exps o cuidado de que comparisons of the normalized vowels of one language
with the (separately) normalized vowels of another language are not valid if the vowel systems are
different (p. 2253) [comparaes de vogais normalizadas de uma lngua com as vogais normalizadas
(separadamente) de outra lngua no so vlidas se os sistemas voclicos so diferentes].
A questo dos padres formnticos de vogais tambm pode ser abordada sob a perspectivas de limens de
diferena (DLs, na sigla em ingls) (tambm s vezes chamada de diferenas logo notveis, ou JNDs [just
noticeable differences]) para a percepo da freqncia de formantes. Ou seja, como os falantes so
sensveis a pequenas mudanas na freqncia de um ou mais formantes? Dados anteriores sobre este tpico
indicam que Dls para as freqncias de formantes foram da ordem de 3-5% da freqncia de formantes
(Flanagan, 1955; Mermelstein, 1978; Nord & Sventelious, 1979), embora DLs grandes como 13% tambm
foram relatados (Nakagawa, Saito, & Yoshino, 1982). Estudos mais recentes relatam DLs da ordem de 12% da freqncia de formantes (Hawkes, 1994; Kewley-Port, & Watson, 1994;Kewley-Port & Zheng,
1999). Uma razo para os resultados diferentes est no fato de que DLs menores foram obtidos em
estudos que empregaram uma tarefa de audio que minimizou a incerteza entre estmulos sucessivos.
Uma concluso geral a respeito do tema que ouvintes podem detectar uma mudana to pequena quanto
1% da freqncia de formantes para vogais do ingls americano (ex.: cerca de 20 Hz para o F2 da vogal
/i/ produzida por um adulto masculino), mas to grandes quanto 13% da freqncia de formantes para
vogais do japons (Nakagawa et al., 1982). Pode ser tentador concluir que os DLs para a freqncia de
formantes sejam determinados em parte pelo nmero de vogais na lngua do sujeito. Se isso for correto,
ento os DLs so determinados em grande parte pela experincia, com os menores DLs esperados para
lnguas com mais vogais. Assim, os falantes nativos de dinamarqus (um lngua rica em vogais) devem
ter, excepcionalmente, grandes DLs. Seria interessante saber se falantes nativos de uma lngua com 3
vogais adquirem menores DLs para freqncias de formantes se eles aprenderem subseqentemente uma

lngua com 15 vogais. Kewley-Port e Zheng (1999) relataram que para falantes do ingls americano, a
resoluo dos formantes voclicos sob condies de escuta bastante comuns (vogais em sentenas) foi de
cerca de 0,28 Barks, comparado distncia de 0,56 Barks entre as vogais mais prximas na lngua.
pertinente considerar aqui a confiabilidade da anlise acstica de formantes voclicos. No h dvida
que a confiabilidade das medidas de freqncia de formantes variam com a qualidade da fala sendo
analisada, a experincia da pessoa realizando a anlise e o mtodo de anlise. Surpreendentemente,
poucos estudos sistemticos de medidas de freqncia de formantes foram relatados, mas Monsen e
Engebretson (1983) podem ser tomados como um . Eles determinam a confiabilidade da freqncia de
formantes com ambos LPC e espectrografia. Com gravaes de alta qualidade da fala normal, as trs
primeiras freqncias de formantes foram estimadas em torno de 60 Hz com a anlise de LPC. Com a
espectrografia, houve a mesma preciso aplicada a medidas de freqncia de F1 e F2, mas o erro na
medida da freqncia de F3 foi da ordem 110 Hz. Um ponto central a ser feito que o erro na medida
de freqncia de formantes por anlises acsticas pode ser to grande quanto, se no maiores, do que DL
para a freqncia de formantes em condies de escuta ideais.
Finalmente, como discutido brevemente no Captulo 3 e em maiores detalhes no Captulo 6, a anlise
acstica dos formantes voclicos limitada pelo f0 associado com uma produo voclica especfica. Isso
no simplesmente um problema de anlise acstica, porque a mesma questo geral se aplica anlise
auditria das vogais. O problema surge porque, na anlise de vogais vozeadas, a funo de transferncia
amostrada em mltiplos de f0, de modo que o espectro de curto termo reflete a estrutura espectral fina dos
harmnicos da voz, e no simplesmente os formantes. Os picos no espectro de curto termo so
localizados em harmnicos de f0. O mesmo problema afeta a anlise auditria, porque os padres de
excitao cocleares para freqncias baixas resulta em harmnicos. Uma soluo modelar a anlise
voclica como um processo de combinao com dados perdidos, de modo que regies espectrais
prximas a harmnicos so mais fortemente pesadas (de Cheveigne & Kawahara, 1999).

Espectro de Curto Termo da Vogal


As vogais tambm podem ser descritas com respeito a seus espectros, e alguns investigadores propuseram
que um espectro de curto termo melhor do que o padro formntico na distino de vogais. Obviamente,
o padro formntico refletido no espectro de uma vogal, mas espectros de vogais contm informao
alm de formantes. Um sumrio grfico dos efeitos de variaes espectrais selecionadas na identificao
de vogais apresentado na Figura 4-8. A parte A mostra a inclinao espectral, em que o espectro
rotacionado ao longo de um valor de mdia-freqncia para mudar as amplitudes relativas das pores de
baixa e alta freqncias. Os efeitos dessas mudanas espectrais so usualmente pequenas. A parte B
mostra uma variao espectral em que a profundidade dos vales espectrais so alteradas. Esse tipo de
variao tambm resulta em relativamente pouco efeito na identificao de vogais. A parte C retrata um
mudana logartmica na intensidade do espectro. Essas mudanas usualmente possuem pouco efeito
perceptual, exceto em altura. A parte D d um exemplo de mudanas na posio relativa dos picos
espectrais. Essas modificaes freqentemente tiveram efeitos na percepo de vogais. Finalmente, a
parte E ilustra uma mudana espectral em que a inclinao (taxa de mudana no espectro) mudada na
vizinhana de um pico. Essa alterao espectral tambm possui grandes efeitos na identificao voclica.
Uma concluso geral a ser posta que qualquer variao espectral que afeta a localizao de um pico
pode afetar seriamente a interpretao fontica do espectro das vogais.
Figura 4.8. Efeitos de vrias mudanas espectrais na identificao de vogais. A varivel mudana espectral ilustrada
esquerda e o efeito sobre a identificao sumarizado direita. Redesenhado de J. D. Miller (1984) Auditory processing of the
acoustic patterns of speech, Archives of Otolaryngology I 10, 154-159. (Reimpresso com permisso de Archives of
Otolaryngology.) Direitos autorais 1984.

Em um estudo que comparou formantes com traos de formato espectral para a classificao automtica
de vogais, concluiu-se que os traos de formato espectral so um conjunto mais completo de correlatos
acsticos para vogais do que os formantes (Zahorian & Jagharghi, 1993). Esse estudo indica que um
espectro global suavizado preserva a informao acstica mais plenamente do que uma especificao de
freqncia de formantes. De fato, os autores notam que three formants, even with their bandwidths and
amplitudes included, appear to be insufficient to encode all the important properties of natural speech
spectra" (Zahorian & Jagharghi, 1993, p. 1975) [os trs formantes, mesmo com suas amplitudes e larguras
de banda includos, parecem ser insuficientes para codificar todas as propriedades dos espectros da fala
natural]. Mas eles tambm no mostraram que algum conjunto dos trs traos espectrais globais fosse
melhor do que as trs freqncias de formantes. A superioridade dos traos de formato global espectrais
foi demonstrada especialmente quando dez ou mais traos foram usados. Poderamos concluir que a
informao formntica no um relato acstico completo de vogais, mas uma descrio econmica.
Se so feitas mdias de espectros de curto termo de muitas amostras, o resultado um espectro mdio de
longo termo da fala (LTASS [long-term average speech spectrum]). O LTASS no til na identificao
de sons da fala individuais, pois suas propriedades so misturadas com as de outros sons. Entretanto,
devido ao fato de vogais fornecerem a energia dominante na fala, elas determinam em grande parte o
formato do LTASS. Parece que o LTASS semelhante entre lnguas (Byrne et al., 1994), mas difere entre
gneros (Mendoza, Valencia, Munoz, & Trujillo, 1996). A Figura 4-9 ilustra o LTASS para cinco
variedades do ingls. Pode ser visto que homens possuem maior energia nas freqncias baixas, que a
maior energia para homens e mulheres est na faixa de 125 a 500 Hz, e que a energia cai para freqncias
acima de 500 Hz. A linha slida nos diferentes grficos da Figura 4-9 poderia ser tomada como uma
aproximao de um LTASS universal, ou seja, o LTASS entre todas as lnguas do mundo. As diferenas
de gnero podem ir alm das ilustradas na Figura 4-9: Mendoza et al. (1996) observaram que o LTASS
para homens diferiu dos para homem, pois teve um maior nvel de rudo na vizinhana de F3 e uma
inclinao espectral mais baixa. Essas caractersticas so consideradas mais tarde no Captulo 6.
Figura 4.9. Valores para espectros mdios de longo termo da fala (LTASS) de homens e mulheres para cinco amostras de
ingls. A linha slida mostra a mdia de LTASS entre 17 amostras de fala de lnguas diferentes; homens e mulheres separados
por freqncias abaixo de 160 Hz, combinados para freqncias mais altas. Reimpresso de Byrne et al. (1994). Long-term
average speech spectra, Journal of the Acoustical Society of America, 96, 2113. (Reimpresso com permisso do Instituto
Americano de Fsica.). Direitos autorais 1994.

Durao da Vogal
O terceiro parmetro, depois de freqncias de formantes e formato espectral, a durao da vogal.
Embora a durao seja negligenciada na tabela F1-F2 tradicional, quase sempre disponvel como uma
pista no sinal fsico da fala, e muitas lnguas exploram durao como um trao da vogal. As vogais podem
diferir substancialmente em suas duraes, como ilustrado na Figura 4-10. Entre os fatores que
influenciam a durao da vogal esto: trao tenso-relaxado (longo-curto) da vogal, altura da vogal, acento
silbico, taxa de elocuo, vozeamento de uma consoante anterior ou seguinte, ponto de articulao de
uma consoante anterior ou seguinte e vrios fatores sintticos ou semnticos como posio no enunciado
ou familiaridade da palavra (para uma boa reviso, vejam Klatt, 1976). Alguns desses so atributos
duracionais inerentes (ex.: tenso ou relaxamento, altura da vogal), e outros so determinados pelas
propriedades suprasegmentais ou contexto fontico (ex.: acento, taxa de elocuo, ambiente consonantal).
Erickson (2000) mostrou que a modelagem da estrutura de covarincia mostra que os efeitos de vrios
fatores na durao da vogal podem ser melhor entendidos em termos de um modelo dbio de populao,
com uma populao sendo palavras de contedo monossilbicas e slabas lexicalmente acentuadas e a
outra, palavras de funo monossilbicas e slabas lexicalmente tonas. Ambas populaes mostram

efeitos similares da durao intrnseca e posio de final de frase (de modo que esses dois efeitos podem
ser considerados como vogal geral). Entretanto, os efeitos de vozeamento consonantal ps-voclico e
posio na palavra foram preditores importantes para a durao voclica em palavras de contedo e
slabas acentuadas, mas no em palavras funcionais ou slabas tonas. Os resultados de Erickson indicam
que as vrias influncias sobre a durao voclica tm, de alguma forma, efeitos diferentes nas duas
maiores classes de vogais.
Figura 4.10. Ilustrao espectrogrfica de variaes na durao da vogal. Espectrogramas so mostrados para (A) bet [b t], (B)
bed [b d] e (C) bad [b ae d].

Os experimentos indicam que embora a durao no seja suficiente em si para a identificao de qualquer
vogal individual, ela ajuda sim o falante a distinguir vogais espectralmente similares, como /Q/ versus /E/
ou colocar vogais em categorias como tensa vs relaxada. Hillenbrand, Clark e Houde (2000) concluram,
a partir de um experimento usando fala sintetizada, que os efeitos da durao voclica no reconhecimento
voclico so importantes para o grupo voclico /A/-/ /-// e o par /Q/-/E/. interessante notar que
alguns contrastes voclicos acompanhados por diferenas consistentes em durao (ex.: /i/-/I/) no foram
afetados apreciavelmente pela pista de durao. Aparentemente, a presena de uma diferena acstica
consistente no necessariamente significa que a identificao fontica explorar a diferena.
O Captulo 3 discutiu a medio de duraes segmentais de vrias exibies acsticas. A durao
voclica uma das mais comuns medidas temporais na anlise da fala, importante saber como esse
valor pode ser determinado precisamente. A preciso das medidas de durao voclica foi estimada em
vrios estudos. Parece que medidas so de preciso comparvel em espectrogramas e oscilogramas, com
um intervalo de confiana de 95% de cerca de 10 a 25 ms (Allen, 1978). Similarmente, Smith,
Hillenbrand e Ingrisano (1986) concluram que as medidas temporais de espectrogramas ou oscilogramas
esto usualmente dentro de 8 a 10 ms um do outro, mas medidas de oscilogramas tendem a resultar em
duraes voclicas mais longas do que as feitas por espectrogramas. As medidas de durao tambm
podem ser afetadas por critrios de formantes usados na espectrografia. Blomgren e Robb (1998)
mediram as duraes de vogais em estado estacionrio em slabas [Cid] (em que C indica uma consoante
varivel) usando um critrio de taxa de mudana fixa tanto para a freqncia de F1 quanto a de F2. Seus
dados de 40 falantes normais indicaram que as duraes foram mais longas para medidas baseadas em F1
do que para F2.

Freqncia Fundamental da Vogal

As vogais tambm variam entre si na freqncia fundamental de fonao. Essas diferenas


freqentemente so obscurecidas por muitos outros fatores que governam a fonao, como acento
lingstico, emoo do falante e entonao. Entretanto, quando esses fatores so controlados, diferenas
confiveis na freqncia fundamental intrnseca podem ser observadas. A regra geral que freqncia
fundamental varia com a altura voclica, ou seja, vogais altas possuem uma maior freqncia
fundamental, em mdia, do que as vogais baixas. Uma sumrio grfico de dois estudos clssicos do ingls
americano mostrado na Figura 4-11.
Figura 4.11. Freqncia fundamental mdia para diferentes vogais como relatado em dois estudos (Lehiste & Peterson, 1961;
Peterson & Barney, 1952). Note que as vogais altas so associadas com freqncias fundamentais mais altas.

duvidoso se essas diferenas de freqncia fundamental possuem um papel principal no


reconhecimento de vogais, mas elas podem ser pistas secundrias e possivelmente podem ser exageradas
por alguns falantes para serem mais salientes. Como notado na discusso de freqncia de formantes, o f0
da vogal pode ser combinado com medidas de freqncia de formante para fins de classificao voclica.
Na anlise de Syrdal and Gopal (1986), a diferena de Barks entre F1-f0 ajudou a distinguir as vogais
altas /i/, /I/, /u/ e /U/ das vogais mais baixas (Tabela 4-3). Em acrscimo, foi hipotetizado por Diehl e
Kluender (1989) que a freqncia fundamental intrnseca um aspecto de aumento do sinal da fala, em
que os falantes manipulam pistas para fortalecer perceptos fonticos. A percepo da altura voclica,
como discutido no texto, seria aumentada pela regulagem da diferena entre F1 e f0. A freqncia
fundamental intrnseca alcanara o efeito desejado. Entretanto, Whalen e Levitt (1995) questionaram a
interpretao do aumento auditrio e atriburam freqncia fundamental intrnseca para um aspecto
inerente e universal da fonao. Nesse estudo relatou-se evidncia da freqncia fundamental intrnseca
em 31 lnguas representando 11 das 29 maiores famlias lingsticas do mundo. Essas anlises
crosslingsticas mostraram um f0 intrnseco mdico de 13,9 Hz para homens e 15,4 para mulheres. Em
acrscimo, o padro geral de f0 alto para as vogais altas e f0 baixo para vogais baixas consistente entre
idade e gnero, pelo menos para o ingls americano (Sussman & Sapienza, 1994; Whalen, Levitt, Hsiao,
& Smorodinsky, 1995; veja tambm os dados compilados nas Tabelas 4-1 e 4-2) mas talvez no para o
greco (Fourakis, Botinis, & Katsaiti, 1999).
Vrios estudos trataram da origem dessas diferenas de f0 entre as vogais. A maior parte da evidncia
fundamentada por uma teoria baseada na articulao (Honda, 1988), que supe que a elevao da raiz da
lngua para as vogais altas causa um deslocamento anterior do osso hiide. Esses efeitos em anexos
extrnsecos da laringe produzem um aumento da tenso na laringe, possivelmente combinados com um
elevao para frente da cartilagem tireide. Isso no quer dizer que o f0 no tem nenhum papel na
percepo voclica, mas, invs disso, afirma que a origem das diferenas de f0 dependentes da vogal
encontrada na fisiologia da fala.
Uma questo especificamente importante com respeito a f0 que ela, e seus harmnicos, definem o
espectro de curto termo de uma vogal. Picos no espectro (que so freqentemente usados para inferir
freqncias de formantes) so fortemente influenciados pela estrutura harmnica. Devido ao fato de
muitas anlises acsticas (e talvez anlises auditrias tambm) amostrarem a funo de transferncia em
mltiplos de f0, estimativas da estrutura formntica so baseadas em propriedades harmnicas. Essa
questo se torna especialmente sria para os valores de f0 altos. Por essa razo, de Cheveigne e Kawahara
(1999) propuseram um modelo de dados perdidos em que a identificao voclica feita por funes de
peso dependentes de f0 que enfatizam regies espectrais adjacentes aos harmnicos.

Largura de Banda e Amplitude do Formante

A tabela de F1-F2 convencional especifica apenas as freqncias dos formantes das vogais. Mas, como
discutido no Captulo 2, cada formante tambm pode ser descrito por dois traos interativos e adicionais,
largura de banda e amplitude. Em geral, qualquer ressonncia pode ser descrita por dois nmeros: sua
freqncia de ressonncia e sua largura de banda. A amplitude usualmente reflete a quantidade de energia
disponvel a um ressonador. Na descrio de vogais, til pensarmos cada formante como sendo descrito
por trs nmeros: freqncia de formante, largura de banda e amplitude. Devido ao fato de os dois
ltimos tipicamente interagirem, eles no precisam sempre ser especificados individualmente. Entretanto,
especificamente para algumas aplicaes na sntese de fala, um controle independente de largura de banda

e amplitude possvel.
A largura de banda relacionada ao amortecimento, que a taxa de absoro da energia do som. Quanto
maior o amortecimento, maior a largura e banda do som. Os sons que so bastante amortecidos tendem a
acabar rapidamente, ou seja, sua energia rapidamente dissipada. Os sons que so associados com muito
pouco amortecimento tendem a ser sustentados. Uma aplicao prtica desse conceito ocorre com o
tratamento acstico de salas de concerto ou palestra. Freqentemente, as salas que so feitas com paredes
planas, rgidas no so aceitveis acusticamente. Os sons produzidos nessas salas tendem a dar eco ou
reverberar. As paredes rgidas refletem a energia do som, de modo que a energia de um som recentemente
produzido freqentemente compete com a energia reverberante de sons precedentes, produzindo uma
mistura que soa lamacenta. Para reduzir essa reverberao indesejvel, os engenheiros acsticos
freqentemente usam ornamentos acsticos que absorvem a energia do som. Quanto maior a absoro do
som, menor o problema com reverberao.
Cada formante do trato vocal durante a produo voclica possui uma largura de banda. A conveno
usual em medidas de largura de banda medir a largura do formante (ou qualquer ressonncia) em um
ponto que 3 dB abaixo do pico (Figura 4-12). A figura de 3 dB correspondente ao ponto de potncia
mdia, ou o ponto correspondendo metade da potncia acstica do som determinado pelo pico. O
efeito de aumentar a largura do formante ilustrado na Figura 4-12 pelas curvas sobrepostas, cada uma
representando uma ressonncia com uma largura de banda diferente. Se o trato vocal fosse um tubo de
parede rgida, como uma trompa de metal, seu amortecimento seria consideravelmente menor do que .
Devido ao fato de o trato vocal ser composto largamente por tecidos macios, uma quantidade aprecivel
de som produzido na fala absorvido por esses tecidos.
Figura 4.12. Variaes em largura de banda para uma freqncia central fixa, fc. A largura de banda medida
convencionalmente 3 dB abaixo do pico de energia.

As larguras de banda dos formantes determinados por medidas empricas so resumidas na Tabela 4-14.
A largura de banda do formante geralmente aumenta com o nmero do formante, de modo que os
formantes mais altos tm maiores larguras de banda do que F1. Uma exceo a esse padro que a
largura de banda para F1 pode diminuir, de alguma forma, medida que a freqncia de F1 aumenta de
100 Hz, ou prximo disso, para 500 Hz (Hawks e Miller, 1995). Para freqncias acima de 500 Hz, a
largura de banda do formante aumenta com a freqncia do formante. Hawkes e Miller (1995) sugeriram
que a largura de banda do formante pode ser estimada com a freqncia central do formante sozinha. Suas
estimativas combinam com medidas empricas obtidas por Fant (1961) e Fujimura e Lindqvist (1971). A
relao geral entre largura de banda do formante (LBF) e freqncias centrais dos formantes (FF) so
como segue:
7. LBF diminui de cerca de 10 Hz para cerca de 40 Hz acima do intervalo de FF de 100 Hz a 500
Hz.
8. LBF bastante estvel em 40-50 Hz acima da faixa FF de cerca de 500 Hz a 1800 Hz.
9. Para FF maior do que 1800 Hz, LBF aumenta acentuadamente de cerca de uma largura de banda
de 60 Hz em 1800 Hz para acima de uma largura de banda de 300 Hz em 5000 Hz.
10. Os valores de LBF para mulheres so cerca de 25% maiores do que os valores para homens.
TABELA 4-14

Larguras de banda (em Hz) dos trs primeiros formantes voclicos estimados em oito estudos.

Experimentos tm mostrado que mudar a largura de banda de formantes tem muito pouco efeito na
percepo de vogais. Aparentemente, o ouvido no muito sensvel a essas mudanas. Mesmo quando o
efeito da reduo da largura de banda perceptualmente bvio, como quando a largura de banda se
aproxima de zero, os ouvintes ainda podem identificar os sons voclicos. possvel sintetizar uma vogal
reconhecvel pela gerao de trs senides simultneas com as freqncias dos trs primeiros formantes
de uma vogal (Figura 4-13). O efeito perceptual primrio da largura de banda do formante est na
naturalidade do som da vogal. As vogais que possuem larguras de banda incomumente estreitas soam
artificiais, embora ouvintes usualmente possam identific-las. Pode-se extender esta idia para sentenas
inteiras. Remez e colegas (Remez, Rubin, Pisoni, & Carrell, 1981; Remez, Rubin, & Pisoni, 1983)
produziram um tipo de fala sinttica que consistia apenas de trs senides simultneas, ajustadas para variar
em freqncia de acordo com os padres de freqncia de formantes da fala humana. As sentenas
produzidas por esta sntese senoidal foram geralmente inteligveis se se dissesse aos falantes para esperar
sons da fala. (Interessante notar que, se se dizer aos ouvintes que esperem sons de fico cientfica, eles
freqentemente no conseguem ouvir a fala de forma alguma.) No outro extremo, aumentar a largura de
banda do formante eventualmente pode reduzir a distintividade das vogais, pois a energia de diferentes
formantes comea a se sobrepor. Nesse caso, o espectro da vogal perde a preciso de seus picos e vales
(Figura 4-14). A nasalizao de vogais tem esse efeito, e interessante que as vogais nasalizadas sejam
menos distintivas do que suas contrapartes no nasais (Lindblom, Lubker, & Pauli, 1977; Lubker, 1979).
Portanto, embora a largura de banda do formante no seja necessariamente um fator crtico na percepo
de vogais, h possivelmente uma largura de banda tima que facilita a discriminao e identificao de
vogais. Talvez a largura de banda de formante tima contribua para o conceito de qualidade de voz
(ressonante) ideal e para a inteligibilidade da fala.
Figura 4.13. (Topo) Espectrograma da sentena, We were away a year ago, e (fundo) senides que variam em freqncia de
acordo com as freqncias de F1, F2 e F3 no espectrograma do topo.
Figura 4.14. Efeitos do aumento da largura de banda no espectro de um som voclico. A largura de banda aumenta da linha
slida para a hifenizada e, desta, para a pontilhada.

A amplitude dos formantes est relacionada largura de banda do formante, de modo que um aumento na
largura de banda freqentemente leva a redues na amplitude geral. Ou seja, desde que a energia na
fonte (i.e., a energia acstica da laringe) permanea constante, aumentos na largura de banda do formante
so acompanhados por redues na amplitude do formante. As amplitudes relativas dos formantes em
uma vogal so determinadas pelas freqncias dos formantes, as larguras de banda dos formantes e a
energia disponvel na fonte. A ltima dessas provavelmente bastante bvia, dado que um ressoador no
pode criar energia, mas, ao invs disso, depende da energia de uma fonte como as cordas vogais vibrando.
Como notado anteriormente neste pargrafo, a largura de banda pode afetar a amplitude do formante
atravs da determinao do valor de pico do formante. Mas, por que o padro de freqncia do formante
afeta as amplitudes do formante? A razo que, na produo voclica, os formantes se interagem. Essa
interao pode ser entendida graficamente como a adio algbrica das curvas de formante sobrepostas
em freqncias especficas, como discutido no Captulo 2. Quando dois formantes so postos bem perto,
eles se reforam uns aos outros e suas amplitudes aumentam. Quando esses dois formantes se afastam,
sua interao reduzida e suas amplitudes decrescem. Quando F1 aumenta de freqncia, os formantes
mais altos so, de fato, amplificados pela cauda da alta freqncia da curva de F1. Quando F1 diminui, os
formantes mais altos no so to fortemente influenciados pela cauda da alta freqncia.
Ambas amplitudes e freqncias de formantes so afetadas por mudanas no esforo ou intensidade da

voz (vide Captulo 7 para detalhes adicionais). Um achado geral que a freqncia de F1 aumenta com a
intensidade vocal (Huber, Stathopoulos, Curione, Ash, & Johnson, 1999; Lienhard & DiBenedetto, 1999).
Lienhard & DiBenedetto tambm relataram que f0 aumenta com o aumento do esforo vocal. As
mudanas de freqncia observadas por Lienhard e DiBenedetto foram 5Hz/dB para f0 e 3,5 dB para F1.
Eles tambm notaram que, medida que se aumenta o esforo vocal, as amplitudes na extenso de alta
freqncia aumentaram mais do que nas freqncias mais baixas. Com uma mudana de 10 dB na
amplitude geral, as mudanas nas amplitudes dos formantes foram de 11 dB para A1, 12,4 dB para A2 e
13 dB para A3 (em que A representa a amplitude do formante). Eles relacionaram esse padro a uma
mudana na inclinao espectral. Ou seja, com o aumento do esforo vocal, o espectro da fonte muda, de
modo que relativamente mais energia est disponvel nas altas freqncias. Nawka, Anders, Cebulla e
Zurakowski (1997) relataram que os falantes masculinos tm um pico de envelope aumentado entre 3150
e 3700 Hz. Eles deram o termo formante do falante a esse mximo de energia local e notaram que a
inclinao espectral nessa regio se torna mais rasa medida que a sonoridade ou intensidade da voz
diminui. Eles tambm relataram que a energia nessa regio cerca de 10 dB mais alta em vozes
profissionais do que em no profissionais. Seus resultados apontam para um correlato possvel de
sonoridade.
O envelope de amplitude de uma forma de onda da vogal determina julgamentos relacionados ao incio da
vogal, como ataque duro (abrupto) ou suave (gradual). Quando o envelope da forma de onda da vogal
alcana seu mximo rapidamente, os ouvintes esto aptos a julgar a vogal como tendo um ataque duro.
Mas quando o envelope alcana seu valor mximo vagarosamente, os ouvintes tendem a julgar a vogal
como tendo um ataque suave. A abruptude percebida do incio da vogal parece estar relacionada ao
logaritmo do tempo sobre o qual o envelope da amplitude aumenta de 10% a 90% de seu valor mximo
(Peters, Boves, & van Dielen, 1986). Esse trao no afeta necessariamente a identificao da vogal, mas
pode determinar a probabilidade com que os ouvintes ouvem uma oclusiva glotal na identificao da
vogal. Quanto mais rpido o aumento no envelope da amplitude, mais provvel o julgamento da
ocorrncia de uma oclusiva glotal.

Sumrio dos Traos Acsticos das Vogais


Uma abordagem plena das pistas acsticas para percepo voclica parece requerer considerao de padro
formntico, espectro, durao, freqncia fundamental, largura de banda do formante e amplitude do formante
(Assman, Nearey & Hogan, 1982; Jenkins, 1987; Miller, 1989; Nearey, 1989). Alm disso, especificamente
quando vogais so produzidas no contexto de outros sons da fala, pode ser necessrio considerar vrios aspectos
dinmicos do sinal acstico associado com a vogal em seu contexto fontico. Esses aspectos dinmicos envolvem
primariamente as trajetrias formnticas do ncleo da slaba, mas tambm podem incluir variaes na freqncia
fundamental e amplitudes de formantes. Essas mudanas contextuais so discutidas detalhadamente no Captulo 7.
Os dois ou os trs primeiros formantes (F1,F2, F3) so os mais importantes para identificao da vogal.
Muitas vogais inglesas podem ser satisfatoriamente distinguidas dos dois primeiros formantes sozinhos.
As freqncias dos formantes devem ser ajustadas para a idade e o gnero do falante, e tambm parece
que as freqncias de formantes podem variar entre lnguas para a mesma vogal nominal do IPA. Os
formantes mais altos no so necessariamente importantes para o reconhecimento fontico, mas eles
aumentam a naturalidade da vogal, o que explica o fato de elas serem tipicamente includas nas vogais da
fala sintetizada (Captulo 8). As vogais so inerentemente sons intensos e, portanto, do um formato geral
ao LTASS. O primeiro formante tipicamente o formante mais forte e, por isso, tende a ser altamente
associado com julgamentos de altura e cai na regio mais intensa do LTASS (Figura 4-9). Para fins de
classificao voclica, o ouvido humano bastante tolerante a mudanas nas larguras de banda dos

formantes. Sob algumas condies, a largura de banda do formante pode ser reduzida a zero (deixando
apenas uma nica senide para representar o formante) e a fala ainda pode ser entendida.
A Tabela 4-15 resume as relaes entre as vrias medidas acsticas e algumas propriedades fonticas das
vogais. A inteno principal desta tabela mostrar que certos contrastes fonticos podem ser associados
com possveis diferenas nas cinco medidas acsticas. Na maior parte, os contrastes fonticos de baixo
versus alto e de anterior versus posterior so melhor determinados como diferenas acsticas na estrutura
formntica. A diferena fontica de relaxado versus tenso pode afetar o padro de freqncia de formante,
mas freqentemente facilmente aparente como uma diferena na durao voclica. O arredondamento
dos lbios tem o efeito de aumentar o trato vocal, o que faz com que todos os formantes assumam
freqncias mais baixas do que uma configurao no arredondada. Portanto, a soma dos trs primeiros
formantes mais baixa do que para uma vogal no arredondada. As vogais nasalizadas, comparadas a
suas contrapartes no nasais, tendem a ter maiores de larguras de banda de formantes, menor intensidade,
uma freqncia de F1 mais alta e menores freqncias de F2 e F3.
TABELA 4-15
Diferenas em medidas acsticas para vrios contrastes fonticos para vogais: baixo versus alto, anterior versus
posterior, tenso versus relaxado, arredondado versus no-arredondado, nasal versus no-nasal e baixo versus alto.

Parte 2: Ditongos
As vogais so tambm chamadas monotongos, significando um som vozeado (tongo) nico (mono-). Os
ditongos so uma outra classe de sons relacionados a vogais. Os ditongos so como vogais pelo fato de
serem produzidos com um trato vocal relativamente aberto e uma estrutura formntica bem definida, e
servirem como ncleo de uma slaba. Os ditongos so diferentes das vogais, pois eles no podem ser
caracterizados por um formato nico de trato vocal ou um padro formntico nico. Os ditongos so sons
dinmicos, em que o formato articulatrio (e portanto o padro formntico) muda vagarosamente durante
a produo do som. A Figura 4-15 mostra espectrogramas para trs ditongos do ingls nas palavras bye,
boy e bough.
Figura 4.15. Espectrogramas e padres F1-F2 extrados para as palavras bye, boy e bough. Note o padro F1-F2 distintivo para
cada ditongo.

A maioria das descries fonticas especificam as posies de comeo (onglide) e de final (offglide) do
ditongo. Os smbolos do Alfabeto Fontico Internacional refletem essa descrio. Por exemplo, o ditongo
na palavra eye representado por um dgrafo como [aI], em que o primeiro smbolo [a] representa o
comeo e o segundo smbolo [I] representa o final do ditongo. Uma abordagem similar pode ser tomada
para descrever acusticamente os ditongos. Como mostrado na Figura 4-16, cada ditongo pode ser
representado na tabela F1-F2 por uma trajetria que comea com as freqncias dos formantes do onglide
e termina com as freqncias dos formantes do offglide. As comparaes das freqncias dos formantes
de ditongos com as de vogais simples foram relatadas por Holbrook e Fairbanks (1962); Lehiste e
Peterson (1961) e Wise (1965). Dados limitados foram publicados para outras lnguas, por exemplo,
chins (Ren, 1986); holands (Collier, Bell-Berti e Raphael, 1982; Petursson, 1972); estoniano (Piir,
1983); e espanhol (Manrique, 1979).

Figura 4.16. Trajetrias F1-F2 para os trs ditongos /aI/, / I/ e /aU/. As pontas das flechas indicam a direo da mudana de
freqncia.

Especificamente, quando os ditongos so produzidos em contexto ou em taxas rpidas de fala, uma


variao considervel pode ocorrer tanto nos valores de formantes dos onglides quantos nos offglides. Por
conseguinte, essas descries de trajetria devem ser consideradas mais como valores sugeridos do que
como prescritos. Pelo menos para alguns dialetos, a taxa de mudana da freqncia dos formantes pode
ser um trao caracterstico da produo do ditongo. Gay (1968) relata que a taxa da mudana de
freqncia foi essencialmente invariante apesar de variaes nos valores de onglide e offglide.
Possivelmente, ento, a taxa de mudana da freqncia dos formantes uma caracterstica
perceptualmente importante para a identificao dos ditongos do ingls.

Sumrio
Vogais e ditongos so associados com padres formnticos relativamente bem definidos, e freqncias de
formantes foram a abordagem dominante na caracterizao acstica desses sons. No queremos dizer,
contudo, que a estrutura formntica tudo o que precisa ser considerado. Como notado neste captulo, h
diferentes vises sobre a descrio acstica mais precisa e econmica de vogais e ditongos. Entretanto, o
padro formntico claramente dominou o estudo acstico dos sons voclicos, e o entendimento dos
padres formnticos importante no que diz respeito teoria acstica da produo da fala (Captulo 2),
medidas de laboratrio, e descries acsticas de vogais para lnguas diferentes. Especialmente quando
apenas um pequeno nmero de dimenses so usadas na descrio voclica, as freqncias de formantes
da vogal so uma soluo razovel.

CAPTULO 5

As Caractersticas Acsticas das Consoantes


As caractersticas acsticas das consoantes so mais complicadas do que as das vogais. Todas vogais
podem ser descritas com essencialmente as mesmas caractersticas acsticas, como durao ou padro
formntico (ou alguma outra informao espectral). Entretanto, as consoantes diferem significantemente
entre si nas suas propriedades acsticas, e , portanto, difcil descrev-las com qualquer conjunto nico de
medidas. Essas consoantes so associadas com um intervalo significante de energia de rudo (como as
consoantes na palavra caustic), mas outras no possuem virtualmente componentes de rudo (como as
consoantes na palavra raining). Algumas consoantes so produzidas com um perodo de completa
obstruo do trato vocal, mas outras so produzidas com apenas um estreitamento do trato vocal.
Algumas consoantes so estritamente orais em sua transmisso de energia, mas outras envolvem uma
transmisso nasal da energia acstica. Devido a essas diferenas, as consoantes so discutidas em grupos
que so distintivos em suas propriedades acsticas e articulatrias: oclusivas, fricativas, africadas, nasais,
semivogais e lquidas.
As oclusivas em ingls so os fonemas /p b t d k g/ (tambm conhecidas como plosivas e oclusivoplosivas). As fricativas so /f v P D s z S Z h/. As africadas so /tS dZ/. As oclusivas, fricativas e
africadas compreendem a classe de obstruentes. Esses sons so produzidos com uma constrio radical
(fechamento completo ou abertura estreita) do trato vocal. As consoantes nasais so /m n N/. As
semivogais so /w j/ (tambm chamadas de aproximantes). As lquidas so a lateral /l/ e o rtico /r/.

Nasais, semivogais e lquidas so agrupadas como soantes ou no obstruentes. Uma grande quantidade de
informao acstica foi coletada para os sons consonantais. Devido ao fato de esse conhecimento ser
importante para o entendimento da acstica das consoantes, uma reviso seletiva da literatura
incorporada neste captulo.

Consoantes Oclusivas
A caracterstica articulatria essencial de uma consoante oclusiva o bloqueamento momentneo do trato
vocal. O bloqueamento formado por uma ocluso articulatria, que para o ingls, possui um de trs
lugares: bilabial, alveolar ou velar (h tambm uma oclusiva glotal, mas esta ser discutida
separadamente em outra seo, porque ela usualmente considerada como alofnica no ingls
americano). Em outras lnguas, as oclusivas so produzidas em uma variedade de lugares, incluindo
palatal, uvular e faringal. As oclusivas so abundantemente representadas nas lnguas do mundo e
freqentemente esto entre as consoantes que ocorrem com maior freqncia em uma dada lngua.
Tambm j foi comentado que as oclusivas so a consoante arquetpica, envolvendo uma obstruo
radical do trato vocal, que as torna uma oposio natural a vogais, os sons feitos com um trato vocal
maximamente aberto. Os termos oclusiva-plosiva ou plosiva so usados por alguns escritores para se
referir s consoantes /p t k b d g/, mas o termo mais geral oclusiva favorecido neste livro. Nem todas
oclusivas envolvem uma soltura de presso denotada pela palavra plosiva, mas todas oclusivas
necessariamente requerem um bloqueamento, ou parada, articulatrio.
A classificao acstica e articulatria de consoantes oclusivas diagramada na Figura 5-1. A parte
superior do diagrama se aplica a oclusivas pr-voclicas, em incio de palavra, como as produzidas em
slabas CV. As oclusivas pr-voclicas possuem tanto uma fase de fechamento quanto uma fase de soltura
(dessa forma, elas podem ser chamadas oclusivo-plosivas no sentido estrito do termo). O bloqueamento
articulatrio possui uma durao varivel, usualmente entre 50-100 ms e subseqentemente solta com
uma exploso de ar, medida que a presso do ar imposta atrs da obstruo escapa. Acusticamente, a
fase de ocluso associada com um mnimo de energia radiada. Devido ao fato de o trato vocal estar
obstrudo, pouca ou nenhuma energia acstica produzida. Entretanto, na soltura, uma exploso de
energia criada medida que o ar imposto escapa. Essa exploso s vezes chamada de um transiente
em reconhecimento ao seu carter breve e passageiro. Mas, essa terminologia no seguida
universalmente. Tipicamente, a exploso no dura mais do que 5 a 40 ms. um dos mais curtos, se no o
mais curto, eventos acsticos que so comumente analisados na fala.
Figura 5.1. Diagrama da classificao fontica das consoantes oclusivas.

As solturas das oclusivas so classificadas adicionalmente como aspiradas ou no aspiradas. A


aspirao um rudo respiratrio gerado quando o ar passa atravs das pregas vogais parcialmente
fechadas e dentro da laringe. Esse rudo essencialmente o da fricativa glotal [h], como na palavra hat.
Conseqentemente, o IPA representa a aspirao com um sobrescrito h. Por exemplo, [th] denota uma
oclusiva desvozeada aspirada. A aspirao segue de perto a exploso da soltura e distinguida pelo
espectro da energia do rudo. Em ingls, as oclusivas desvozeadas possuem solturas aspiradas antes das
vogais acentuadas, exceto quando seguidas de /s/. Por exemplo, as palavras pie, too e core so produzidas
com oclusivas aspiradas, mas as palavras spy, stew e score so produzidas com oclusivas no aspiradas.
Ambas oclusivas aspiradas e no aspiradas possuem exploses, mas somente as primeiras possuem o
rudo semelhante [h] seguindo a exploso. A Figura 5-2 mostra espectrogramas de oclusivas aspiradas e

no aspiradas. Note que a aspirao aparece em um breve intervalo entre a exploso da oclusiva e o incio
das vibraes das cordas vocais (vozeamento) para a vogal seguinte. s vezes a distino entre exploso e
aspirao no facilmente feita em um espectrograma. As oclusivas desvozeadas na posio pr-voclica
so caracterizadas por um atraso no vozeamento relativo soltura da oclusiva. Esse atraso da ordem de
25-100 ms, dependendo de vrios fatores que sero considerados mais tarde.
Figura 5.2. Espectrogramas de oclusivas (A) aspiradas e (B) no aspiradas. A flecha dupla em A indica o intervalo de
aspirao.

As oclusivas vozeadas so normalmente no aspiradas. Devido ao fato de o incio da vibrao das pregas
vogais comear perto da exploso (com o vozeamento logo antes, simultaneamente com, ou logo depois
do incio do vozeamento), h pouca oportunidade para um intervalo de aspirao. As pregas vocais
devem ser aduzidas para um vozeamento efetivo, e a gerao do rudo de turbulncia requer algum grau
de abertura glotal. A aspirao das oclusivas fonmica em algumas lnguas, mas no em ingls. A
informao dada aqui pertence ao ingls e no se aplicar diretamente a outras lnguas.
A informao nos prximas poucas sees enfatiza as consoantes oclusivas pr-voclicas em incio de
slaba, mas alguma informao dada para oclusivas em outras posies contextuais. A discusso
organizada de acordo com a seqncia de eventos no padro acstico, como visto em um espectrograma.

Caractersticas Acsticas das Consoantes Oclusivas


O que percebemos como uma consoante oclusiva pode corresponder a uma seqncia de eventos
acsticos que so ilustrados no espectrograma da Figura 5-3. Esse espectrograma representa a palavra
toss. Os segmentos acsticos mostrados da esquerda para a direita so: um transiente (um breve pulso de
energia acstica produzido pela soltura inicial da constrio), intervalo de africao (um perodo de rudo
de turbulncia gerado medida que a constrio progressivamente solta), e incio do vozeamento (a
iniciao da vibrao das pregas vocais para a vogal). Um intervalo de aspirao ocorre entre a frico e o
incio do vozeamento. O intervalo da oclusiva que precede esses eventos de rudo o intervalo
silencioso que aparece esquerda do transiente. O intervalo entre o transiente e o incio do vozeamento
chamado de tempo de incio do vozeamento (VOT, na sigla em ingls). O VOT possui uma faixa de
valores que so freqentemente classificados como vozeamento guia ou pr-vozeamento (o vozeamento
comea antes de a oclusiva ser solta), vozeamento simultneo (o incio do vozeamento simultneo com
o transiente), breve atraso (o incio do vozeamento comea consideravelmente mais tarde do que o
transiente) e longo atraso (o incio do vozeamento comea consideravelmente mais tarde do que o
transiente). Finalmente, as transies formnticas podem ser vistas como as mudanas de configurao
do trato vocal da constrio oral da oclusiva para um formato relativamente aberto para a vogal seguinte.
As transies formnticas no so sempre claras para uma oclusiva desvozeada como a mostrada na
Figura 5-3, mas iremos v-las mais claramente em uma outra seo. Klatt (1975a) uma boa fonte para
dados sobre as relaes entre as medidas temporais de VOT, frico e aspirao en consoantes em incio
de palavra e encontros consonantais. Stevens (1998) detalha um tratamento terico dos vrios eventos
ruidosos associados com as oclusivas. Agora consideraremos esses eventos acsticos em maiores
detalhes, comeando com o intervalo da oclusiva.
Figura 5.3. (A) Espectrograma da palavra toss mostrando os eventos acsticos de transiente, frico, aspirao e vozeamento.
(B) Forma de onda da palavra toss etiquetada para identificar transiente, frico, aspirao, incio do vozeamento, segmento
voclico e segmento fricativo.

O intervalo da oclusiva
Devido ao fato de o intervalo da oclusiva ser o intervalo acstico correspondente completa obstruo do
trato vocal, esse intervalo um mnimo de energia no sinal acstico. Ou seja, pouco ou nenhum som
erradia do trato vocal obstrudo. Para as oclusivas desvozeadas, o intervalo de oclusiva virtualmente
silencioso porque o trato vocal est obstrudo e as pregas vogais no esto vibrando (a energia de
vozeamento est ausente). Esses intervalos silenciosos so ilustrados no espectrograma e na forma de
onda da Figura 5-4. Essa a primeira vez neste livro que reconhecemos que o silncio pode ser uma pista
perceptual para a identificao dos sons da fala. De fato, os intervalos de silncio so muito importantes.
Para as oclusivas vozeadas em outros contextos que no o de posio em incio de palavra, os intervalos
da oclusiva usualmente contm uma banda de energia de baixa freqncia chamada de barra de
vozeamento. Essa banda a energia da freqncia fundamental de fonao. Um espectrograma e um
oscilograma dos intervalos de oclusivas vozeadas podem ser vistos na Figura 5-5. Os critrios bsicos
para identificao de intervalos da oclusiva so: (1) uma regio de energia reduzida, tipicamente entre 50
a 150 ms de durao, e (2) outra evidncia da articulao da oclusiva precedendo ou seguindo (ou ambos)
o intervalo da oclusiva. Essa outra evidncia pode tomar a forma de transies formnticas, exploses de
oclusivas ou intervalos de aspirao. claro que nem todo intervalo silencioso na fala um intervalo de
oclusiva. Os segmentos silenciosos tambm so associados com pausas. s vezes um intervalo silencioso
reflete tanto uma pausa quanto um intervalo de oclusiva. Por exemplo, se uma sentena comea com uma
oclusiva, o intervalo para a oclusiva seguir uma pausa pr-sentena.
Figura 5.4. Forma de onda e espectrograma da palavra buttercup. As flechas etiquetam o ponto de intervalo para o intervalo
desvozeado associado com as oclusivas desvozeadas.
Figura 5.5. Forma de onda e espectrograma da palavra raggedy. Os intervalos etiquetados G identificam os intervalos de
oclusiva vozeada.

Soltura da oclusiva: transiente e frico


A parte inferior da Figura 5-1 mostra a classificao das oclusivas em posio ps-voclica em final de
palavra, como no caso de slabas VC. Essas oclusivas podem ser soltas ou no. Seu trao en comum,
ento, um perodo de fechamento articulatrio. Quando as oclusivas em final de palavra so soltas, a
evidncia acstica da soltura uma curta exploso. A natureza opcional da soltura da oclusiva indicada
na Figura 5-1. Quando a oclusiva no solta (ou seja, quando o fechamento mantido at bem depois do
enunciado ser completado), nenhuma exploso aparece. Obviamente, ento, a exploso no uma pista
acstica confivel para as oclusivas em final de palavra, mas os falantes podem fazer um esforo especial
para articular a oclusiva distintivamente atravs da produo de uma exploso de soltura.
Especificamente, quando um falante faz esforos especiais para ser inteligvel, como quando fala em um
ambiente ruidoso, as exploses da oclusiva so freqentemente acentuadas. Essa e outras modificaes
para promover inteligibilidade so discutidas em um captulo subseqente sob o ttulo de fala clara.
A exploso de soltura um transiente produzido na soltura da ocluso e raramente dura mais do que 20
ou 30 ms. Como notado anteriormente, esse transiente um dos eventos acsticos mais curtos na fala,
freqentemente no mais do que 10 ms de durao para as oclusivas vozeadas e um tanto mais longas
para as oclusivas desvozeadas. Por conseguinte, uma determinao adequada de exploses pode ser feita
somente se a tcnica de anlise tem uma resoluo temporal conveniente. O mtodo de anlise deve ser
capaz de resolver intervalos to breves quanto 10 ms se as exploses de oclusivas devem ser

identificadas. A exploso um evento acstico muito breve que representa a soltura inicial da presso do
ar imposta atrs da constrio para a oclusiva. O transiente s vezes (nas nem sempre) seguido por um
segmento identificvel chamado frico. A fase de frico energia de rudo gerado no lugar da
constrio oral. Como mostrado na Figura 5-3, a frico pode ser identificada por propriedades espectrais
diferentes das observadas para a exploso. Seguindo a exploso e a frico h ainda outro tipo de rudo
que corresponde aspirao, um rudo produzido medida que as pregas vocais comeam seu
movimento de aduo (fechamento). A aspirao discutida em maiores detalhes mais tarde.
Resumidamente, a soltura de uma consoante oclusiva na vogal seguinte pode ser associada com trs
segmentos de rudo: transiente, frico e aspirao.
H muito tempo reconhecido que o espectro de uma exploso de oclusiva varia com o lugar de
articulao. A variao espectral atribuda ao fato de que a curta exploso de rudo formada pelas
propriedades de ressonncia definidas por uma configurao articulatria especfica. At um certo grau,
as diferenas espectrais so visveis at mesmo em espectrogramas. Como a Figura 5-6 mostra, as labiais
tendem a ter uma dominncia de baixa freqncia, as alveolares so associadas com uma energia de alta
freqncia e as velares so caracterizadas por uma exploso de freqncia intermediria. Uma questo de
pesquisa bsica tem sido se essas diferenas espectrais so suficientes para a identificao fontica.
Figura 5.6. Formas de onda e espectrogramas das slabas [p a], [t a] e [k a]. Desenhos de linhas perto do incio de cada slaba
sugerem o envelope espectral de cada exploso dominncia de baixa freqncia para [p], alta freqncia para [t] e mdia
freqncia para [k].

Um experimento clssico anterior sobre essa questo foi conduzido com uma abordagem pioneira na
sntese da fala chamada playback de padres (Cooper et al., 1952). Com essa tcnica, os padres pintados
em um correia fornecem uma cpia da fala. Quando esses padres so tocados atravs de uma converso
tico-acstica, os sons identificveis da fala so produzidos. Embora essa tcnica seja grosseira comparada
aos mtodos modernos de sntese de fala computacional, ela fornece uma das primeiras oportunidades de se
manipular caractersticas acsticas da fala. Essa abordagem foi um marco no desenvolvimento da fontica
acstica e da percepo da fala.
Liberman, Delattre e Cooper (1952) usaram a tcnica de playback de padres para gerar os estmulos de
fala estilizados apresentados na Figura 5-7. A exploso da oclusiva representada acusticamente por um
tique vertical curto ou um pulso de rudo com uma freqncia central especfica. A vogal seguinte
representada por dois formantes estticos. Quando a exploso sintetizada e a vogal sintetizada so
combinadas como mostrado na parte de dentro do diagrama, os ouvintes ouviram uma oclusiva + uma
seqncia voclica. Os resultados do experimento de identificao so mostrados na Figura 5-8. Uma
concluso principal que a identificao fontica das exploses de rudo dependiam do contexto
voclico. Como uma regra geral, exploses com uma freqncia central mais baixa do que o F2 da vogal
foram identificadas como [p]; exploses com uma freqncia central que se aproxima do F2 da vogal
foram identificadas como [k]; e exploses com uma freqncia central mais alta do que o F2 da vogal
foram etiquetadas como [t]. Entretanto, excees a essa regra so facilmente vistas por exemplo,
algumas exploses com energia acima do F2 da vogal foram ouvidas como [p] quando as vogais foram
[o] e [u]. Esse experimento consolidou um importante resultado, a saber, as oclusivas podem ser
identificadas apenas com base em uma pista de exploso simplificada. Tambm levantou-se a
possibilidade de que a interpretao fontica da exploso era influenciada pelo contexto acstico, ou seja,
a vogal seguinte.
Figura 5.7. Representao de estmulos sintetizados usados em um estudo de classificao fontica de vrias exploses de
rudo. Cada exploso de rudo em A foi pareada com cada um dos padres formnticos da vogal em B para gerar estmulos
como os mostrados em C. Redesenhado de A. M. Liberman, P. C. Delattre, and F. S. Cooper. (1952). The role of selected

stimulus variables in the perception of unvoiced stop consonants, American Journal of Psychology, 65, 497-516 (redesenhado
com permisso). Direitos autorais 1952.
Figura 5.8. Resultados de um experimento de identificao para os estmulos representados na Figura 5-7. Regies de
respostas de /p/, /t/ e /k/ so mostradas. Redesenhado de A. M. Liberman, P. C. Delattre, and F. S. Cooper. (1952). The role of
selected stimulus variables in the perception of unvoiced stop consonants, American Journal of Psychology, 65, 497-516
(redesenhado com permisso). Direitos autorais 1952.

Alguns dos dados espectrais anteriores sobre exploses das oclusivas foram relatados por Halle, Hughes e
Radley (1957). Seus resultados indicam que as bilabiais [b] e [p] foram associadas com uma concentrao
primria de energia nas freqncias baixas, de cerca de 500-1500 Hz. Para as alveolares [d] e [t], o padro
espectral foi relativamente plano ou tinha uma concentrao de energia de alta freqncia (acima de 4
kHz). Os espectros de exploso para as velares [g] e [k] tinham concentraes fortes de energia nas
regies de freqncia intermedirias de cerca de 1,5-4,0 kHz.
Vrios estudos mais recentes determinaram as propriedades acsticas das exploses. Em uma srie de
estudos, Stevens e Blumstein (1975, 1978) exploraram a possibilidade de que um template espectral podia
ser associado com cada ponto de articulao das oclusivas. A idia original desses templates era a seguinte:
bilabial: um espectro plano ou em queda; alveolar: um espectro em subida; e velar: um espectro compacto
(freqncia mdia). Esses templates so ilustrados na Figura 5-9. Usando esses templates para classificar
oclusivas produzidas naturalmente, Blumstein e Stevens (1979) foram capazes de classificar as oclusivas
corretamente em 85% de 1.800 estmulos produzidos por seis falantes. Uma abordagem estatstica para a
classificao acstica das obstruentes em incio de palavra foi tomado por Forrest Weismer, Milenkovic e
Dougall (1988). Em suas anlises, os FFTs foram tratados como distribuies aleatrias de probabilidade
para as quais os quatro primeiros momentos (mdia, varincia, assimetria (skewness) e curtose) foram
computadas. Os momentos espectrais podem ser interpretados aproximadamente como: primeiro momento
mdia ou centro de gravidade do espectro; segundo momento distribuio de energia em torno da
mdia; terceiro momento elevao espectral; e quarto momento grau de pico do espectro. Uma anlise
dinmica baseada em momentos dos primeiros 40 ms de exploses de oclusivas desvozeadas resultam em
uma taxa de classificao correta de 92%. Alm disso, o modelo construdo a partir dos resultados para
falantes masculinos foi capaz de classificar as oclusivas desvozeadas de falantes femininos em uma taxa de
cerca de 94%, indicando a generalidade da anlise de acordo com o sexo do falante.
Figura 5.9. Padres espectrais da exploso de soltura para as oclusivas bilabiais, alveolares e velares. Bilabial: padro plano em
queda; alveolar: padro plano em subida; e velar: compacto ou pico de mdia-freqncia.

Estudos de reconhecimento de oclusivas a partir de exploses apresentam um padro variado de


resultados. As taxas de identificao corretas de oclusivas em seis estudos do ingls americano foram:
58% (Winitz, Scheib, & Reeds, 1972), 100% (Cole & Scott, 1974), 97% (Ohde & Sharf, 1977), 0-69%
(Dorman, Studdert-Kennedy, & Raphael, 1977), 88% (Kewley-Port, 1983a and b), e 92-94% (Forrest et al,
1988). As grandes diferenas nos resultados desses estudos so causadas em parte pelas diferenas nos
procedimentos. O que pode ser concludo que, no mnimo, sob certas condies, as oclusivas podem ser
identificadas confiavelmente atravs apenas de exploses.
A importncia da pista da exploso no foi estudada extensamente em outras lnguas, de modo no ser
possvel fazer uma concluso universal sobre o papel da exploso na identificao do ponto de articulao
da oclusiva. Entretanto, estudos com o francs, o espanhol e o holands suportam a concluso geral do
ingls americano de que a exploso auxilia bastante na identificao do ponto de articulao das

oclusivas. Em um estudo de percepo voclica em francs, a informao da exploso sozinha foi


associada com uma taxa de identificao para o ponto de 87% (Bonneau, Djezzar, & Laprie, 1996). Uma
identificao quase perfeita das oclusivas requeriu a presena de todas as principais pistas (espectro da
exploso, durao da exploso e incio da transio formntica voclica, que ser discutida em uma seo
subseqente). Feijoo, Fernandez e Balsa (1999) chegaram a uma concluso semelhante. Em um estudo
de oclusivas em holands, Smits, ten Bosch e Collier (1996) acharam que a identificao das oclusivas a
partir da informao da exploso sozinha variou com o ponto, com [k] sendo bem altamente identificvel,
mas [p] e [t], ao contrrio, sendo precariamente identificados.
Outras caractersticas da exploso sugeridas para a identificao das vogais so amplitude da exploso
(Jongman & Blumstein, 1985; Ohde & Stevens, 1983) e mudana espectral relativa do incio da exploso
ao incio do vozeamento (Lahiri, Gewirth, & Blumstein, 1984). Jongman e Blumstein determinaram que a
amplitude da exploso poderia servir como uma pista na distino de oclusivas alveolares de dentais com
as primeiras tendo uma maior amplitude de exploso. Lahiri et al. (1984) tentaram classificar as vogais
em malayalam, francs e ingls. Eles descobriram que as caractersticas espectrais estticas no poderiam
distinguir as oclusivas labiais das dentais, ambas das quais tm um espectro plano difuso (ou seja, um
espectro com uma energia distribuda ampla e uniformemente). Entretanto, essas oclusivas poderiam ser
identificadas com uma pista dinmica baseada em uma comparao da taxa de mudana nas altas
freqncias (3500 Hz) ao quociente de mudana nas freqncias baixas (1500 Hz) sobre o intervalo
temporal da soltura da oclusiva ao incio do vozeamento. Com esse critrio, mais de 90% das oclusivas
labiais e dentais foram classificadas corretamente. Essencialmente, esse critrio dinmico descreve uma
mudana temporal na elevao espectral. Similarmente, Blumstein (1986) usou um trao de elevao
espectral para distinguir entre as oclusivas palatais e velares em hngaro. Devido ao fato de ambas
oclusivas possurem um espectro compacto no incio da exploso, um trao espectral esttico no
suficiente para sua classificao.

Alm da pergunta de se a pista de exploso sozinha suficiente para determinar o ponto de articulao
para as oclusivas, est a questo de quais aspectos da exploso so mais importantes. Um espectro
simples da exploso suficiente como a abordagem de template assume, ou h outra informao
importante tambm? O estudo de Kewley-Port (1983a) indicou que uma classificao efetiva de
exploses deve considerar fatores temporais, e no apenas formatos espectrais. Sua matriz de
classificao para as oclusivas reproduzida na Tabela 5-1. Nessa classificao dinmica, o espectro da
exploso categorizado como em queda, em subida ou indeterminado; o incio do vozeamento
categorizado como tardio, cedo ou indeterminado, e a presena de picos de freqncia mdia (1-3 kHz)
para, no mnimo, 15 ms notada. A distino bilabial versus alveolar baseada quase inteiramente na
elevao espectral (o formato do espectro), enquanto as velares so identificadas pelo incio de
vozeamento tardio e a presena de picos de mdia freqncia. Mais ser dito sobre VOT na prxima
seo.
TABELA 5-1
Pistas acsticas para classificao de consoantes oclusivas vozeadas por suas exploses de rudo
sozinhas (baseado em Kewley-Port, 1983a).
Uma classificao adicional vem de Smits et al. (1996), que determinaram a importncia de vrias pistas
acsticas para a percepo das oclusivas pr-voclicas [b d p t k] do holands. Eles concluram que as
exploses de oclusivas desvozeadas foram mais efetivas como uma pista para ponto de articulao do que
foram as exploses para as oclusivas vozeadas. Como notado anteriormente, a oclusiva [k] poderia ser
reconhecida quase todo o tempo da pista de exploso sozinha, mas nem [p] nem [t] tiveram altas taxas de

identificao de suas exploses isoladas. Para as transies formnticas, essencialmente, o padro inverso
ocorreu: [p] foi reconhecido muito bem a partir das transies formnticas sozinhas, mas [k] foi muito
mal reconhecido a partir dessa pista. O estudo de Smits et al. demonstra que o valor relativo de uma pista
acstica para a identificao de oclusivas depende do vozeamento e dos traos de lugar da oclusiva. Alm
disso, concluiu-se que o valor perceptual relativo da exploso versus a transio dependeu do contexto
voclico, com a exploso sendo mais importante em contextos de vogais anteriores, e as transies de
formantes sendo mais importantes para vogais posteriores. Essa pesquisa aponta para uma importante
lio: as caractersticas acsticas e perceptuais de consoantes podem ser complexas e freqentemente so
dependentes do contexto. A pista das transies formnticas sero discutidas mais tarde.
Resumidamente, as oclusivas podem ser identificadas a partir de suas exploses se vrios traos so
examinados sobre um intervalo de cerca de 40 ms estendendo-se do incio da exploso ao incio do
vozeamento. Uma taxa bastante alta de identificao correta deve ser possvel com as seguintes
informaes: espectro no incio da exploso, amplitude da exploso, espectro no incio do vozeamento e
tempo do incio do vozeamento relativo ao incio da exploso (VOT). A Tabela 5-2 sumariza a relao
entre essas propriedades acsticas e o ponto da articulao consonantal.
TABELA 5-2
Relao entre o ponto de articulao para oclusivas e as propriedades acsticas do incio do
espectro da exploso, amplitude da exploso, espectro do incio do vozeamento e VOT.

Tempo do Incio do Vozeamento e Outras Pistas para o Vozeamento


J vimos que o VOT transporta informao sobre vozeamento e ponto de articulao para uma oclusiva.
De fato, o trao de vozeamento para oclusivas em incio de slaba especificado razoavelmente bem por
esse nmero nico que d o intervalo entre a soltura articulatria da oclusiva e o incio das vibraes das
pregas vocais. A aplicao crosslingstica da medida de VOT foi descrita em um artigo clssico de
Lisker and Abramson (1964). Esse artigo antecipou um grande nmero de estudos em que o VOT foi
medido na fala adulta normal para vrias lnguas diferentes, fala em desenvolvimento em crianas e
vrias desordens da fala. Um apelo bsico do VOT que ele uma medida acstica nica que pode se
correlacionar com os contrastes de vozeamento em todas lnguas naturais relevantes (Cho & Ladefoged,
1999). A presente discusso comea com o ingls americano.
Para as oclusivas vozeadas do ingls americano, os VOTs assumem uma pequena faixa em torno de zero.
No VOT = 0, a soltura da oclusiva e o incio do vozeamento so simultneos. Por exemplo, VOT = 0 para
a oclusiva [b] na palavra bye significa que a soltura do fechamento bilabial ocorre simultaneamente com o
incio do vozeamento para o som ditongo seguinte. Para pequenos valores negativos de VOT (ex.: VOT =
-10 ms), o incio do vozeamento precede brevemente a soltura da oclusiva. Essa situao chamada
tambm de guia de vozeamento ou pr-vozeamento, dado que o vozeamento precede a soltura. Para
pequenos valores positivos de VOT (ex.: VOT = + 10 ms), o incio do vozeamento atrasa levemente a
soltura articulatria. O termo intervalo de vozeamento curto usado para referncia a esses valores de
VOT. VOTs para oclusivas vozeadas se estendem de cerca de -20 ms a cerca de +20 ms. As oclusivas
desvozeadas possuem VOTs que se estendem para cima em cerca de 25 ms para at 100 ms. A palavra
extenso deve ser enfatizada: no h nenhum valor nico de VOT que ser usado por todos falantes ou
entre todos os contextos fonticos. Geralmente, oclusivas vozeadas e desvozeadas possuem VOTs nas
faixas indicadas o intervalo cinza de 5 ms (de 20 a 25 ms) um tipo de regio de fronteira. As
extenses de VOT para as oclusivas vozeadas e desvozeadas esto ilustradas na Figura 5-10. Azou et al.
(2000) compilou dados de VOT de um nmero de estudos de falantes ingleses. A seguinte lista mostra

para cada oclusiva vozeada e desvozeada em ingls a extenso das mdias de VOT entre 12 estudos
publicados: /p/ -46 a 85 ms; /t/ -65 a 95 ms; /k/ -70 a 110 ms; /b/ -1 a 20 ms; /d/ -0 a 21 ms/ /g/ -14 a 35
ms. Em geral, h, no mnimo, uma variao de 20 ms nas mdias de diferentes estudos, mas uma clara
distino entre as oclusivas vozeadas e desvozeadas. Azou et al. (2000) resumiram alguns dos fatores que
influenciam os valores de VOT, incluindo a idade do falante, a taxa de elocuo, o contexto fontico e o
volume do pulmo na inicializao da fala (vide tambm Weismer, 1979). Um outro comentrio deve ser
feito em relao ao artigo de Azou et al.: eles notam que quando exploses duplas ou mltiplas exploses
ocorreram, eles mediram VOT a partir da primeira exploso. Exploses duplas ou mltiplas so
especialmente provveis em desordens da fala como gagueira ou disartria, mas elas ocorrem
ocasionalmente na fala normal tambm.
Figura 5.10. Distribuio dos valores do tempo do incio do vozeamento (VOT) para as oclusivas vozeadas e desvozeadas,
mostrando extenses aproximadas de VOT para vozeamento-guia, intervalo de vozeamento curto e intervalo de vozeamento
longo.

Quando um nmero de lnguas diferentes so consideradas, a distribuio de valores de VOT mais


complicada. Uma questo bsica : Quantas categorias de VOT so usadas entre as lnguas naturais? No
caso das oclusivas velares em 18 lnguas diferentes, Cho e Ladefoged (1999) sugeriram que pode haver
quatro categorias de VOT, com fronteiras como segue:
1.
2.
3.
4.

Cerca de 30 ms para oclusivas no aspiradas,


Cerca de 50 ms para oclusivas levemente aspiradas,
Cerca de 90 ms para oclusivas aspiradas, e
Acima de 120 ms para oclusivas altamente aspiradas.

O VOT tambm interage com o lugar de articulao da consoante, com valores de VOT menores
ocorrendo para fechamentos mais anteriores (Azou et al., 2000; Cho & Ladefoged, 1999; Fischerlorgensen, 1954; Peterson & Lehiste, 1960). O efeito do lugar de articulao robusto entre as lnguas,
com mdia em cerca de 18 ms entre oclusivas coronais e velares (Cho & Ladefoged, 1999). Como
mencionado anteriormente, a natureza dependente do ponto dos valores de VOT pode ser uma pista para
o ponto de articulao da consoante. A regra geral que bilabiais possuem os VOTs mais curtos,
incluindo pr-vozeamento freqente; alveolares possuem VOTs intermedirios; e velares possuem os
mais longos VOTs. Isso aparentemente uma caracterstica universal do VOT e no tpica do ingls
americano. Alm disso, a pista de VOT para ponto de articulao pode ser usada no apenas por ouvintes
humanos, mas tambm por vrias espcies de animais e por sistemas de aprendizado computacionais
(redes neurais) (Damper, Gunn, & Gore, 2000).
O VOT freqentemente suficiente para dar conta do trao de vozeamento quando as oclusivas esto em
posio inicial da slaba. Entretanto, para oclusivas em outras posies, devemos procurar outras pistas de
vozeamento. Aqui consideraremos dois exemplos: oclusivas em posio medial da palavra ocorrendo
entre duas vogais (ex.: rabid versus rapid) e oclusivas ocorrendo depois da vogal no final de uma palavra
(e.g., robe versus rope). Para a primeira, vrias pistas diferentes podem ser aplicadas, incluindo a presena
de uma barra de vozeamento durante o intervalo da oclusiva de uma oclusiva vozeada, um intervalo de
oclusiva maior para uma oclusiva desvozeada, uma exploso de soltura mais forte para uma oclusiva
desvozeada, uma durao maior da vogal pr-voclica para uma oclusiva vozeada e uma freqncia
fundamental mais alta para a oclusiva desvozeada (Abrahamson, 1977; Lisker, 1978). Deve ser notado que
no devemos esperar que todas essas propriedades ocorram. Uma ou mais delas suficiente para a distino
de vozeamento para um dado falante e um dado contexto.

Para oclusivas ps-voclicas em final de slabas, como as das palavra robe e rope, a durao de uma
vogal precedente tende a ser mais longa antes de consoantes vozeadas do que desvozeadas (Chen, 1970;
House, 1961; House & Fairbanks, 1953; Raphael, 1972). Chen relatou que para o ingls, o quociente
mdio de durao voclica para vogais antes de consoantes desvozeadas, em oposio a vozeadas, 0,61.
Essa uma diferena bem grande que deve ser facilmente perceptvel. Entretanto, o trao de alongamento
voclico no necessariamente constitui a pista primria para uma distino de vozeamento. Talvez a pista
mais forte esteja na poro final da vogal (Hogan & Rozsy-pal, 1980; Revoile, Pickett, Holden, & Talkin
1982; Wardrip-Fruin, 1982; Wolf, 1978). Os falantes podem assinalar o contraste de vozeamento em
posio final de slaba com uma variedade de pistas incluindo a presena/ausncia de vozeamento durante
o fechamento, durao do intervalo da oclusiva (com um fechamento mais longo para as oclusivas
desvozeadas), fora da exploso de soltura ou presena de aspirao (com uma exploso mais forte ou
aspirao para as oclusivas desvozeadas), e a freqncia fundamental (com uma freqncia fundamental
mais baixa para oclusivas vozeadas, e um F1 mais baixo ao longo da vogal pr-consonantal) (Castleman
& Diehl, 1996; Hogan & Rozsy-pal, 1980, Summers, 1988; Wolfe, 1978). Um exemplo de um par de
palavras que diferem no trao de vozeamento de uma oclusiva final dado nos espectrogramas da Figura
5-11. As palavras so pod e pot. A primeira possui uma bvia durao maior do segmento voclico
(intervalo a), uma freqncia de F1 mais baixa perto da fronteira vogal-consoante (a elipse etiquetada b),
e pulsao vocal na vizinhana do intervalo da oclusiva (a elipse etiquetada c).
Figura 5.11. Espectrograma das palavras pod e pot mostrando as pistas de baixa freqncia associadas com o trao de
vozeamento. A primeira tem uma durao conspicuamente mais longa do segmento voclico (intervalo a), uma freqncia de
F1 mais baixa perto da fronteira vogal-consoante (a elipse etiquetada b), e a pulsao vocal na vizinhana do intervalo da
oclusiva (a elipse etiquetada c).

Stevens e Blumstein (1981) hipotetizaram que a distino de vozeamento dada pela presena ou
ausncia de energia peridica de baixa freqncia no ou perto do intervalo de constrio consonantal.
Eles notaram que essa energia de baixa freqncia pode ser analisada em, no mnimo, trs propriedades
foneticamente distintas: (a) vozeamento durante o intervalo de constrio consonantal, (b) uma freqncia
de F1 baixa perto do intervalo de constrio, e (c) um f0 baixo nesse mesmo intervalo. Castleman e Diehl
(1996) agruparam essas propriedades em uma hiptese nica chamada de hiptese da baixa freqncia do
vozeamento consonantal, que reflete a idia de que todas as trs pistas so associadas com uma energia de
baixa freqncia relacionada a f0 e F1.

A distino de vozeamento um bom exemplo do princpio de que vrias pistas acsticas diferentes
podem sinalizar um dado contraste fontico. O ouvinte capaz de detectar essas pistas e us-las como
necessrio. Pode haver uma hierarquia de pistas acsticas para vozeamento, com informao de resoluo
temporal usada apenas quando as pistas so indisponveis ou ambguas (Barry, 1979; Hogan & Rozsypal,
1980; Port & Dalby, 1982; Wardrip-Fruin, 1982). Muitas dessas mesmas pistas acsticas servem para
assinalar o contraste de vozeamento para outras obstruentes. Devido ao fato de pistas de vozeamento serem
especialmente complicadas para oclusivas, a discusso de vozeamento para esses sons prepara o modo para
entender o vozeamento para outros tipos de consoantes. Apesar da multiplicidade de pistas acsticas para
vozeamento, possvel que todas as pistas possam ser unificadas em termos de conceitos relativamente
simples. Para exemplos dessa tentativa, vejam Lisker e Abrahamson (1971), Slis e Cohen (1969), e
Stevens e Blumstein (1981).

Transio Formntica
Para as oclusivas em posio inicial de slaba, a soltura da oclusiva implica em uma mudana no formato
do trato vocal da ocluso da consoante configurao da vogal. A transio articulatria da oclusiva
vogal associada com uma transio acstica na forma de formantes em mudana. Essas mudanas na
freqncia de formantes associada com uma transio acstica na forma de formantes em mudana.
Essas mudanas na freqncia de formantes refletem mudanas nas cavidades ressoadoras do trato vocal.
As mudanas formnticas nas seqncias consoante + vogal so chamadas de transies formnticas CV.
As transies formnticas so uma pista acstica muito importante para a percepo da fala e tm sido
sido o foco de numerosos esforos de pesquisa.
Quando a oclusiva em final de palavra precedida de uma vogal, como na Figura 5-12, um intervalo de
transio formntica junta os segmentos voclicos e consonantais. A transio formntica VC pode ser
entendida como o reverso, ou imagem espelho, da transio formntica CV discutida anteriormente. Para
seqncias CV, a transio da oclusiva para a vogal, enquanto que para as seqncias VC, a transio
da vogal para a oclusiva. A transio acstica amplamente caracterizada como mudanas de freqncia
dos formantes; ela reflete a transio articulatria subjacente entre um trato vocal fechado e uma vogal
seguinte, ou vice versa. A transio VC carrega informao concernente ao ponto de articulao da
oclusiva e tambm pode carregar informao sobre o trao de vozeamento da oclusiva ps-voclica, como
discutido anteriormente.
Figura 5.12. Espectrograma da palavra odd mostrando a transio formntica vogal-consoante (VC).

Em geral, as mudanas no formato do trato vocal durante a fala so assinaladas acusticamente por
mudanas nas ressonncias do trato vocal. As mudanas acsticas tm aproximadamente a mesma
durao como as mudanas articulatrias subjacentes. Se a transio articulatria da ocluso da consoante
para a configurao voclica leva 50 ms, a transio acstica tambm tem uma durao de cerca de 50
ms. Uma constante temporal bastante razovel da articulao da oclusiva que a transio da oclusiva
para a vogal ou da vogal para a oclusiva de cerca de 50 ms em durao. Nesse intervalo de 50 ms, todas
as freqncias de formantes mudam de seus valores na oclusiva para seus valores na vogal. Exemplos de
transies formnticas so mostrados nos espectrogramas com as trajetrias formnticas ressaltadas na
Figura 5-13. Esta figura mostra que todos os formantes visveis alcanam suas mudanas de freqncias
dentro de um intervalo de cerca de 50 ms. Esse tempo de transio relativamente curto se relaciona ao
fato de que oclusivas so feitas com movimentos articulatrios rpidos.
Figura 5.13. Espectrogramas com transies formnticas enfatizadas para as slabas /ba/, /da/ e /ga/. Note a distintividade das
transies de F2 e F3, mas a uniformidade da transio de F1.

As trs slabas mostradas na Figura 5-13 so um bom ponto de partida para uma discusso sobre
transies formnticas, porque elas representam trs diferentes oclusivas produzidas com a mesma vogal.
Em cada slaba, a freqncia de F1 aumenta da oclusiva para a vogal. Essa mudana bem facilmente
explicada pela teoria acstica, porque a freqncia de F1 durante uma ocluso da consoante
teoreticamente perto de zero. Portanto, a freqncia de F1 ir sempre aumentar durante uma oclusiva para
a transio voclica (e decrescer durante uma vogal para uma transio voclica). Uma freqncia de F1
muito baixa usualmente significa que o trato vocal constrito em algum grau para um som consonantal.
A constrio mxima o fechamento da oclusiva e para as oclusivas que a freqncia de F1 atinge o seu
mnimo, que seria teoreticamente zero para um tubo de parede rgida, mas porque o trato vocal no de
fato de parede rgida, F1 apenas alcana zero durante o fechamento da oclusiva.

As mudanas de freqncia dos formantes no so simples para F2 e F3, como so para F1. A freqncia
de F2 aumenta ligeiramente durante a transio de [b] para [u], mas decresce levemente para a transio
de [g] para [u] e decresce notavelmente para a transio de [d] para [u]. Esse resulta mantm a promessa
de que a transio de F2 pode ser sensvel ao ponto de articulao da oclusiva. Uma sugesto semelhante
fornecida pelos resultados para F3, ou seja, a transio de F1 parece ser uma pista para o modo de
produo (grau de constrio), e as transies de F2 e F3 podem ser pistas para o ponto de produo. Para
avaliar esta idia, revisitaremos uma parte significante da histria da pesquisa da fala.
Embora as transies formnticas sejam evidentes na fala natural, elas podem ser difceis de medir,
devido variabilidade em suas duraes, taxa de mudana, e pontos iniciais e finais. Levando-se em
conta essas dificuldades na anlise da fala natural, era mais fcil estudar as transies formnticas na fala
sintetizada. Estudos anteriores foram realizados com o playback de padro, que permitiu aos
investigadores determinar as qualidades perceptuais de vrias transies formnticas. Esse trabalho
demonstrou seguramente que as variaes na transio de F2 entre consoante e vogal foram suficientes
para produzir estmulos identificados como diferentes oclusivas. O problema que permaneceu foi explicar
como a identificao da oclusiva se relacionava forma das transies. Concluiu-se imediatamente que
uma dada consoante era associada com uma variedade de transies, dependendo do contexto voclico. A
Figura 5-14 mostra a variedade de padres espectrogrficos que se aplicavam s trs oclusivas vozeadas
[b d g] em sete contextos voclicos. Note, especificamente, que [d] poderia ter uma transio em subida,
um transio plana ou uma transio em queda, dependendo da vogal seguinte. Obviamente, a direo da
mudana de F2 no era em si uma pista suficiente para determinar a identidade da oclusiva.
Figura 5.14. Espectrogramas estilizados (padres de F1 e F2) para slabas CV compostas das oclusivas /b/, /d/ e /g/ e cada uma
das sete vogais. A linha interrompida em cada srie CV uma estimativa do locus de F2 para aquele ponto de articulao. Por
exemplo, o locus para a bilabial /b/ de aproximadamente 600 Hz. Adaptado de Delattre, Liberman e Cooper (1955).

Atravs do exame de padres como os da Figura 5-14, reconheceu-se que um possvel trao unificante
das vrias transies de F2 era a freqncia inicial. Por exemplo, todas as transies de F2 para [b] foram
consistentes com a hiptese de que a freqncia inicial de F2 era muito baixa, em algum lugar na regio
de 600-800 Hz. Para [d], a freqncia inicial de F2 parece ser de cerca de 1800 Hz. Os resultados no so
to simples para [g], mas deve ser lembrado que as oclusivas velares no so produzidas com um nico
ponto de contato, mas com uma extenso substancial antero-posterior associada com o contexto voclico.
No caso das bilabiais e alveolares, para as quais um ponto definido de ocluso mantido entre contextos
voclicos, a evidncia para a hipottica freqncia inicial constante de F2 bastante forte. Essa
freqncia inicial vem sendo conhecida como o locus (centro de gravidade ou concentrao). O locus de
F2 para as bilabiais foi estimado para ser cerca de 800 Hz e o locus de F2 para alveolares, cerca de 1800
Hz. No mnimo, dois loci de F2 foram necessrios para [g] um em cerca de 3000 Hz e um em cerca de
1300 Hz. (Esses valores so para a fala de adultos masculinos e devem ser ajustados para as tratos vocais
menores de mulheres e crianas.)

Esses valores de loci so baseados em experimentos com estmulos simplificados com dois formantes.
Quando F3 adicionado ao padro formntico, uma figura mais clara emerge. Um detalhe: o
relacionamento F2-F3 importante para as velares, para as quais as transies para a vogal seguinte so
caracterizadas por uma separao F3-F2 crescente (s vezes descrita como um formato de cunha). Os
resultados de experimentos perceptuais devem ser sempre interpretados com respeito aos estmulos
acsticos dos quais os julgamentos foram obtidos.

Como uma ilustrao adicional do conceito de locus, a Figura 5-15 mostra vrias diferentes transies de
F2 para a oclusiva [d] produzida com diferentes vogais seguintes. Apesar da divergncia considervel dos
padres, o ponto inicial essencialmente o mesmo, ou seja, o padro F2 comea aproximadamente no
valor de locus de 1800 Hz e, ento, move-se para o valor de F2 da vogal seguinte. Idias similares podem
ser aplicadas transio de F3, e o entendimento atual das transies formnticas enfatiza as mudanas de
freqncia combinadas de F1 (uma pista para o modo de articulao) e F2 e F3 (pistas para ponto de de
articulao). Tambm deve ser enfatizado que os loci dos formantes so consistentes com as freqncias
de ressonncia calculadas da teoria acstica para cada ponto de articulao consonantal (Stevens &
House, 1956), ou seja, os loci so baseados na teoria acstica.
Figura 5.15. Ilustrao-composta dos padres de F2 para slabas compostas de uma oclusiva alveolar /d/ e seis diferentes
vogais. O locus para /d/ indicado por um crculo preenchido no eixo das freqncias.

Uma confirmao da significncia perceptual das transies formnticas veio dos experimentos
contemporneos com fala sintetizada. Quando as transies formnticas so propriamente especificadas,
os ouvintes podem identificar oclusivas mesmo quando as exploses so omitidas dos estmulos
sintetizados. Exemplos espectrogrficos de slabas oclusiva + vogal sintetizadas por computador so
mostrados na Figura 5-16. Apesar de alguns desses experimentos de sntese serem convincentes, as
anlises da fala natural ainda no fornecem apoio suficiente para o conceito de locus. Kewley-Port
(1983b) concluiu que nenhuma das transies individuais de F1, F2 ou F3 foram correlatos distintivos para
o ponto de articulao quando foram analisados com relao freqncia e durao de incio. Em
acrscimo, os loci de formantes para F2 e F3 foram to variveis entre contextos voclicos que a
determinao de um nica freqncia de locus para cada oclusiva foi tnue (embora os resultados para [d]
convergiram no valor esperado de 1800 Hz). Um resumo dos loci de F2 e F3 de Kewley-Port dado na
Tabela 5-3.
Figura 5.16. Espectrogramas de slabas CV sintetizadas. Os pequenos crculos preenchidos perto do incio de cada slaba indicam
as freqncias iniciais de F1, F2 e F3.
TABELA 5-3
Loci de F1, F2 e F3 para trs pontos de articulao de oclusivas (de Kewley-Port, 1983b).

Uma propriedade distintiva das transies F2 e F3 para a oclusiva velar que ambas parecem emergir da
exploso de rudo de mdia-freqncia. Este padro ilustrado na Figura 5-17. Nota-se que F2 e F3
divergem de uma regio de freqncia comum que quase contnua com a exploso. O padro similar
ao que Stevens e Blumstein (1975) descreveram como tendo uma quina-guia que tem o formato de uma
cunha. O padro espelho ocorre para a transio VC, como mostrado na mesma figura. A divergncia ou
convergncia F2-F3 uma pista til para as velares e um critrio mais confivel do que qualquer valor
nico de locus. questionvel se mesmo um locus de 2 valores suficiente para as consoantes velares.
Em um estudo com micro-feixes de raios-x com 12 falantes do ingls americano, Dembowski (1998)
relatou que o lugar da constrio para as oclusivas velares se estendia amplamente ao longo do palato,
como se esses sons pudessem ser formados bem variavelmente.
Figura 5.17. Espectrogramas da slaba [gQg]com as transies de F2 e F3 ressaltadas. Note os padres em formato de cunha
de F2-F3.

Klatt (1979,1987) sugeriu uma abordagem de locus modificada em que a freqncia inicial da transio

F2 plotada em funo da freqncia de F2 da vogal seguinte. Os pontos de medio so mostrados na


Figura 5-18. As coordenadas de freqncia assim determinadas podem ser agrupadas em subconjuntos
voclicos, como vogais anteriores, vogais arredondadas, vogais posteriores e vogais arredondadas.
Evidncias para uma teoria de locus so obtidas se os pontos de dados caem em uma linha estreita. Uma
relao linear indica que a freqncia de incio de F2 pode ser prevista da freqncia alvo da vogal. Uma
extenso desta idia inclui a freqncia de F3 da vogal como um ponto de dado adicional, de modo que
trs valores esto disponveis para estabelecer a identidade consonantal.
Figura 5.18. Ilustrao de pontos de medio para determinar as equaes de locus correspondentes ao ponto de articulao.
Medidas da freqncia de F2 so feitas no incio de F2 e no valor de F2 para a vogal.

Sussman (1979) examinou essa possibilidade para dois falantes masculinos e apresentaram equaes de
locus para F2 e F3 de /b/, /d/ e /g/. Ele reportou inclinaes distintivas para equaes de locus lineares.
Por exemplo, para um falante, o valor da inclinao de F2 foi 0,91 para o ponto bilabial, 0,46 para o
ponto alveolar, e 0,67 para o ponto velar. Sussman e colegas continuaram essa linha de investigao
atravs da determinao de equaes de locus para falantes adultos adicionais do ingls americano
(Sussman, McCaffrey, & Matthews, 1991), falantes adultos de tai, rabe do Cairo, e urdu (Sussman,
Hoemeke, & Ahmed, 1993), falantes adultos compensando um bloqueio de mandbula (Sussman,
Fruchter, & Cable, 1995), e crianas aprendendo ingls americano (Sussman, Hoemeke, & McCaffrey,
1992). Fruchter e Sussman (1997) mostraram como a equao de locus podia acomodar dados clssicos
de Liberman et al. (1954) bem como dados mais recentes (Sussman et al., 1991) na forma de superfcies
de identificao para a identificao das oclusivas. Sussman et al. (1998) apresentaram uma hiptese
chamada restrio de sada ordenadamente baseada na linearidade das equaes de locus. Entretanto, a
interpretao e significncia das equaes de locus tm sido questionadas. Brancazio e Fowler (1998)
concluram que as equaes de locus falharam em dar conta da grande proporo de varincia em
julgamentos de ouvintes das consoantes oclusivas, e Lofqvist (1999) argumentou que as equaes de
locus no parecem ser um ndice do grau de coarticulao entre uma consoante e uma vogal seguinte.
Para uma discusso mais detalhada sobre as equaes de locus, vejam o artigo de Sussman et al. (1998) e
o comentrio do parecerista associado.
A discriminao das consoantes faringais e uvulares dependem, aparentemente, bastante das
caractersticas de F1, com o incio da freqncia sendo mais alto para as faringais(Alwan, 1989).
Interessantemente, o valor relativo da freqncia de incio de F1 foi relacionado percepo de trs
pontos de articulao consonantal, com julgamentos de uvular associados com baixos incios de F1,
julgamentos de faringais com altos incios de F1, e julgamentos glotais com incios intermedirios.
Devido ao fato de os resultados de Alwan terem sido obtidos com um nico ambiente voclico, estudos
posteriores so necessrios para estabelecer a generalidade dessa relao acstico-perceptual.
Embora as exploses das oclusivas e as transies formnticas tenham sido consideradas separadamente,
ambas so freqentemente disponveis na percepo da fala. Portanto, elas so pistas complementares e
sua integrao provavelmente leva a um percepto fontico mais forte do que seria formado com qualquer
um sozinho. Alm disso, a importncia relativa da transio da exploso e dos formantes podem variar
com o vozeamento e os traos de ponto da consoante e at mesmo com o contexto voclico em que a
consoante produzida (Smits et al., 1996). Um ponto adicional importante que a pista e a transio
formntica se aplicam geralmente a consoantes. Por exemplo, notado mais tarde que as consoantes nasais,
produzidas como as oclusivas com articulaes bilabiais, alveolares e velares, tm transies formnticas
similares. Esse resultado no surpreendente se lembrarmos que transies formnticas so uma pista para
lugar de articulao e no so restritas a nenhum dado modo de produo. Um entendimento das transies
formnticas para oclusivas a base para o estudo mais geral de transies formnticas associadas com

seqncias consoante-vogal ou vogal-consoante.

Sumrio dos Correlatos do Ponto de Articulao de Oclusivas

O ponto de articulao pode ser identificado por diferentes propriedades acsticas, incluindo o template
da exploso (Blumstein & Stevens, 1979; Stevens & Blumstein, 1978), momentos espectrais (Forrest et
al., 1988), transies formnticas e, quando disponvel, at mesmo o valor de VOT relativo. O seguinte
sumrio lista essas diferentes pistas para cada ponto da articulao da oclusiva, assumindo uma posio
inicial de slaba.

1. Bilabial:
Descrio do template: espectro difuso, plano ou em queda;
Descrio do momento espectral: mdia espectral relativamente baixa, alta assimetria, e baixa curtose;
Transio formntica: a freqncia de F2 aumenta da soltura da oclusiva para a vogal seguinte.
VOT: relativamente curto, pr-vozeamento provvel para oclusivas bilabiais vozeadas.
2. Alveolar:
Descrio do template: espectro difuso, em subida;
Descrio do momento espectral: mdia espectral relativamente alta, baixa assimetria, e baixa curtose;
Transio formntica: a freqncia de F2 decresce da soltura da oclusiva para a vogal seguinte,
exceto para as vogais altas anteriores.
VOT: intermedirio entre bilabiais e velares.
3. Velar:
Descrio do template: espectro compacto (nfase nas freqncias mdias);
Descrio do momento espectral: mdia espectral relativamente baixa, alta assimetria, e alta curtose,
provavelmente refletindo um espectro compacto;
Transio formntica: F2 e F3 possuem um formato de cunha, em que eles so inicialmente quase
fundidos, mas separados em freqncia durante a transio.
VOT: valores mais longos entre os 3 pontos de produo das oclusivas; longos intervalos provveis
para as velares desvozeadas.

Consoantes Fricativas
Como discutido no Captulo 2, o trao articulatrio essencial de uma fricativa uma constrio estreita
mantida em algum ponto do trato vocal. Quando o ar passa atravs da constrio, em uma taxa de fluxo
adequada, a condio de turbulncia resulta. A turbulncia significa que o movimento de partculas no
fluxo areo se torna altamente complexo, formando pequenos vrtices na regio logo alm do segmento
constrito. A condio aerodinmica de turbulncia associada com a gerao de rudo de turbulncia no
sinal acstico. Assim, as fricativas so caracterizadas por: (1) a formao de uma constrio estreita em
algum ponto do trato vocal, (2) o desenvolvimento de fluxo areo turbulento, e (3) a gerao de rudo de
turbulncia. Essas trs caractersticas definem as propriedas articulatrias, aerodinmicas e acsticas
essenciais das fricativas.

As fricativas no so a nica classe de sons envolvendo gerao de rudo. Entretanto, comparadas s


oclusivas e africadas, as fricativas possuem duraes relativamente longas de rudo, e esse intervalo
extenso de energia aperidica que distingue fricativas como uma classe de som. arriscado atribuir uma
durao especfica a segmentos de rudos fricativos, porque a durao influenciada por numerosos
fatores contextuais. Klatt (1974, 1976) relatou que a durao da fricativa [s] pode se estender de 50 ms
em encontros consonantais a 200 ms em posio de final de sintagma. Sobre tudo que pode ser
seguramente dito est o fato de que quando oclusivas, africadas e fricativas so comparadas em um
contexto equivalente, as fricativas generalmente possuem segmentos ruidosos mais longos. Em um estudo
de durao segmentais do rudo para oclusivas, africadas e fricativas nas lnguas chins (mandarim),
tcheco e alemo, Shinn (1984) identificou as seguintes fronteiras duracionais: 62 a 78 ms para a fronteira
oclusiva-africada, e 132 a 133 ms para a fronteira africada-fricativa. Ou seja, para os seus estmulos (slabas
CV com significado isoladas), os segmentos de rudo eram provveis de serem etiquetados oclusivas se fossem
menor do que cerca de 75 ms, africadas se estivessem na faixa de 75 a 130 ms, e fricativas se fossem mais
longas do que 130 ms. Entretanto, esses valores so apenas aproximados. As fronteiras so tipicamente
alteradas para mudanas na taxa de elocuo e complexidade do enunciado. O nvel de energia pode
interagir com a durao do rudo na determinao se os falantes ouvem uma africada ou uma fricativa.
Hedrick (1997) relatou que ouvintes apresentados com estmulos sintetizados ouviram mais africadas
palatais do que fricativas quando (a) o nvel de apresentao aumentou, (b) a amplitude relativa na regio
do terceiro formante aumentou, ou (c) a durao da frico diminuiu.
As fricativas em ingls so produzidas em cinco pontos do trato vocal: labiodental [f v], linguodental [P D], linguoalveolar [s z], linguopalatal [S Z] e glotal [h]. Essas fricativas podem ser classificadas como
estridentes [s z S Z] e no estridentes [f v P D h]. Alguns foneticistas usam o termo sibilantes (e no
sibilantes), em vez de estridentes (e no estridentes). As estridentes possuem maior energia de rudo do
que no estridentes, e a diferena pode ser importante para sua identificao perceptual (Behrens &
Blumstein, 1988a, 1988b; McCasland, 1979; Strevens, 1960).
As fricativas podem tambm ser classificadas em relao ao vozeamento. As fricativas vozeadas [v D z
Z] so produzidos com duas fontes de energia, a energia quase peridica da vibrao das pregas vocais e a
energia aperidica do rudo de turbulncia. As fricativas desvozeadas possuem apenas a ltima fonte de
energia. As fricativas vozeadas tendem a ter menores duraes segmentais de rudo do que as fricativas
desvozeadas (Baum & Blumstein, 1987; Crystal & House, 1988). Entretanto, h uma sobreposio
considervel nas duraes dos segmentos de rudo das fricativas vozeadas e desvozeadas quando grandes
nmeros desses sons so comparados juntos; ou seja, as diferenas duracionais em segmentos de rudo
so estatsticos, em vez de categricos. A presena ou ausncia de energia de vozeamento a pista
dominante para a percepo do contraste de vozeamento em fricativas. Alm disso, a presena ou
ausncia da energia de vozeamento nas fronteiras acsticas do rudo da fricativa parece ser
especificamente importante (Pirello, Blumstein, & Kurowski, 1997). Pirello et al. usaram a amplitude de
HI (primeiro harmnico) como um ndice de vozeamento durante o intervalo de frico.
Essas classificaes das fricativas inglesas so diagramadas na Figura 5-19, que serve como suporte para
a seguinte discusso das propriedades acsticas desses sons.
Figura 5.19. Classificao fontica das consoantes fricativas.

Estridentes
As fricativas estridentes possuem intensa energia de rudo e so distinguidas entre si com relao ao
vozeamento e ao espectro de rudo. O rudo de turbulncia das fricativas vozeadas modulado pelas
vibraes larngeas. Essa modulao quase peridica ilustrada na Figura 5-20 tanto com uma forma de
onda quanto para [z] e [Z]. O espectrograma revela como o rudo de turbulncia pulsado pela fonte de
vozeamento. As cognatas desvozeadas [s S ] so mostrados na Figura 5-21. Para essas fricativas, a energia
de rudo contnua evidente na forma de onda e no espectrograma.
Figura 5.20. Formas de onda e espectrogramas para produes isoladas das fricativas [z] e [Z].

claro na comparao dos espectrogramas das Figuras 5-20 e 5-21 que os espectros para as fricativas
alveolares contm uma energia relativamente de alta freqncia do que os espectros para palatais. Como
regra geral para falantes adultos masculinos, a principal regio de energia de rudo para as fricativas
alveolares esto acima de 4 kHz. Em contraste, as fricativas palatais possuem energia de rudo
significante se estendendo para cerca de 3 kHz. Esses valores de corte so apenas aproximados e teriam
de ser escalados para cima para mulheres e crianas.
Figura 5.21. Formas de onda e espectrogramas para produes isoladas das fricativas [s] e [S].

Os espectrogramas no so ideais para um exame das caractersticas espectrais detalhadas das fricativas.
Para este propsito, prefervel usar espectros determinados por mtodos como FFT ou LPC. Exemplos
de espectros de FFT e LPC para as estridentes desvozeadas esto contidos na Figura 5-22. Como vimos
anteriormente com os espectrogramas, a fricativa alveolar possui mais energia em freqncias mais altas
comparadas s palatais. Ambas fricativas alveolares e palatais possuem menores mximos e mnimos em
seus espectros (Hughes & Halle, 1956). Aparentemente, essas irregularidades espectrais so relativamente
de leves conseqncias na percepo desses sons. Em um estudo com fricativas sintetizadas, Heinz and
Stevens (1961) modelaram esses sons com um nico zero (anti-ressonncia) de baixa freqncia e um um
nico plo (ressonncia) aplicados fonte de rudo branco. Os ouvintes identificaram o rudo resultante
como [S] quando a freqncia central do plo estava abaixo de cerca de 3 kHz e como [s] quando a
freqncia central estava entre cerca de 4-8 kHz. Manrique e Massone (1981) determinaram a
importncia relativa de diferentes regies de rudo para a identificao de fricativas atravs da filtragem
dos sons com vrios circuitos de passa-baixa e altas. A identificao de [s] pareceu depender em picos de
energia em cerca de 5 e 8 kHz, enquanto a identificao de [S] foi relacionada a um pico em cerca de 2,5
kHz. Os resultados desse estudo de filtragem so consistentes com o estudo de sntese de Heinz e Stevens
que demostra a importncia de regio de rudo de baixa freqncia para [S] e uma regio de rudo de alta
freqncia para [s]. Forrest et al. (1988) tentaram classificar as fricativas desvozeadas dos quatro
primeiros momentos (mdia, varincia, assimetria e curtose) computados dos FFTs do rudo de frico.
Entre essas medidas estatsticas, a assimetria foi mais efetiva para distinguir [s] e [S], especialmente
quando uma transformada Bark foi aplicada aos dados acsticos. Entretanto, a classificao estatstica
no funcionou bem com as no estridentes [f] e [P]. Quase metade dos dados de [P] foram classificados
erroneamente como [f].
Figura 5.22. Espectros de FFT e LPC para as fricativas [s] e [S]. Os valores mostrados esquerda pertencem s linhas
verticais nos espectros.

Outra linha mestra para a distino espectral entre as fricativas alveolares e palatais baseada em uma
comparao das maiores regies de rudo da fricativa com o padro formntica de uma vogal produzido
pelo mesmo falante. Como mostrado na Figura 5-23, o limite de freqncia mais baixa da energia de
rudo primria para [s] na palavra see est perto da freqncia de F4 para a vogal. Para a fricativa palatal
[S] na palavra she na mesma figura, o limite de freqncia mais baixa da maior regio de rudo est perto
da freqncia de F3 para a vogal. Como um teste desse critrio, pode-se tentar classificar cada segmento
de rudo etiquetado na Figura 5-24 como [s] ou [S]. Cada fricativa ocorre em uma slaba CV, tornando-se
conveniente comparar a regio de rudo da fricativa com o padro formntico da vogal.
Figura 5.23. Formas de onda e espectrogramas das slabas see e she. Note a relao entre o limite de baixa freqncia da
energia de rudo para a fricativa e o padro formntico para a vogal seguinte.

Vrias possveis pistas foram examinadas por sua relevncia em distinguir as fricativas alveolares e
palatais (especialmente as desvozeadas [s] e [S]) (Jongman, Way-land, & Wong, 2000; Behrens &
Blumstein,1988a; Evers, Reetz, & Lahiri, 1998). Em geral, esses estudos indicam que as propriedades de
amplitude e de durao no distinguem esses sons, mas caractersticas espectrais sim. O desafio selecionar
uma caracterstica espectral distintiva que tanto confivel quanto quantificvel. Vrios candidados podem
ser considerados, incluindo momentos espectrais (Jongman et al., 2000; Forrest et al., 1988), energia em
regies espectrais especficas (Behrens & Blumstein, 1988a), pico espectral (Jongman et al., 2000), e
medidas de inclinao espectral (Evers et al., 1998). Um desses eventualmente pode emergir como a
caracterstica preferida para todas lnguas em que o contraste relevante. Entretanto, no momento, podese dizer que [s], comparado a [S], tende a ter um pico espectral de freqncia mais alta, maior assimetria
(mas no uniformemente em todos os estudos), mais energia na regio de freqncia de 3,5-5,0 kHz (em
oposio regio de freqncia 2,5-3,5 kHz) e uma inclinao mais rasa para o envelope espectral abaixo
de 2,5 kHz.
Figura 5.24. Espectrograma da sentena, The ship sails close to the shore. Tente classificar os intervalos de frico (a-e)
como alveolares ou palatais.

Como descrito anteriormente para as oclusivas, as consoantes se juntam s vogais precedentes ou


seguintes por um intervalo de transies formnticas. As fricativas no so exceo. A transio
formntica provavelmente secundria ao espectro de rudo como uma pista para a percepo das
estridentes. O espectro primrio, porque a energia do rudo para as estridentes intenso e foneticamente
distintivo. Demonstraes experimentais desse ponto foram fornecidas por Harris (1958) e La Riviere,
Winitz e Herriman (1975). Harris usou uma tcnica de juno em que o segmento ruidoso de uma
fricativa foi combinado com o segmento de transio de outra fricativa. A identificao das fricativas
estridentes de seus segmentos de rudo no foi afetada por este procedimento, indicando que o espectro
do rudo foi altamente distintivo. La Riviere et al. estudaram a identificao das fricativas para estmulos
editados em que diferentes pistas estavam disponveis. Seus resultados foram como os de Harris por
demonstrar que as estridentes eram bem identificadas apenas com o segmento de rudo. Entretanto,
tambm foi descoberto que o intervalo de transio poderia ajudar a identificao das estridentes e que o
valor relativo do rudo ou intervalo de transio variou com o contexto voclico. Por exemplo, o
segmento de rudo para [s] no foi uma prova to efetiva no contexto de [i] quanto foi nos contextos de
[a] ou [u]. Pode-se concluir que, embora as estridentes possam ser identificadas bastante bem apenas com
seus segmentos de rudos, as transies formnticas podem exercer um papel secundrio na melhoria do
reconhecimento de fricativas.

No estridentes
Para essas fricativas, podemos considerar as mesmas caractersticas acsticas principais discutidas para as
estridentes. As no estridentes vozeadas [v D] so mostradas como formas de onda e espectrogramas na
Figura 5-25. A energia de rudo total das no estridentes obviamente menor do que para as estridentes.
A modulao quase-peridica do rudo pelos pulsos glotais evidente para as no estridentes vozeadas na
Figura 5-26, mas despercebida para as no estridentes desvozeadas da Figura 5-26.
Figura 5.25. Formas de onda e espectrogramas para produes isoladas das fricativas [v] e [D].
Figura 5.26. Formas de onda e espectrogramas para produes isoladas das fricativas [f] e [P].

Como um grupo, as no estridentes so fracas em energia total e possuem espectros bastante planos ou
difusos. O padro plano do espectro ilustrado pelos espectros de FFT e LPC na Figura 5-27. A diferena
pronunciada de energia entre estridentes e no estridentes faz com que seja improvvel que uma
estridente possa ser confundida com uma no estridente, ou vice versa. Quando ocorrem confuses, elas
so mais provveis entre as estridentes ou entre as no estridentes. A energia de rudo para as no
estridentes podem ser estendidas sobre uma gama de freqncias aprecivel, mas no claro como essa
energia se relaciona identificao fontica. Jongman et al. (2000) concluiu que as fricativas no
estridentes do ingls americano, comparadas s estridentes, tinham uma amplitude mdia mais baixa (de
cerca de 10 db), um pico espectral maior, uma mdia espectral menor (primeiro momento), e uma
varincia espectral maior (segundo momento). Tabain (1997) concluiu que a informao espectral acima
de 10 kHz para fricativas no estridentes dependente do falante. Portanto, a energia em altas freqncias
pode no ser especificamente importante para a identificao fontica, mas poderia exercer um papel na
identificao do falante (discutido no Captulo 6).
Figura 5.27. Espectros de FFT e LPC para as fricativas [f] e [P].

Os experimentos de Harris e La Riviere et al. citados anteriormente indicam que a transio formntica
mais efetiva do que o segmento de rudo como uma pista para a percepo das no estridentes. Entretanto,
em alguns contextos voclicos, o segmento de rudo pode ajudar no reconhecimento da fricativa. As
transies formnticas distintivas para as labiodentais e as linguodentais surgem porque a primeira possui
um locus de F2 de cerca de 1000 Hz comparado ao locus de F2 de cerca de 1400 Hz para a ltima
(assumindo um falante adulto masculino). A fricativa [h] tipicamente no est associada com transies
formnticas. No apenas [h] produzido na glote e faringe, mas pode ser quase completamente
coarticulado com o formato do trato vocal da vogal seguinte. Por exemplo, na palavra he [hi], a
configurao do trato vocal para a vogal [i] assumida durante a produo da fricativa. Portanto,
transies formnticas esto virtualmente ausentes, embora o segmento de rudo [h] freqentemente
possua uma estrutura semelhante a formante bem marcada (como notado por Strevens, 1960). Jongman et
al. (2000) achou pouca evidncia de as transies formnticas carregarem informao importante
relacionada ao ponto de articulao da fricativa.

O Problema da Caracterizao do Espectro

As propriedades espectrais dos segmentos de rudo para vrias fricativas desvozeadas de diferentes
lnguas so resumidas na Tabela 5-4. Informao dada sobre intensidade relativa, durao do espectro
efetiva e lugar dos picos espectrais prominentes. Em acrscimo, a freqncia de ocorrncia do rank como
determinado em uma amostra de 317 lnguas notada. Embora no se deva se levar tanto em
considerao a freqncia dos dados de ocorrncia, interessante que as fricativas que ocorrem mais
freqentemente entre essas lnguas seja as estridentes [s] e [S]. Talvez as lnguas tendem a selecionar
fricativas de alta energia com diferenas espectrais proeminentes. Essas fricativas deveriam ser
perceptualmente salientes e discriminveis mesmo com um rudo de mascaramento desfavorvel.
TABELA 5-4
Propriedades espectrais e fricativas desvozeadas compiladas de vrias fontes. So mostrados para
cada fricativa o smbolo do IPA, o ponto de articulao, o rank de freqncia de ocorrnciaa, a
intensidade relativab, a extenso efetiva do espectroc e os picos espectraisd,e.
A descrio acstica das fricativas possui espao considervel para melhoramentos. Tem sido difcil
identificar medidas que sejam econmicas, vlidas e confiveis. Medidas como durao do espectro
efetivo e localizao dos picos proeminentes no so sempre altamente repetveis em ou entre
observadores. Qualquer um que pretenda fazer medidas espectrais para fricativas bem aconselhado a ler
a literatura cuidadosamente e avaliar a confiabilidade de quaisquer medidas selecionadas para uso. Uma
possibilidade o uso de momentos espectrais, sejam sozinhos, ou em combinao com outras descries
de formato espectral. Infelizmente, apenas dados limitados tm sido relatados sobre valores de momento
espectrais, e questes permanecem sobre questes tcnicas na anlise do momento (duas das quais so o
efeito do rudo de ambiente e o efeito de diferentes valores de filtragem passa-baixas). Entretanto, dois
exemplos da descrio de momento espectral devem ser notados. Um o relato sobre as fricativas
desvozeadas do polons de Jassem (1995), para as quais os valores de momento espectral so relatados na
Tabela 5-5. O outro o estudo detalhado das fricativas do ingls americano de Jongman et al. (2000),
cujos maiores resultados esto sumarizados na Tabela 5-6.
TABELA 5-5
Momentos espectrais para as fricativas desvozeadas do polons. De W. Jassem (1995), The acoustic
parameters of Polish voiceless fricatives: An analysis of variance. Phonetica, 52,
251-258. (Reimpresso com permisso de S. Karger AG, Basel). Direitos autorais 1995.
TABELA 5-6
Sumrio de medidas acsticas para as fricativas do ingls americano, baseado em dados de
Jongman et al. (2000). As medidas so durao mdia (Dur) em ms, amplitude de pico (Amp) em
dB, local do pico espectral (Spect pk) em Hz, primeiro momento (M1) em Hz, segundo momento
(M2) em Hz, terceiro momento (M3), e quarto momento (M4). Reimpresso de A. Jongman, R.
Wayland e S. Wong (2000), Acoustic characteristics of English fricatives, Journal of the Acoustical
Society of America, 108, 1252-1263. (Reimpresso com permisso do Instituto Americano de Fsica.)
Direitos autorais 2000.

Consoantes Africadas

H apenas duas africadas em ingls, [tS] e [dZ]. Essas so usualmente descritas como tendo um ponto de
articulao palatal e sendo diferentes apenas em vozeamento. Alguns acreditam que o ponto de
articulao no verdadeiramente palatal, no mnimo quando comparado com as fricativas palatais [S] e
[Z]. A africada um som complexo, envolvendo uma seqncia de articulaes oclusivas e fricativas.
Como as oclusivas, as africadas so produzidas com um perodo de completa obstruo do trato vocal.
Como as fricativas, as africadas so associadas com um perodo de frico. O intervalo de frico para as
africadas tende a ser mais curtos do que para as fricativas. Basicamente, ento, a descrio acstica das
africadas implica uma descrio da parte oclusiva e uma descrio da parte de rudo.
Para a posio inicial da slaba, as pistas acsticas primrias que so usadas para distinguir africadas de
oclusivas o tempo da subida da energia do rudo e a durao da frico (Howell & Rosen, 1983). O tempo
da subida uma medida do tempo em que o envelope de amplitude alcana seu valor mximo ou quase
mximo. Para as africadas, o tempo de subida mdio medido por Howell e Rosen foi de 33 ms, contrastado
com um tempo de subida mdio de 76 ms para as fricativas. Assim, as africadas so caracterizadas por uma
rpida construo crescente da energia de rudo acstico, embora no to rpidas quanto s das consoantes
oclusivas. A diferena no tempo de subida entre africadas e fricativas evidente na Figura 5-28. Hedrick
(1997) observou que a percepo da africada palatal tambm influenciada pelo nvel de apresentao ou
pela amplitude relativa de energia na regio do terceiro formante. Vrios fatores precisam ser considerados
na diferenciao acstica das africadas e fricativas, e estudos adicionais so necessrios para determinar a
importncia relativa das diferentes pistas.
Figura 5.28. Forma de onda e espectrograma para a palavra shoe e a palavra chew. Note o tempo de subida gradual da energia de
frico na forma de onda para shoe (topo), mas uma subida rpida da energia de frico para chew (fundo).

Na posio ps-voclica, as pistas acsticas para a distino africada-fricativa inclui o tempo de subida e
a durao do segmento de rudo, a presena ou ausncia de uma exploso de soltura, a durao do
intervalo da oclusiva e/ou caractersticas espectrais da vogal precedente (Dorman, Raphael, & Eisenberg,
1980). Essas caractersticas podem ser vistas na Figura 5-29 que exibe a forma de onda e o espectrograma
para a palavra judge, que tem a africada vozeada nas posies pr-voclica e ps-voclica.
Figura 5.29. Forma de onda e espectrograma para a palavra judge para ilustrar uma africada vozeada pr-voclica e psvoclica.

Kluender e Walsh (1992) manipularam independentemente a durao da frico e o tempo de subida em


um estudo da percepo de fricativas e africadas desvozeadas. Seus resultados mostraram que variaes
no tempo de subida no foram uma pista suficiente para o contraste africada/fricativa, mas que a variao
na durao da frico foi suficiente. De acordo com esse resultado, os falantes podem controlar a durao
da frico como a pista primria para essa distino, com o tempo de subida servindo apenas como uma
pista secundria ou redundante.

Consoantes Nasais

As consoantes nasais, /m n N / em ingls, so produzidas com fechamento da cavidade oral e radiao do


som atravs da cavidade nasal enquanto a obstruo oral mantida (Fujimura, 1962; Lindquist &
Sundberg, 1972). Como explicado no Captulo 2, a cavidade oral obstruda age como um desvio ou ressoador
bifurcado. Ou seja, embora a cavidade oral esteja fechada em algum ponto, ela, no entanto, contribui para as
qualidades ressonantes das consonantes nasais. Se no contribusse, ento seria impossvel distinguir as
nasais em produes sustentadas, isoladas. Embora as consoantes nasais no sejam facilmente distinguidas
nessas produes, elas no soam exatamente iguais.
A caracterstica articulatria de abertura velofaringal acompanhada pela obstruo da cavidade oral est
ligada a uma caracterstica acstica de um murmrio nasal. O murmrio o segmento acstico
associado com uma radiao exclusivamente nasal da energia sonora. Embora a nasalizao tenha efeitos
alm desse intervalo, o murmrio um bom lugar para comear nosso questionamento sobre as
consoantes nasais.

Como uma primeira olhada no murmrio nasal, a Figura 5-30 mostra um espectrograma de uma produo
sustentada da consoante nasal [n]. Esse espectrograma foi preparado com uma extenso dinmica
especialmente ampla para visualizao dos mximos e mnimos dos espectros sonoros. Os formantes so
evidentes como bandas de energia etiquetadas na ilustrao. Entretanto, notem tambm a banda clara de
energia reduzida etiquetada como um antiformante. Outra olhada nas caractersticas espectrais dos
murmrios nasais dada nas Figuras 5-31, 5-32 e 5-33, que mostra espectrogramas acompanhados por
espectros de FFT para a poro do murmrio de cada nasal. Ambos espectrogramas e os espectros de FFT
ilustram que os murmrios nasais so associados com regies distintas de energia, similares aos padres
formnticos de vogais sustentadas (monotongos). Entretanto, as figuras tambm mostram regies de
energia bem reduzidas. Diferentemente das vogais radiadas oralmente, que teoreticamente possuem
apenas formantes na sua funo de transferncia, as nasais possuem tanto formantes quanto
antiformantes. Como foi discutido anteriormente, os antiformantes podem ser pensados como interferindo
com, ou prevenindo, a transmisso de energia na faixa de freqncia do antiformante. Antiformantes,
como formantes, podem ser descritos com dois nmeros, a freqncia central e a largura de banda.
importante reconhecer que a interao de formantes e antiformantes no espectro de um som nasal no
uma simples questo de atribuir formantes a picos espectrais e antiformantes a vales espectrais. Embora
esse resultado possa ocorrer, outras conseqncias espectrais podem ocorrer tambm. Por exemplo, se um
formante e antiformante possuem exatamente a mesma freqncia central e largura de banda, o resultado
de sua interao um cancelamento mtuo. De fato, formantes e antiformantes freqentemente ocorrem
em pares. Quando os membros de um par possuem as mesmas freqncias e larguras de bandas, elas se
cancelam, mas quando o formante e o antiformante divergem nesses valores, uma conseqncia espectral
especfica seria vista.
Figura 5.30. Espectrograma de um murmrio sustentado para a consoante nasal [n].
Figura 5.31. Anlise em trs painis para a consoante nasal [m]. Alto esquerda: espectro de longo termo; alto direita: forma
de onda; metade embaixo: espectrograma do [m] sustentado. O espectro de longo termo foi calculado para o intervalo ligado
por linhas verticais no espectrograma. Essa exibio mltipla (e as das duas figuras seguintes) foi produzida com um Kay
Elemetrics Corporation Model 5500 Sona-Graph.
Figura 5.32. Anlise em trs painis para a consoante nasal [n]. Alto esquerda: espectro de longo termo; alto direita: forma
de onda; metade embaixo: espectrograma do [n] sustentado. O espectro de longo termo foi calculado para o intervalo ligado
por linhas verticais no espectrograma.
Figura 5.33. Anlise em trs painis para a consoante nasal [N]. Alto esquerda: espectro de longo termo; alto direita: forma

de onda; metade embaixo: espectrograma do [N] sustentado. O espectro de longo termo foi calculado para o intervalo ligado
por linhas verticais no espectrograma.

A Figura 5-34 d uma comparao espectral de uma vogal no nasal e um murmrio consonantal nasal. O
murmrio similar vogal, pois tem um nmero de picos espectrais, mas apenas um desses, o formante
nasal de baixa freqncia, possui uma amplitude comparvel s dos formantes voclicos. A amplitude
reduzida dos outros picos espectrais do murmrio nasal significa que a nasal teria menos energia total do
que a vogal. De fato, como o espectrograma da Figura 5-35 mostra, murmrios nasais usualmente so
facilmente distinguveis das vogais por uma comparao da energia total. Podemos concluir dizendo que
a parte do murmrio de uma consoante nasal tem uma ressonncia dominante de baixa freqncia, o
formante nasal, acompanhado por um nmero de ressonncias muito mais fracas em freqncias altas.
Como explicado no Captulo 2, o formante nasal associado com um tubo bastante longo se estendendo
da laringe at a abertura do nariz.
Figura 5.34. Espectros idealizados de uma vogal no nasal e a poro de murmrio de uma consoante nasal.
Figura 5.35. Espectrograma da sentena Didn't you see me?. Compare as vogais no nasais, como o /I/ em didn't, com as
consoantes nasais, como o [n] na mesma palavra.

Fujimura (1962) determinou que as consoantes nasais possuem trs propriedades comuns. Primeiramente,
todas eles possuem um primeiro formante de cerca de 300 Hz que est bem separado dos formantes mais
altos. Em segundo lugar, os formantes tendem a ser altamente amortecidos (i.e., eles tm larguras de
banda largas refletindo uma taxa rpida de absoro de energia sonora). Em terceiro lugar, h uma alta
densidade de formantes e a existncia de antiformantes.

Um exame de perto da Figura 5-35 revela que as consoantes nasais, como outras consoantes, so
associadas com transies formnticas quando so produzidas em seqncia com outros sons. De fato, a
interpretao das transies formnticas associadas com as nasais bem parecida com as das oclusivas
cognatas (homorgnicas). As transies formnticas podem ser interpretadas de acordo com o ponto de
articulao, de modo que padres similares so observados para os pares oclusiva-nasal, [b]-[m], [d]-[n],
e [g]-[n]. Essa similaridade no surpreendente dado que a transio de F2 se relaciona ao ponto de
articulao e que a transio de F2 se relaciona com a obstruo da cavidade oral. Em muitos aspectos, as
consoantes nasais podem ser chamadas de oclusivas nasalizadas, ou seja, elas compartilham algumas
propriedades fundamentais com as consoantes oclusivas. As maiores diferenas entre oclusivas e nasais
so explicadas pelos efeitos da nasalizao. Uma representao estilizada de uma slaba oclusiva-vogal e
de uma nasal-vogal dada na Figura 5-36. Devido ao fato de a oclusiva [d] e a nasal [n] serem
homorgnicas (tendo o mesmo ponto de articulao), elas diferem apenas no trao articulatrio de
nasalidade. As propriedades acsticas da slaba oclusiva-vogal incluem a exploso de soltura, a transio
e o estado estacionrio da vogal. As propriedades para a slaba nasal-vogal so o murmrio, a transio e
o estado estacionrio da vogal. O segmento de transio formntica altamente semelhante para as duas
slabas.
Figura 5.36. Representao estilizada de slabas oclusiva + vogal e nasal + vogal. As caractersticas incluem a exploso da
oclusiva, as transies formnticas e o murmrio nasal.

Os experimentos perceptuais de Kurowski e Blumstein (1984) demonstraram que o murmrio nasal e as

transies so aproximadamente iguais no fornecimento de informao sobre o ponto de articulao.


Esses resultados tambm indicam que nem o murmrio nem a transio so suficientes para a percepo
consistentemente precisa do ponto de articulao. Quando apenas o murmrio ou a transio foram
apresentados aos ouvintes, o placar de porcentagem correta para a identificao consonantal foi cerca de
80%. Qi e Fox (1992) relataram uma taxa de identificao de 86% de [m] versus [n] usando um modelo
preditivo linear perceptual de quinta ordem. Seus resultados mostraram que o segundo plo transformado
foi significantemente mais baixo para [m] do que [n]. Aparentemente, os ouvintes confiam em ambas
pistas, murmrio e transio, e as integram para formar uma nica deciso fontica. A concluso de
Kurowski e Blumstein contrria ao trabalho anterior de Liberman et al. (1954) e de Malecot (1956), que
indicaram que o ponto de articulao para as consoantes nasais dado primariamente pelo segmento de
transio e no pelo murmrio. Repp e Svastikula (1988) relataram resultados para as nasais em slabas
VC que eram substancialmente concordantes com os de Kurowski and Blumstein. Repp e Svastikula
concluiram que as transies formnticas voclicas por si mesmas forneciam tanta informao sobre
ponto de articulao para [m] e [n] quanto para os murmrios nasais sozinhos. Entretanto, as slabas VC
plenas contendo [m] ou [n] no foram identificadas bem como as slabas CV plenas com as mesmas
consoantes. Uma possvel razo para a identificao mais pobre de nasais em slabas VC foi a relative
absence of a salient spectral change between the vowel and the murmur in VC syllables (p. 237) [relativa
ausncia de mudana espectral saliente entre a vogal e o murmrio em slabas VC].
Em ingls, apenas as consoantes nasais /m/ e /n/ ocorrem em posio inicial de palavra (/N/ no podem
ocorrer em incio de slaba ou palavra), mas todas as trs nasais ocorrem no meio ou no final da palavra.
Todas juntas, as trs consoantes nasais respondem por cerca de 10% dos sons na fala adulta corrente
(Mines, Hansen, & Shoup, 1978) e ocorrem em uma taxa mdia de cerca de duas por segundo.
A nasalizao do sinal acstico no se aplica apenas s consoantes nasais mas tambm a certos sons
circundantes, especificamente as vogais. Em geral, as vogais precedendo ou seguindo as consoantes
nasais tendem a ser nasalizadas de alguma forma. Experimentos tm mostrado que os ouvintes so
sensveis nasalizao voclica e usam essa informao para fazer julgamentos perceptuais sobre as
consoantes vizinhas. Em outras palavras, as pistas acsticas para a nasalizao freqentemente podem ser
achadas alm do segmento consonantal nasal.

Consoantes glide
Os dois glides do ingls so /w/ e /j/. Ladefoged (1975) usou o termo aproximantes para esses sons, e o
termo semivogais tambm usado. Alguns autores aplicam o termo semivogais no apenas para /w/ e /j/,
mas tambm para /r/ e /l/ (Espy-Wilson, 1992). Todos trs termos so descritivos: o termo glide descreve
os movimentos articulatrios graduais que caracterizam esses sons; o termo aproximante descreve o trao
articulatrio em que o trato vocal marcadamente estreitado, mas no fechado, em algum ponto; e o
termo semivogal descreve a natureza voclica desses sons. Os glides so necessariamente pr-voclicos
(na fonologia, uma variante ps-voclica , s vezes, reconhecida, mas no trataremos dela aqui). A
articulao do glide, portanto, pode ser entendida como um movimento relativamente lento que procede
de uma configurao do trato vocal com um estreitamento marcado para uma configurao do trato vocal
adequada para a vogal seguinte. Para /w/, h de fato duas regies de estreitamento: nos lbios e entre o
dorso da lngua e o palato mole (ou vu palatino). Por essa razo, /w/ caracterizado foneticamente como
um glide labio-velar, bem semelhante na configurao do trato vocal para a vogal alta posterior /u/. Os
movimentos labiais e linguais para esse glide so feitos com uma coordenao fechada, comeando e
terminando juntas. O glide /j/ tem um estreitamento do trato vocal similar ao da vogal /i/. A lngua
assume uma posio alta anterior, quase contactando a regio pr-palatal. O movimento articulatrio para

as semivogais devagar comparado ao movimento das oclusivas e nasais.


Experimentos perceptuais tm mostrado que os glides ocupam um tipo de posio a meio caminho entre
as oclusivas e as transies vogal-vogal. O glide /w/ fica entre a oclusiva /b/ e uma transio a partir da
vogal /u/ para outro som. A Figura 5-37 mostra espectrogramas para trs enunciados que diferem
primariamente na durao da transio: slaba [bi] (como na palavra bee), slaba [wi] (como na palavra
we), e o enunciado de vogal + vogal [u: i:] (que pode ser representado ortograficamente como algo tipo
oooeee). Os padres formnticos para esses trs enunciados so semelhantes em suas mudanas de
freqncia (ex.: a transio de F2 se estende para cerca da mesma faixa de freqncias), mas diferem na
durao da transio. A durao da transio a mais breve para a oclusiva [b], de alguma forma mais
longa para a semivogal [w] e mais longa para o enunciado vogal + vogal.
Figura 5.37. Padres estilizados de F1 e F2 e espectrogramas para os enunciados [bi], [wi] e [u:i:]. A extenso de freqncia
da transio constante entre os enunciados, mas a durao da transio varia.

O glide /j/ fica a meio caminho entre a oclusiva alveolar /d/ e uma transio da vogal /i/ para outra vogal.
Espectrogramas estilizados ilustrando essa relao so apresentadas na Figura 5-38. Os enunciados de
amostra so a slaba [du] (como na palavra do), a slaba [ju] (como na palavra you), e a seqncia de
vogal + vogal [i: u:] (eeeooo como poderia ser apresentado em gibis). Os padres formnticos para os
trs enunciados so similares em sua extenso de freqncias, mas diferentes no tempo tomado para
acompanhar a mudana em freqncia. A transio mais breve para a oclusiva [d], mais longa para a
semivogal [j], e mais longa ainda para o enunciado vogal + vogal.
Figura 5.38. Padres estilizados de F1 e F2 e espectrogramas para os enunciados [du], [ju] e [i:u:]. A extenso de freqncia
da transio constante entre os enunciados, mas a durao da transio varia.

Os experimentos perceptuais conduzidos por Liberman et al. (1956) mostraram que a durao da
transio explica as respostas do ouvinte para contrastes fonticos como os apresentados nas Figs. 5-37 e
5-38. Quando a durao da transio foi menor do que cerca de 40-60 ms, os ouvintes tenderam a ouvir
uma consoante oclusiva. Quando a durao da transio foi maior do 40-60 ms, mas menor do que 100150 ms, os ouvintes usualmente julgaram o som como uma semivogal. Finalmente, quando a durao da
transio excedia cerca de 100 ms, os ouvintes ouviram uma vogal de cor em mudana, ou seja, uma
seqncia vogal + vogal. Entretanto, uma qualificao deveria ser adicionada: a interpretao fontica de
duraes da transio afetada pela taxa de elocuo (Miller & Liberman, 1979; Miller & Baer, 1983).
Esse efeito pode ser estudado atravs da mudana da durao da slaba teste. As duraes silbicas
menores so ouvidas como sendo produzidas com uma taxa mais rpida. Quando a durao silbica
mudada, uma dada durao da transio s vezes julgada diferentemente por um ouvinte. Por exemplo,
uma durao da transio que ouvida como uma oclusiva em uma taxa devagar (durao silbica longa)
ouvida como uma semivogal em uma taxa rpida (durao silbica curta). Parece que os ouvintes usam
a informao de taxa para fazer decises segmentais de padres acsticos. Portanto, decises segmentais
(fonticas) no so inteiramente independentes da taxa de elocuo (uma questo discutida no Captulo
6).
Tambm foi sugerido que o tempo de subida da amplitude pode distinguir oclusivas e semivogais. Shinn
e Blumstein (1984) relataram que sujeitos em seu estudo categorizaram sons ou como /b/ ou /w/
dependendo do envelope de amplitude da slaba, e aparentemente ignoraram a informao temporal nas
transies formnticas. Entretanto, resultados conflitantes foram relatados por Nittrouer e StuddertKennedy (1986) e Walsh and Diehl (1991), que acharam que o tempo de subida foi uma pista bem menos

efetiva do que a durao da transio. Embora as razes para esses resultados conflitantes no sejam
claras, parece prudente aceitar a concluso geral de que o tempo de subida no seja uma pista
especificamente saliente para as distines de modo (Diehl & Walsh, 1986; Kluender & Walsh, 1992). O
tempo de subida pode servir como uma pista redundante ou uma pista que dependente do falante.

Consoantes Lquidas

As lquidas /r/ e /l/ tm algumas propriedades consonantais similares s oclusivas e outras propriedades
similares s semivogais. A similaridade com as oclusivas dinmica em natureza: no mnimo, em alguns
contextos fonticos, os movimentos articulatrios para /r/ e /l/ so bastante rpidos. A similaridade com
as semivogais principalmente em uma qualidade soante (ressoante) compartilhada: ambas lquidas e
semivogais possuem uma estrutura formntica bem definida associada com um grau de constrio do
trato vocal que menos severo do que as das obstruentes (oclusivas, fricativas e africadas), mas com
certeza mais severa do que a das vogais. Forma de onda e espectrogramas so mostradas para produes
das palavras rye e lie na Figura 5-39. Note que h uma similaridade geral no padro, mas que elas diferem
em F3 e certas caractersticas dinmicas.
Figura 5.39. Forma de onda (topo) e espectrograma (fundo) para as palavras rye e lie. Note, especificamente, a diferena no
padro de F3, que tem uma freqncia de incio baixa para [r] e uma freqncia de incio alta para [l].

Ambos [r] e [l] tm uma articulao caractersticas potencialmente sustentvel, embora um estado
estacionrio possa no ser freqentemente evidente para ocorrncias desses sons na fala casual. Ou seja,
um falante pode, a pedido, sustentar um som com a qualidade essencial de [r] ou [l]. Informaes sobre
esses sons podem ser obtidas da produo em estado estacionrio e do segmento transicional na fala
casual.
Quando comparaes so feitas em palavras em pares mnimos, a freqncia de F1 distingue as
semivogais /w/ e /j/ (que possuem um F1 baixo) das lquidas /l/ e /r/ (que possuem um F1 mais alto)
(Lisker, 1957; O'Connor et al, 1957; Espy-Wilson, 1992). As duas lquidas so distinguidas
especialmente pela freqncia de F3. De fato, a propriedade mais distintiva de /r/ um F3 abaixado que
separado estreitamente de F2 (Lehiste, 1964; Espy-Wilson, 1992). Entre os sons ingleses, /r/ tem a mais
baixa freqncia de F3, e essa caracterstica sozinha (ou uma pequena separao F3-F2) freqentemente
pode ser usada para identificar a ocorrncia dessa lquida. Essa caracterstica sobressai claramente na
Figura 5-40. Como discutido no Captulo 4, uma freqncia de F3 baixa tambm uma caracterstica
distintiva para a vogal rotacizada /^/. Geralmente, para o ingls, a cor de /r/ associada com um F3 baixo
que est perto de F2. Nolan (1983) relatou as seguintes freqncias de formantes mdias para /r/
produzidas em uma lista de palavras por quinze jovens masculinos de 17 anos: Fl320 Hz; F21090
Hz, F31670 Hz. Um exame dos dados de Hagiwara (1995) mostra que para falantes adultos
masculinos, o F3 tem um valor modal de cerca de 1500 Hz (faixa entre 1300 e 1800 Hz). Entretanto, para
falantes adultos femininos, os resultados de Hagiwara mostram uma distribuio bimodal, com algumas
mulheres tendo uma mdia de F3 relativamente baixa de cerca de 1700-1800 Hz e outras tendo uma
mdia de F3 relativamente alta de 2200 Hz ou acima. Hagiwara sugeriu que a extenso do abaixamento
de F3 melhor determinada em relao a um valor neutro de F3, em vez da relao com algum valor de
freqncia crtico independente do falante.

Figura 5.40. Espectrograma da sentena, The rabbit ran down the road, com a trajetria de F3 realada. As flechas apontam
os segmentos de /r/.

O /l/ descrito foneticamente como uma lateral porque a ponta da lngua faz um fechamento central na ou
perto da regio alveolar, de modo que a energia sonora radiada em ambos lados (lateralmente) da
ocluso. Para, no mnimo, algumas variantes de /r/, h um estreitamento marcado, sem fechamento, do
trato vocal na regio palatal. Lembremos do Captulo 2 que uma bifurcao do trato vocal produz
antiformantes, e os canais laterais para /l/ constituem tal bifurcao. Os antiformantes surgem durante o
tempo em que a articulao lateral est ocorrendo. Assim, o /l/ compartilha com as consoantes nasais um
segmento em estado estacionrio para a qual a funo de transferncia contm ambos formantes e
antiformantes. Ambas consoantes laterais e nasais tambm possuem a maior parte de sua energia na
regio de baixa freqncia abaixo de 5 kHz. No surpresa que, ento, as laterais e as nasais possam ser
de alguma forma similares en sua aparncia acstica e estejam sujeitas a confuses perceptuais entre si.
Um espectrograma do [l] em slaba inicial com um incio prolongado mostrado na Figura 5-41.
Freqncias mdias de formantes para [l] em trs diferentes estudos foram como segue: Nolan (1983):
Fl360 Hz, F21350 Hz, F33050 Hz; Lehiste (1964): Fl295 Hz, F2980 Hz, F32600 Hz; AlBamerni (1975): Fl 365 Hz, F21305 Hz, F32780 Hz. Os valores de F1 e F2 para [l] so similares
aos de [r], mas o valor de F3 para [l] cerca de 1 kHz mais alto do que para [r].
Figura 5.41. Forma de onda e espectrograma da palavra law produzida com um prolongamento do estado estacionrio /l/
(etiquetado no espectrograma).

A Figura 5-42 apresenta as diferenas de padro formntico entre [r] e [l]. Essa figura mostra uma
representao espectrogrfica esquemtica em que trs pistas acsticas so manipuladas para produzir
estmulos que variam de rock a lock. Um uma pista temporal em que as duraes do estado estacionrio
e das transies de F1 so variados de um padro de [r] (estado estacionrio curto e longa transio) para
um padro de [l] (estado estacionrio longo e curta transio). Outra pista a relativa freqncia de incio
para F2, que varia de um valor relativamente baixo para [r] para um valor relativamente alto para [l]. A
terceira pista a relativa freqncia de incio para F3, variando de um F3 relativamente baixo para [r]
para um F3 relativamente alto para [l].
Figura 5.42. Padres de F1, F2 e F3 usados na sntese de uma gama de estmulos entre rock e lock. Reimpresso de L. Polka e
W. Strange, (1985). Perceptual evidence of acoustic cues that differentiate /r/ and /I/. Journal of the Acoustical Society of
America, 78, 1187-1206. (Reimpresso com permisso do Instituto Americano de Fsica.) Direitos autorais 1985.

Os livros de fontica freqentemente comentam sobre a complexidade alofnica das lquidas. Por
exemplo, /l/ tem tanto variantes leves quanto escuras e seu padro formntico varia com o contexto
voclico (Tarnoczy, 1948; Lehiste, 1964; Nolan, 1983). Vrios escritores descrevem variantes silbicas e
no-silbicas, variantes iniciais e finais, bem como variantes articulatrias como retroflexa e ramificada
(bunched) (Lehiste, 1964; Shriberg & Kent, 1982). Essas variantes complicam a descrio das
propriedades articulatrias ou acsticas das lquidas, e essa limitao deve ser levada em considerao
sempre que generalizaes so propostas. Parece necessrio reconhecer, no mnimo, duas grandes
variantes de cada lquida: pr-voclica e ps-voclica. A justificativa para essa classificao vem de
Lehiste (1964), para /r/, e de Giles (1971), Lehman e Swartz (2000), e Narayanan, Alwan, e Haker
(1997), para /l/. Esses estudos indicam que lquidas pr-voclicas diferem de lquidas ps-voclicas, e que
essas duas categorias podem predominar sobre outras distines alofnicas. Lehman e Swartz (2000)
relataram que o [l] pr-voclico tinha uma freqncia de F1 mais baixo e de F2 mais alta do que o [l] psvoclico. Outra diferena foi que o F2 e o F3 foram freqentemente fracos ou ausentes para os [l] prvoclicos, mas no para os ps-voclicos.

Uma complicao adicional que muitos foneticistas classificam o [r] ps-voclico como uma vogal.
No tentaremos resolver essas questes aqui; suficiente dizer que [l] e [r] podem ser descritos
acusticamente em termos de padro formntico.

Nota sobre as Soantes: Nasais, Semivogais e Lquidas


Nasais, semivogais e lquidas so classificadas juntas como soantes. Esses sons derivam essencialmente
toda sua energia da vibrao das pregas vocais, e pelo fato de o trato vocal no ser radicalmente constrito
em algum ponto, essa energia excita todos os formantes (embora alguns possam ser fracos em amplitude
relativo a outros). As soantes podem ser caracterizadas como sons com uma quantidade substancial de
energia de baixa freqncia. Espy-Wilson (1992) definiram um correlato acstico do trao soante como a
energia limitada da banda sobre a faixa de freqncia entre 100 e 400 Hz. Para as soantes, a energia nessa
largura de banda limitada quase igual energia total do som (i.e., a energia computada para a largura de
banda total da anlise). Por outro lado, as no soantes (obstruentes) possuem relativamente pouca energia
nas freqncias baixas comparada s freqncias altas. Espy-Wilson (1992) tambm comparou os /w j l r/
pr-voclicos com relao aos valores de diferena em bark (Tabela 5-7). Parece que os valores de
diferena em bark tem o potencial para distinguir esses sons entre si.
TABELA 5-7
Valores de diferena em Barks para os /w j l r/ pr-voclicos. Reimpresso de C. Y. Espy-Wilson
(1992), Acoustic measures for linguistic features distinguishing the semivowels /w j r1/ in American
English, Journal of the Acoustical Society of America, 92, 736-757.
(Reimpresso com permisso do Instituto Americano de Fsica.) Direitos autorais 1992.

Os Alofones [R] e [?]


Vrios alofones (variantes no fonmicas) foram mencionados nas sees anteriores. Por exemplo, os
alofones com soltura e sem soltura das consoantes oclusivas foram discutidas como parte da seo geral
sobre oclusivas. Mas devido ao fato de eles terem propriedades especiais, os dois alofones [R] e [?] so
dados em uma seo separada deste captulo [R] descrito foneticamente como um batida lingual (ou
alternativamente como uma vibrante simples). Esse som feito como um movimento de lngua muito
rpido de uma configurao do trato vocal para uma vogal, tipicamente, para um breve contato com a
regio alveolar ou ps-dental. O contato seguido por um movimento rpido afastando-se da constrio.
A vibrante simples um alofone tanto para [t] quanto [d] em palavras como latter versus ladder, e writer
versus rider. Em sua aparncia espectrogrfica, a vibrante simples notvel primeiramente por sua
brevidade. Comparada s produes distintivas de [t] e [d], a vibrante simples tem uma durao total
curta e um perodo de fechamento muito breve. Essas caractersticas so ilustradas na Figura 5-43.
Figura 5.43. Formas de onda e espectrogramas para a palavra ladder produzida com uma oclusiva intervoclica [d] (esquerda)
e uma vibrante simples intervoclica [R] (direita).

A oclusiva glotal [?] usada alofonicamente para as oclusivas [t] e [d], e ocasionalmente para outros

fonemas, dependendo do dialeto e do idioleto. difcil identificar uma boa palavra chave para a oclusiva
glota, por causa da variabilidade em seu uso entre falantes e dialetos. Alguns falantes ingleses usam [?]
na palavra bottle. Alm disso, a oclusiva glotal tem um papel de juno. Palavras juntadas que terminam
e comeam com vogais freqentemente so produzidas com uma oclusiva glotal entre os elementos
voclicos. Assim, o nome Anna Adams poderia ser realizado foneticamente como
[Q n

? Q d m z]

para distingui-la do padro sonoro similar em Ann Adams. A oclusiva glotal tambm usada
por muitos falantes para fazer a distino Lee owes versus Leo owes.

Esse uso da oclusiva glotal pode ser bem freqente para alguns falantes. Um correlato acstico provvel
para as oclusivas glotais em posio pr-voclica a taxa de aumento no envelope de amplitude da forma
de onda (Peters et al., 1986). Em posies mediais, a oclusiva glotal uma interrupo do vozeamento
acompanhada por uma aduo momentnea das pregas vocais. A interrupo pode ser observada em
exibies acsticas como um intervalo ou perodo de energia acstica reduzida que pode ser
acompanhada por um incio abrupto da vibrao das pregas vocais (Figura 5-44). Devido ao fato de a
articulao ser feita no nvel da laringe, os efeitos no padro formntico so sutis. Especificamente, a
oclusiva glotal usualmente no associada com transies formnticas marcadas tpicas das oclusivas
orais, porque a formao da oclusiva glotal no afeta o formato das cavidades acima da laringe, o que
determina as ressonncias. Entretanto, parece que uma articulao oclusiva genuna na glote no
necessria para a percepo de uma oclusiva glotal. Hillenbrand e Houde (1996) notaram que suficiente
para o falante produzir uma queda no contorno de f0 ou no contorno da amplitude. Uma oclusiva glotal
em posio inicial de palavra freqentemente acusticamente evidente atravs da subida rpida de
energia para o som vozeado. Esse curto tempo de subida se parece com um ataque glotal duro, ou um
incio de energia de vozeamento forado ou abrupto. Na soltura da oclusiva glotal em posio de incio de
palavra, uma breve exploso de energia freqentemente pode ser vista em oscilogramas ou
espectrogramas. Usualmente, a composio espectral da exploso contnua com a da vogal seguinte,
como seria esperado se a energia acstica produzida no nvel das pregas vocais ativassem os formantes
apropriados para o som voclico seguinte. Uma oclusiva glotal uma manifestao do fenmeno mais
geral de glotalizao, que pode servir para uma variedade de propsitos na fala (Dilley, ShattuckHufnagel, & Ostendorf, 1996). Esse tpico revisitado no Captulo 7.
Figura 5.44. Forma de onda e espectrograma para o enunciado [? ? ]. Note as oclusivas glotais nas posies inicial e
medial. Pequenas flechas apontam para as freqncias de F1, F2 e F3, que so essencialmente contnuas da soltura da oclusiva
glotal para a vogal seguinte.

Embora alguns livros de fontica descrevam a oclusiva glotal como desvozeada, essa classificao no
deve ser tomada to literalmente. Dado que a oclusiva glotal produzida com um fechamento sustentado
das pregas vocais, a dinmica larngea do som semelhante ao das oclusivas vozeadas. A oclusiva feita
com um gesto de aduo glotal. Qualquer semelhana com a dinmica larngea dos sons vozeados ocorre
apenas com um gesto de abduo.

Outras Caractersticas Consonantais

Articulaes Secundrias
A discusso at este ponto assumia que um ponto de articulao nico, primrio, descrevia a produo
consonantal. Entretanto, consoantes freqentemente tm articulaes secundrias e essas so essenciais
no entendimento das caractersticas fontico-acsticas de consoantes em muitas lnguas. Uma dada
consoante pode ser labializada, palatalizada, faringalizada, glotalizada e assim por diante. A articulao
secundria acompanha a articulao primria; por exemplo, um [t] labializado tm uma articulao
alveolar (primria) e uma labial (secundria). Em geral, os efeitos acsticos das articulaes secundrias
podem ser entendidos com referncia correspondente articulao primria. Por exemplo, o efeito da
palatalizao como uma articulao secundria pode ser entendido atravs da considerao de como a
palatalizao como um processo nico afeta a estrutura acstica de um som. No queremos dizer, no
entanto, que as articulaes secundrias no merecem ser estudadas.
Para os propsitos presentes, consideramos como um exemplo de articulao secundria os sons enfticos
no rabe clssico. Esses sons so produzidos com uma articulao coronal como primria e uma faringal
como secundria. Sons enfticos diferem de seus cognatos no-enfticos por terem uma constrio
orofarngea (Ali & Daniloff, 1972, Laufer & Baer, 1988) e um padro formntico alterado de F1
aumentado e F2 diminudo (El-Halees, 1985). Notem que essas mudanas de freqncia dos formantes
so consistentes com princpios explicados nos Captulos 2 e 4. Uma constrio na regio farngea
generalmente possui os efeitos notados nos dois primeiro formantes. Outro exemplo de articulao
secundria a palatalizao de consoantes em russo e outras lnguas eslvicas. Tambm possvel que
duas articulaes secundrias co-ocorram. Ladefoged (1993) d o exemplo de twi e outras lnguas akan
faladas em Gana em que a labializao co-ocorre com a palatalizao.

Reduo Consonantal

A informao dada at aqui assumia que as consoantes so produzidas precisa e cuidadosamente.


Entretanto, quando as consoantes (e vogais) so produzidas na fala conversacional casual, as pistas
acsticas podem ser mudadas. Essas mudanas so chamadas redues e tomam usualmente a forma de
propriedades acsticas atenuadas ou menos distintivas (van Son & Pols, 1999). Essa questo levada em
considerao em um captulo subseqente, especialmente em conexo com o tpico do estilo de fala.

Diferenas de Falante

A informao neste captulo simplificou o tratamento da acstica consonantal por ter negligenciado
variveis do falante como sexo, idade e dialeto. No final, esses fatores devem ser considerados na
considerao de padres acsticos especficos. Estes sero considerados no Captulo 6.

A "Fala Banana"
A Figura 5-45 mostra a fala banana, um grfico que retrata alguns dos componentes acsticos primrios
do sinal da fala. A freqncia escalada na abscissa, e o nvel de sensao (ou perda auditiva)
representado na ordenada. Essencialmente, esse grfico mostra a energia relativa para componentes
acsticos selecionados da fala. A freqncia fundamental, f0, se estende tipicamente de cerca de 60 a 250
Hz. Os formantes da vogal (F1, F2, F3, F4) ocupam a extenso de freqncia de cerca de 0,25 a 4,0 kHz
(assumindo uma fala adulta masculina) e so mostrados como componentes relativamente intensos (i.e.,
nveis altos de sensao). A principal rea consonantal corresponde regio de freqncia dos trs
formantes voclicos mais baixos. As transies formnticas para as consoantes so localizadas em torno
dessa extenso. A rea consonantal alta representa a energia de turbulncia para as fricativas sibilantes.
Figura 5.45. A fala banana que sumariza graficamente algumas das principais regies de energia acstica para a fala. O
formato semelhante a banana incorpora as regies de energia etiquetadas.

Rudos no fala
As tcnicas acsticas discutidas neste captulo e em outros captulos podem ser aplicadas a uma variedade
de sons, incluindo rudos humanos no fala. Como exemplo, consideremos os sons de ronco.
Clinicamente, importante determinar o lugar da obstruo do fluxo areo relacionada ao ronco.
Miyazaki et al. (1998) usou anlises acsticas para determinar o lugar de obstruo. Seus dados para 75
adultos com desordens articulatrias relacionadas ao sono mostraram que a freqncia fundamental do
ronco distinguia os seguintes lugares de obstruo: tipo do palato mole, tipo da base da lngua/amgdala,
tipo combinado, e tipo da laringe.

Sumrio
Sons consonantais envolvem uma variedade de caractersticas acsticas e, portanto, uma variedade de
possveis medidas pelas quais elas podem ser caracterizadas. Uma boa forma de reter a informao
pensar as consoantes em grandes classes sonoras, como apresentado neste captulo. A anlise acstica
mais efetiva determinada com relao s propriedades do som a ser analisado. Enquanto o padro
formntico freqentemente suficiente para a descrio acstica de propsitos gerais para as vogais, no
h nenhum retrato acstico nico que adequado para os tipos diferentes de consoantes. til distinguir
consoantes de rudo (fricativas e africadas) das que no tem intervalos de rudo prolongados. Tambm
til distinguir soantes (as que possuem padres formnticos bem definidos) das que no o so. Apesar
dessas complexidades, a tradicional descrio ponto-modo da fontica articulatria continua sendo uma
base til para a classificao e descrio das caractersticas acsticas.

CAPTULO 6

Os Correlatos Acsticos das Caractersticas do Falante


A fala transporta vrios tipos de informaes, incluindo informao sobre a pessoa que a produziu.
Usualmente, podemos inferir vrias caractersticas sobre um falante mesmo ouvindo apenas umas poucas
palavras da conversao. Podemos freqentemente fazer adivinhaes bem precisas sobre gnero, idade,
estado emocional, conhecimento lingstico, e mesmo sade fsica. Este captulo examina os correlatos
acsticos para vrias caractersticas de falantes, comeando com idade e gnero.

Gnero e Idade
Em grande parte, os trabalhos anteriores em fontica acstica se focaram no falante adulto masculino.
Houve um nmero de razes para esse foco, incluindo fatores sociais e tcnicos. Somente bem
recentemente o estudo da fontica acstica foi ampliado para incorporar pesquisas significantes sobre
populaes diferentes de homens. No queremos dizer que crianas e mulheres foram negligenciadas
juntas na histria antiga da pesquisa em acstica da fala. O clssico estudo de Peterson e Barney (1952)
incluiu dados acsticos de homens, mulheres e crianas, tornando claro que valores acsticos variam
marcadamente com caractersticas do falante como idade e gnero.
O problema que o esforo de pesquisa dado fala de mulheres e crianas tem sido em uma escala
menor do que o dado fala de homens. Conseqentemente, h uma necessidade contnua de juntar dados
acsticos para diversas populaes. A concentrao em falantes masculinos tinha vrias conseqncias,
nem todas delas facilitaram a pesquisa na fala de mulheres e crianas. Uma conseqncia era a escolha de
uma largura de banda de anlise (300 Hz para a anlise de banda larga) em espectrgrafos anteriores
que trabalharam bem o bastante para a maioria das vozes adultas masculinas, mas foi deficiente para
muitas mulheres e crianas. A inadequao da largura de banda de anlise provavelmente desencorajou as
anlises acsticas da fala de mulheres e crianas.
As implicaes da nfase no masculino pode ter alcanado at mesmo a teoria; Titze (1989) comentou,
One wonders, for example, if the source-filter theory of speech production would have taken the same
course of development if female voices had been the primary model early on. (p. 1699) [Especula-se,
por exemplo, se a teoria fonte-filtro de produo da fala teria tomado o mesmo curso de desenvolvimento
se vozes femininas tivessem sido o modelo primrio anteriormente.] Klatt e Klatt (1990) relataram sobre
o mesmo ponto: informal observations hint at the possibility that vowel spectra obtained from women's
voices do not conform as well to an all-pole [i.e., all formant] model, due perhaps to tracheal coupling
and source/tract interactions. (p. 820) [observaes informais insinuam a possibilidade de que espectros
voclicos obtidos de vozes de mulheres no se adequam to bem a um modelo de todos os plos [i.e.,
todos os formantes], devido, talvez, ao acoplamento traqueal e as interaes fonte/trato.] A teoria acstica
para as vogais discutida no Captulo 2 assumia que a funo de transferncia do trato vocal era
satisfatoriamente representada por formantes (plos) e que antiformantes (zeros) so necessrios apenas
para modificaes como nasalizao. aconselhvel ter em mente que essa teoria atribuda amplamente
com as caractersticas da fala adulta masculina e que ela pode ter de ser alterada para dar conta das
caractersticas tanto de crianas quanto de mulheres. Algumas dessas modificaes tericas so notadas

neste captulo.

Pode-se pensar que os dados acsticos para mulheres e crianas possam ser extrapolados bem facilmente
de dados coletados para a fala dos homens. Afinal, a teoria acstica apresentada no Captulo 2 nos conta
que a extenso do trato vocal um determinante das freqncias de formantes. Dado que as freqncias
de ressonncia mudam sistematicamente medida que a extenso do tubo mudada, poderamos esperar
que fatores escalares fossem determinados para permitir a derivao de dados acsticos para mulheres e
crianas dos dados de homens. Esses fatores escalare foram propostos, mas so calculados com
dificuldade e tem preciso limitada. Mesmo se fatores precisos pudessem ser determinados, a fala de
mulheres e crianas apresentam alguns problemas especiais que devem ser levados em considerao tanto
na teoria quanto na anlise. As seguintes sees revisam alguns desses problemas.

A Fala das Mulheres


Uma simples audio das vozes de vrios falantes nos diz que as mulheres geralmente tm vozes mais
altas do que os homens. De fato, as vozes das mulheres so, em mdia, cerca de uma oitava, ou cerca de
1,7 vezes mais altas do que a dos homens. Essa diferena na freqncia fundamental se relaciona
primariamente com o comprimento membranoso das pregas vocais (Titze, 1989). A Figura 6-1 ilustra a
escala da glote em termos de trs variveis que lidam com diferenas entre as vozes dos homens e das
mulheres. Um fator escalar (computado por Titze para ser cerca de 1,6), baseado no comprimento
membranoso L, d conta quase inteiramente das diferenas na freqncia fundamental mdia, no fluxo
areo mdio e na potncia aerodinmica. Um fator escalar adicional de cerca de 1,2 baseado na amplitude
vibracional A d conta das diferenas de potncia entre as vozes dos homens e das mulheres.
Figura 6.1. Variao no comprimento das pregas vocais com a idade em homens e mulheres. Redesenhado de I. Titze, (1989).
Physiologic and acoustic differences between male and female voices, Journal of the Acoustical Society of America, 85, 16991707. (Reproduzido com permisso do Instituto Americano de Fsica.) Direitos autorais 1989.

Mas as vozes das mulheres podem diferir da dos homens de muitas formas. Especificamente, tm sido
sugerido que as vozes das mulheres tm os seguintes atributos (comparadas a dos homens):

soprosa;

fraca;

mais vazamento glotal (ar escapando atravs da glote mesmo durante sua fase fechada);

terminao de fluxo menos abrupta;

maior quociente de abertura (significando que as pregas vocais esto abertas por mais tempo
durante cada ciclo glotal);

pulsos vocais mais simtricos (cerca do mesmo tempo dado para as pores de abertura e
fechamento);

pulsos mais curtos;

freqncia fundamental mais alta;

extenso diferente da freqncia fundamental;

nvel da presso sonora mais baixo;

freqncia fundamental (primeiro harmnico) mais dominante;

inclinao espectral mais acentuada (i.e., uma rolagem mais rpida da energia dos harmnicos
com a freqncia);

mais preenchimento de rudo em regies entre formantes;

freqncias de formantes mais altas;

larguras de banda de formantes maiores;

acoplamento, ou interao, diferente entre as cavidades sub e supraglotais;

maior interao entre a fonte e o filtro.

Esses vrios itens no so necessariamente independentes um dos outros; por exemplo, voz soprosa,
vazamento glotal, primeiro harmnico mais dominante, e preenchimento de rudo podem ser todos
interrelacionados. A lista simplesmente uma compilao de caractersticas que podem ser tomadas em
considerao para um entendimento pleno da voz das mulheres. Para discusses adicionais, vejam
Hanson (1997), Hanson e Chuang (1999) e Klatt e Klatt (1990).
Anteriormente foi reconhecido em tentativas para produzir a fala das mulheres atravs de sntese de fala
que uma voz de mulher no simplesmente uma voz de homem produzida com maiores freqncia
fundamental e freqncias de formantes. Tentativas para usar essa simples alterao obtiveram um
limitado sucesso. A voz simplesmente no soava feminina. Trabalhos mais recentes (Hanson, 1997; Klatt
& Klatt, 1990) mostram que a sntese de vozes de mulheres deveriam incluir proviso para: (a) um
modelo de fonte do vozeamento que oferece controle flexvel do quociente de abertura, inclinao
espectral, rudo de aspirao associado com a soprosidade, agitao ajustada para os pulsos glotais, e
pulsao dupla difnica; (b) Um par extra de plo-zero para simular uma ressonncia traqueal, e (c) ajuste
sncrono de tom da largura de banda do primeiro formante para simular um componente da interao
fonte/trato. Price (1989) notou que as formas de onda glotais para as vozes femininas tendiam a ter
quocientes de fechamento mais curtos e menos excitao fina do que as formas de onda das vozes
masculinas. Hanson (1997) enfatizou que a configurao glotal mais aberta, tpica das vozes de mulheres,
resulta em (a) uma forma de onda de velocidade de volume glotal que tem maiores componentes de baixa
freqncia e mais fracos componentes de alta freqncia, (b) uma fonte mais forte de rudo de aspirao,
e (c) maiores larguras de banda dos formantes, especificamente F1. Em acrscimo, a amplitude do
primeiro harmnico (HI) relativa ao do terceiro formante (F3) quase 10 dB mais baixa para homens do
que para mulheres (Hanson & Chuang, 1999). Essa diferena de amplitude reflete uma diferena na
inclinao espectral, ou seja, mulheres tendem a ter mais energia espectral em freqncias mais altas.
A freqncia fundamental mais alta de vozes de mulheres pode apresentar dificuldades ocasionais na
anlise acstica. medida que a freqncia fundamental aumenta, h um aumento correspondente no
intervalo entre os harmnicos do espectro de fonte larngea (Figura 6-2). Em alguns espaamentos
harmnicos, torna-se difcil discernir o local dos formantes no espectro. O problema essencialmente
relacionado amostragem: harmnicos bastante espaados no revelam muito detalhe sobre o envelope
espectral do qual as estimativas formnticas so tipicamente feitas. Os espectrgrafos de antigamente
eram especificamente limitados na anlise da fala de tom alto das mulheres, porque eles eram equipados
com um filtro de anlise padro de 300 Hz para anlise de banda larga. Esse filtro trabalhava
satisfatoriamente para a maioria das vozes dos homens, pois ele embarcava tipicamente, no mnimo, dois
harmnicos e, portanto, resolvia formantes em vez de harmnicos. Mas, para muitas vozes de mulheres,
essa largura de banda do filtro correspondia a um intervalo harmnico. Como resultado, espectrogramas
tinham interao harmnico-formante, como ilustrado na Figura 6-3. Essa ocorrncia tornava difcil ou

impossvel dizer quando uma banda de energia no espectrograma representava um formante ou um


harmnico. H uma lio prtica aqui: se os formantes de uma vogal produzidos por uma mulher ou
criana so obscuros com a largura de banda de anlise default ou padro da anlise acstica,
freqentemente til aumentar a largura de banda (diminuir o nmero de pontos em um FFT) e repetir a
anlise.
Figura 6.2. Efeito da mudana da freqncia fundamental no espectro voclico. Topo: espectro para vogal produzido com
freqncia fundamental baixa; fundo: espectro para a mesma vogal produzido com freqncia fundamental alta. Freqncias
de formantes aproximadas so mostradas pelas flechas.

Como regra, a largura de banda do filtro analisador deve ser de 2 a 3 vezes maior do que a freqncia
fundamental do falante se o objeto a identificao de formantes. Por exemplo, a largura de banda de
anlise para uma mulher que tem uma freqncia fundamental de 300 Hz deve ser, no mnimo, 600 Hz.
H limites superiores para o tamanho do filtro analisador, pois fazer a largura de banda grande demais
anula o propsito da anlise acstica. Por exemplo, um filtro to largo quanto 1000 Hz provavelmente
cobriria no apenas harmnicos, mas formantes proximamente espaados tambm. Uma abordagem
tomada para analisar a fala de mulheres e crianas com os filtros de anlise com largura de banda fixa em
espectrgrafos antigos era tocar o sinal de fala em uma velocidade mais lenta do que a usada para
gravao. Quando o sinal lentificado era alimentado no espectrgrafo, o resultado efetivo era uma
mudana na largura de banda do filtro de anlise proporcional diferena na velocidade da
gravao/playback. Felizmente, os sistemas modernos para a anlise acstica tipicamente oferecem uma
gama de larguras de banda de anlise. A tarefa selecionar a largura de banda que tima para um
falante especfico.
Figura 6.3. Espectrogramas para ilustrar a interao formante-harmnico. O som na esquerda foi produzido com uma
freqncia fundamental alta, de modo que a largura de banda de anlise resolve harmnicos individuais da voz. O
espectrograma direita a mesma vogal falada pela mesma mulher, mas com uma freqncia fundamental mais baixa, de
modo que a largura de banda de anlise resolve formantes.

Vrios estudos apontam para a concluso de que as vozes das mulheres diferem da dos homens em
dimenses alm da freqncia fundamental. Essas dimenses so pertinentes para uma anlise tima da
fala das mulheres. Uma caracterstica freqentemente relatada das vozes das mulheres que elas so mais
soprosas do que a dos homens. Muitos correlatos acsticos foram identificados no estudo da soprosidade
e de traos relativos nas vozes das mulheres. Henton e Bladon (1985) determinaram que para falantes do
ingls britnico RP (Received Pronunciation [tipo de dialeto do ingls britnico]), a amplitude do
primeiro harmnico, relativa amplitude do segundo harmnico, foi cerca de 6 dB mais forte para
mulheres do que para homens. Klatt e Klatt (1990) relataram uma diferena similar para falantes
masculinos e femininos do ingls americano, mas notaram que havia uma variao considervel nos
grupos masculinos e femininos. Bless, Biever e Shaikh (1986) concluram de observaes
estroboscpicas da laringe que as mulheres foram quatro vezes mais provveis do que os homens de
terem uma fissura glotal posterior durante o perodo de fechamento do ciclo. Com o uso de formas de
onda de fluxo voclico, filtradas inversamente, Holmberg. Hillman e Perkell (1988) encontraram maior
evidncia acstica de soprosidade em mulheres do que em homens. Similarmente, Klatt e Klatt (1990)
descobriram uma tendncia para vozes femininas terem uma maior excitao de F3 por rudo de aspirao
(rudo em F3) do que vozes masculinas. Klatt e Klatt tambm concluram que a abertura glotal parcial
em vozes soprosas causa um aumento na largura de banda do primeiro formante, sometimes obliterating
the spectral peak at Fl entirely (p. 835) [s vezes cancelando inteiramente o pico espectral em F1]. Eles
comentaram que esse efeito, combinado com a aparncia de pares extras de plo-zero associados com
acoplamento traqueal, pode criar problemas para modelos que esperam uma representao semelhante a

formantes de sons entre falantes que diferem em idade e sexo.

Outra questo na anlise acstica da fala das mulheres a gama de freqncias total da anlise.
Tipicamente, o valor de freqncia para um trao acstico especfico ser da ordem de 20% mais alto
para uma mulher do que para um homem. Devido ao fato de os tratos vocais das mulheres serem
geralmente menores do que o dos homens, as mulheres tm valores mais altos para as freqncias dos
formantes, como mostrado na Figura 6-4 (veja tambm as Tabelas 4-1 e 4-2 para uma comparao de
dados em freqncias de formantes de vogais produzidas por homens e mulheres). Tm sido sugerido que
a maior disperso de vogais no plano F1-F2 comportamental bem como anatmica em sua origem
(Diehl et al., 1996). De acordo com Diehl et al., a maior disperso para as vogais das mulheres ajuda a
solucionar o problema da amostragem harmnica no reconhecimento de vogais. Ou seja, devido ao fato
de as mulheres terem um f0 mais alto, seus harmnicos espectrais so mais largamente espaados e esse
amplo espaamento torna mais difcil determinar as localizaes dos formantes.
Figura 6.4. Tabela F1-F2 para as vogais do ingls americano produzidas por homens e mulheres. De The speech sciences. A
volume in the speech sciences (1st ed.), by Kent, direitos autorais 1998. Reimpresso com permisso de Delmar, uma diviso da
Thomson Learning.

Os tratos vocais mais curtos das mulheres afetam as caractersticas de freqncias de outros sons tambm.
As fricativas produzidas por mulheres geralmente tm regies mais altas de energia espectral comparada
s fricativas produzidas por homens (Whiteside, 1998). Essa mudana para cima nos valores de
freqncia na fala das mulheres deve ser levada em considerao, especialmente para sons com
componentes de alta freqncia. Infelizmente, os dados sobre os espectros de frico e exploso das
mulheres no so abundantes. Como discutido no Captulo 5, os dados mais extensivos foram publicados
com falantes adultos masculinos. Um princpio geral claro: embora uma gama de freqncias de 8 kHz
possa ser bastante satisfatria para a anlise da energia fricativa para homens, essa gama pode no ser
adequada para representar a energia fricativa para mulheres. Portanto, quando se planeja estudar fricativas
produzidas por mulheres, uma boa idia estender a gama de freqncias da anlise espectral alm da
que suficiente para falantes masculinos.

Wu e Childers (1991) mostraram que as tcnicas de processamento digital de sinais e de reconhecimento


de padres podem ser usadas com grande preciso no reconhecimento automtico do gnero do falante.
Concluiu-se que a informao de gnero na fala invariante temporal, independente do fonema e
independente do falante para um dado gnero. Em um artigo, Childers e Wu (1991) examinaram os
detalhes finos de diferenas de gnero na produo voclica. Eles determinaram que houve informao
redundante sobre gnero nos traos de formante e de freqncia fundamental de vogais, mas que o trao
individual que melhor discriminava os falantes masculinos e femininos era a freqncia de F2. Em geral,
as vozes femininas eram associadas com um f0 maior, freqncias de formante maiores, amplitudes de
formante menores, larguras de banda mais largas, e uma inclinao espectral mais ngreme.

Concluindo, h muito a se considerar na anlise da fala das mulheres. Os pontos mencionados acima
devem ser pesados na escolha das ferramentas e parmetros de anlise. Por exemplo, o modelo de todos
os plos assumido em muitas rotinas de anlise de LPC pode no se encaixar bem para vozes femininas
soprosas, que pode ser caracterizada por pares traqueais de plo-zero, largura de banda de F1 aumentada
e excitao de rudo significante da regio de freqncia de F3. Alm disso, deve-se levar em
considerao os valores de largura de banda tanto a largura de banda total da energia de fala, quanto a

largura de banda de anlise para computaes espectrais. Essas consideraes na anlise acstica tm um
paralelo em questes tericas e em interpretaes de dados. Em geral, as melhores medidas so as
baseadas em uma base terica do som .

A Fala das Crianas


Devido ao fato de as crianas terem tratos vocais e pregas vocais menores do que os adultos, espera-se
que as crianas tenham freqncias fundamentais e freqncias de formantes relativamente mais altas do
que falantes adultos. Essa afirmao geralmente verdadeira, mas deve-se reconhecer que as crianas so
uma populao diversa possuindo uma extenso de caractersticas de fala. Agrupar todas as crianas
juntas arrisca uma heterogeneidade que pode excluir quaisquer generalizaes teis. Em uma primeira
aproximao, podemos dizer que a fala de crianas pr-puberdade caracterizada por freqncias
fundamentais e de formantes mais altas do que as observadas para a fala adulta. Depois da puberdade, a
situao muda marcadamente, especificamente para crianas masculinas. A to conhecida mudana de
voz nos adolescentes traz uma reduo mensurvel na freqncia fundamental vocal, que tipicamente
abaixa em cerca de uma oitava. Em acrscimo, os tratos vocais masculinos aumentam apreciavelmente
durante a adolescncia, que conduz a um abaixamento das freqncias de formantes. As seguintes sees
consideram os principais modos nos quais processos do desenvolvimento afetam as caractersticas
acsticas da fala, comeando na infncia.

Vocalizaes Infantis

Embora um nmero relativamente pequeno de estudos tenham sido publicados sobre vocalizaes
infantis, os relatrios disponveis retratam um quadro geral desses primeiros sons. Comparados com
falantes de outras idades, os bebs tm pregas vocais e tratos vocais menores (Figura 6-5), e espera-se que
eles tenham freqncias fundamentais e freqncias de formantes mais altas. A pesquisa acstica
sumarizada por Kent e Murray (1982) mostrou que os bebs tm as seguintes mdias aproximadas para as
caractersticas acsticas de uma vogal mdia central:

Freqncia fundamental400 Hz,


Freqncia do primeiro formante1000 Hz,
Freqncia do segundo formante3000 Hz, e
Freqncia do terceiro formante5000 Hz.
Figura 6.5. Desenhos dos tratos vocais de um beb e um adulto. Cdigo: Li = lbio, J = mandbula, T = lngua, HP = palato
duro, SP = palato mole, E = epiglote, La = laringe. A flecha negra aponta para a aproximao do vu palatino e epiglote no
beb; note que essa caracterstica anatmica no vista no adulto.

A freqncia fundamental de um beb de 3 a 4 vezes maior do que a de um adulto masculino


(lembremos que os harmnicos larngeos so mltiplos inteiros da freqncia fundamental, de modo que
os harmnicos da voz de um beb sero separados por cerca de 400 Hz). As freqncias de formantes da

vogal neutra de um beb so espaadas em intervalos de cerca de 2000 Hz, comparado com cerca de 1000
Hz para adultos masculinos (para os quais os trs primeiros formantes da vogal mdia central so cerca de
500, 1500 e 2500 Hz). Usando as frmulas dadas no Captulo 2, podemos calcular o comprimento do
trato vocal do beb dadas essas medidas acsticas de freqncia de formantes. O comprimento estimado
de cerca de 8 cm assemelha-se bastante bem com as medidas reais feitas do comprimento do trato vocal
de um beb.
O valor mdio da freqncia fundamental de 400 Hz no dever ser tomado estritamente demais. Os bebs
possuem grandes extenses de freqncia fundamental, com valores mnimos alcanando para baixo a
extenso do adulto masculino e valores mximos estendendo de 1000 Hz ou mais. Essa larga extenso
pode tornar a medida das freqncias fundamentais dos bebs bem desafiadoras, especialmente para
instrumentos de anlise que tm uma extenso limitada de medida. Entretanto, a extenso no o nico
obstculo, como discutido neste captulo.
Vrias outras caractersticas das vocalizaes infantis foram notadas em estudos acsticos. Uma dessas
a freqncia relativa de ocorrncia dos contornos entonacionais. Kent e Bauer (1985) e Robb, Saxman e
Grant (1989) relataram que os contornos Subida-Descida, Plano e Queda foram os que ocorreram com
maior freqncia. Por exemplo os dados de Kent e Bauer mostraram que a Queda e a Subida-Descida
juntas davam conta de cerca de 77% dos contornos entonacionais produzidos por cinco bebs de um ano
de idade. No estudo de Robb et al., os trs contornos Subida-Descida, Plano e Queda davam conta de
67% dos contornos de vocalizaes em estado confortvel. A idade de 4 meses parece ser importante na
emergncia dos tipos de entonao. Hsu, Fogel e Cooper (2000) relataram que antes desta idade, os sons
voclicos foram tipicamente acompanhados por simples contornos meldicos, mas depois de 4 meses
houve uma maior probabilidade que sons silbicos fossem associados com contornos meldicos
complexos.
Os bebs tambm tendem a produzir uma grande variedade de tipos de fonao. Observaes foram feitas
de dobragem harmnica (o aparecimento abrupto e o igualmente abrupto desaparecimento de uma srie
harmnica na metade da freqncia fundamental original), mudana da freqncia fundamental,
bifonao (uma srie dobrada de freqncias fundamentais), tremor vocal (uma variao peridica da
freqncia fundamental e/ou da amplitude da voz), e componentes de rudo (Kent & Murray, 1982; Kent
& Bauer, 1985; Michelsson & Michelsson, 1999; Robb & Saxman, 1988). Robb e Saxman (1988)
determinaram que 6% das 1200 vocalizaes no choro de 14 crianas tinham exemplos de dobragem
harmnica, mudana da freqncia fundamental ou bifonao. Esses tipos de fonao variantes podem
apresentar problemas para a anlise vocal, especialmente para investigadores desprecavidos. A Figura 6-6
mostra um espectrograma de banda estreita da vocalizao de uma criana em que vrios tipos de fonao
apareceram. Essas variaes rpidas e extremas nas caractersticas fonatrias no so incomuns.
Figura 6.6. Espectrogramas de banda larga (WB) e estreita (NB) de uma vocalizao de beb. Note a variao no padro
fonatrio, incluindo as vibraes vocais ou fry (R) e o tremor (T).

A gama de freqncias total de anlise uma considerao importante na anlise das vocalizaes dos
bebs. As freqncias fundamentais de bebs e crianas novas pode exceder a extenso nominal de alguns
sistemas de anlise. Tambm, os valores de freqncia para algumas propriedades acsticas podem ser
consideravelmente maiores para crianas do que para adultos. Bauer e Kent (1987) relataram que as
faixas primrias de energia para as fricativas produzidas por bebs, s vezes cai acima de 8 kHz, o limite
superior de freqncia da espectrografia convencional. Exemplos dos espectros de frico obtidos dos
bebs so mostrados na Figura 6-7. Note que para essas amostras, regies significantes de energia de

rudo estendem at 12 kHz. sempre sbio determinar cuidadosamente os limites superiores requeridos
para uma anlise antes de configurar os parmetros de anlise, por exemplo, a taxa de amostragem para a
converso A/D.
Figura 6.7. Espectrogramas de fricativas produzidas por bebs menores do que um ano. Smbolos fonticos so mostrados no
fundo de cada amostra.

As consideraes das propriedades acsticas resumidas at aqui sugerem que a anlise das vocalizaes
infantis podem ser desafiadoras mesmo para esses objetivos relativamente simples como medida de
freqncia de formantes. A interao harmnico-formante um problema especfico, mas no de forma
alguma o nico. Freqentemente, as vocalizaes infantis envolvem nasalizao (que aumenta as larguras
de banda dos formantes e introduz formantes e antiformantes adicionais), qualidade de voz varivel e
outras caractersticas que tornam a estimativa de formantes difcil. No entanto, se os parmetros de
anlise so escolhidos cuidadosamente, at mesmo procedimentos paramtricos como predio linear tm
sido relatados com um desempenho muito bom nas anlises formnticos do choro de crianas e outras
vocalizaes (Fort et al, 1996). No queremos dizer, no entanto, que h um completo acordo sobre os
mtodos preferidos de anlise. Em um estudo de choro infantil, Robb e Cacace (1995) observaram
grandes diferenas na estimativa de F2 e F3 usando os mtodos da espectrografia do som, LPC e anlise
do espectro de potncia. Os trs mtodos resultaram em estimativas comparveis da freqncia de F1,
mas os valores mdios de F2 e F2 diferiram muito de 500 a 1000 Hz. Robb e Cacace concluram que
serious questions arise whether formant estimates of cry are accurate or appropriate for use as a metric of
infant vocal tract resonance (p. 57) [srias questes surgem se as estimativas de formantes do choro so
precisas ou apuradas para uso como uma mtrica da ressonncia do trato vocal do beb]. Tomando-se
essa precauo, podemos usar os dados publicados sobre choro de crianas (Colton & Steinschneider,
1980; Robb & Cacace, 1995) para desenvolver a seguinte caracterizao tentativa do choro no beb
tipicamente em desenvolvimento: mdia de f0 de cerca de 500 Hz, mdia da freqncia de F1 na faixa de
1100 a 1600 Hz, mdia da freqncia de F2 na faixa de 2200 a 3200 Hz, mdia da freqncia de F3 na
faixa de 3700 a 5300 Hz e uma durao mdia na faixa de 1 a 2 s. Como um ponto de comparao, Kuhl
e Meltzoff (1996) determinaram as freqncias de formantes para vogais como /i/, /a/ e /u/, produzidas
por bebs de 12, 16 e 20 semanas. As freqncias de F1 para essas trs categorias voclicas nos dados
para bebs de 12 semanas foram 782, 934 e 732 Hz, respectivamente. As freqncias de F2 foram 3121,
2606 e 2199, respectivamente. H um boa comparao geral dos dados de freqncias de formante entre o
choro e os dados de vogais, que nos d confiana nessas estimativas da estrutura formntica nas primeiras
vocalizaes infantis.
Mtodos acsticos tambm foram aplicados no estudo do balbucio de bebs, as seqncias multi-silbicas
que emergem na segunda metade do primeiro ano de vida. Oiler (1986) descreveram as propriedades
acsticas do qu ele chamou de slaba cannica, a qual pretendia representar a grande maioria de slabas
nas lnguas do mundo. Presumivelmente, a emergncia dessa slaba um grande avano no
desenvolvimento vocal. Oiler ofereceu as seguintes propriedades acsticas para a slaba cannica:
1. O envelope de potncia tem picos e vales que diferem, no mnimo, em 10 dB.
2. A durao pico-a-pico da slaba est na faixa de 100-500 ms.
3. O ncleo da slaba associado com uma fonte peridica (i.e., energia de vozeamento) e um trato
vocal relativamente aberto que fornece ressonncia plena (i.e., tem um padro formntico bem
definido).

4. A slaba possui, no mnimo, uma margem de baixa ressonncia e um trato vocal relativamente
obstrudo. Essa margem tem propriedades como as das consoantes obstruentes.
5. Transies formnticas suaves ocorrem entre a(s) margem(ns) e o ncleo, com uma durao de
transio na faixa de 25-120 ms.
6. A faixa de intensidade deve ser maior do que cerca de 30 dB.
7. A faixa da freqncia fundamental no deve exceder cerca de uma oitava (dobragem).

A slaba cannica pode ser uma unidade importante para a integrao da percepo e produo da fala.
Pode bem ser uma precursora das primeiras palavras e tem atrado muita ateno no estudo de crianas de
desenvolvimento tpico e atpico. Os valores dados acima devem ser considerados como hipotticos e
sujeitos a reviso pelas pesquisas. Para uma definio mais recente do balbucio cannico, vejam Oiler
(2000). Um bom sinal de progresso na caracterizao acstica do balbucio o desenvolvimento de um
programa de computador para reconhecimento automtico do balbucio (Fell et al., 1999). Seguindo o
balbucio cannico (o balbucio formado amplamente por slabas cannicas), o beb usualmente comea a
produzir as primeiras palavras. A idade desses avanos varia consideravelmente entre as crianas, mas o
balbucio cannico aparece tipicamente entre 7 e 10 meses de idade, as primeiras palavras da criana
ocorrem geralmente entre 10-15 meses. Parece razovel esperar que a experincia no balbucio de slabas
assistam a criana na produo das primeiras palavras.

Mudanas de Freqncias de Formantes com o Desenvolvimento

medida que as crianas crescem, seus tratos vocais aumentam e espera-se que, por isso, suas
freqncias de formantes diminuam. Os dados nas freqncias de F1 e F2 so compilados para vrios
grupos de idade nas Tabela 6-1 e 6-2, respectivamente. Embora esses dados nem sempre mostrem uma
mudana uniforme entre incrementos em idade, a tendncia geral um decrscimo nas freqncias dos
formantes com a idade. De fato, as freqncias de formantes provavelmente continuam a diminuir com o
tempo para a maioria das pessoas, pois as estruturas faciais crescem gradualmente mais, mesmo para
idades avanadas (Kent & Burkhard, 1981). H portanto um tipo de linha da vida acstica em que as
freqncias de formantes para um som especfico gradualmente decrescem ao longo do tempo de vida do
indivduo (Figura 6-8). Entretanto, o perodo mais impressionante de mudana est na puberdade e
adolescncia, especialmente para homens (Lee, Potamianos, & Narayanan, 1999).
TABELA 6-1.
Freqncias dos primeiros formantes (F1) das vogais /i/, /ae/, /a/ e /u/ para vrias faixas etrias de
crianas, da infncia idade adulta jovem. As fontes de dados so: H (Hodge,
1989), EH (Eguchi & Hirsh, 1969), B (Bennett, 1981), PG (Penz & Gilbert, 1983), BP
(Busby & Plant, 1995); AK (Assmann & Katz, 2000), e LPN (Lee, Potamianos, &
Narayanan, 1999). Notas: Os dados de Bennett so para crianas de 7 e 8 anos de idade, mas so
listadas no grupo de 8 anos; B-M = dados de Bennett para homens; B-F = dados de Bennett para
mulheres; BP-M = dados de Busby e Plant para homens; BP-F = dados de Busby e Plant para
mulheres; os dados de Busby e Plant foram estimados de grficos;
LPN-M = dados de Lee et al. para homens; LPN-F = dados de Lee et al. para mulheres.

TABELA 6-2.
Freqncias dos segundos formantes (F2) das vogais /i/, /ae/, /a/ e /u/ para vrias faixas etrias de
crianas, da infncia idade adulta jovem. As fontes de dados so: H (Hodge,
1989), EH (Eguchi & Hirsh, 1969), B (Bennett, 1981), PG (Penz & Gilbert, 1983), BP
(Busby & Plant, 1995); AK (Assmann & Katz, 2000), e LPN (Lee, Potamianos, &
Narayanan, 1999). Notas: Os dados de Bennett so para crianas de 7 e 8 anos de idade, mas so
listadas no grupo de 8 anos; B-M = dados de Bennett para homens; B-F = dados de Bennett para
mulheres; BP-M = dados de Busby e Plant para homens; BP-F = dados de Busby e Plant para
mulheres; os dados de Busby e Plant foram estimados de grficos;
LPN-M = dados de Lee et al. para homens; LPN-F = dados de Lee et al. para mulheres.
Figura 6.8. Variao em valores de F1 e F2 para cinco vogais do ingls americano, como produzidas por grupos de crianas,
mulheres e homens. Os crculos negros representam dados para diferentes faixas etrias de crianas. Os dados so plotados
para mostrar linhas isovoclicas ou linhas que conectam os dados de F1-F2 mdios para os vrios grupos idade-sexo.

Estudos do desenvolvimento com a acstica da fala devem lidar com vrias influncias, incluindo
tamanho do corpo (dado que o comprimento do trato vocal correlacionado com o tamanho do corpo),
mudanas com o desenvolvimento na anatomia do trato vocal, sexo dos padres articulatrios individuais,
e fatores dialetais/idioletais. Em acrscimo, a relativa importncia desses fatores provavelmente varia
com a idade dos falantes. Dados publicados sobre vogais produzidas por bebs so limitados, o que
previne afirmaes confidentes sobre padres do desenvolvimento entre o nascimento e os 2 ou 3 anos de
idade. Robb, Chen e Gilbert (1997) concluram de um estudo cross-seccional de 20 crianas que as
freqncias de F1 e F2 mdias mudaram pouco em um perodo de 4 a 25 meses de idade. Entretanto, eles
no relataram um decrscimo significante nas larguras de banda mdias para ambos F1 e F2. Em um
estudo de quatro crianas ao longo do perodo do desenvolvimento de 15 a 36 meses de idade, Gilbert,
Robb e Chen (1997) notaram essencialmente freqncias de F1 e F2 constantes antes dos 24 meses, mas
decrscimos significantes em ambas freqncias entre 24 e 36 meses. Tomadas juntas, os estudos de
Robb et al. (1997) e Gilbert et al. (1997) indicam uma estabilidade de freqncias de formantes (e,
portanto, pouca mudana no comprimento do trato vocal) de cerca de 4 a 25 meses, mas um decrscimo
nas freqncias dos formantes (e presumivelmente um alongamento do trato vocal) entre 25 e 36 meses.
A reduo da largura de banda do formante observada por Robb et al. (1997) poderia ser o resultado de
menos nasalizao e/ou mudana nas propriedades biomecnicas dos tecidos do trato vocal. Vejam Robb
et al. (1997) para uma discusso deste ponto.

Em algum ponto do desenvolvimento, meninos e meninas tm tratos vocais que diferem em comprimento
(e possivelmente em formato tambm) e, portanto, tm diferentes freqncias de formantes. As Tabelas
6-1 e 6-2 mostram que o dimorfismo sexual do trato vocal emerge em torno da idade de, no mnimo, 7 ou
8 anos (Bennett, 1981; Busby & Plant, 1995; Lee et al., 1999; Whiteside & Hodgson, 2000). Considerando os
dados para garotos e garotas de 7 e 8 anos de idade nas Tabelas 6-1 e 6-2, pode-se ver que os garotos tm
freqncias de formantes consistentemente mais baixas entre todas as vogais. O tamanho da diferena varia
de pouco, como cerca de 4% para o F2 da vogal /i/, a muito, como 13,5% para o F1 da vogal /Q/. As maiorias
diferenas sexuais ocorrem para o F1 das vogais baixas /Q/ e / [A] / e para o F2 da vogal /A/. Essas diferenas
nas freqncias dos formantes das vogais podem refletir algumas diferenas articulatrias entre garotos e
garotas em acrscimo a diferenas presumidas no comprimento do trato vocal. Por exemplo, a grande

diferena nas freqncias de F1 para as vogais baixas poderiam significar que garotos produzem essas vogais
com uma posio de mandbula relativamente mais aberta.
O padro de mudana das freqncias dos formantes em funo da idade no necessariamente simples,
pois o crescimento do trato vocal no apenas uma questo de comprimento total. Especificamente com
os homens, o trato vocal tem um crescimento desproporcional na regio farngea comparado regio oral.
Um artigo clssico sobre normalizao de freqncias de formantes para falantes de idades diferentes e
ambos gneros o de Fant (1975). No inteiramente claro se um fator escalar uniforme suficiente para
normalizar as freqncias de formantes das vogais para ambos garotos e garotas (Kent, 1976; Lee et al.,
1999; Whiteside & Hodgson, 2000). Lee et al. (1999) observou uma mudana linear nas freqncias de
formantes para homens entre as idades de 11 a 15 anos e concluiu que os seus dados so consistentes com
uma hiptese de crescimento axial uniforme. Entretanto, White (1999) concluiu que as diferenas
dependentes da vogal entre garotos e garotas indicaram diferenas no-uniformes nas dimenses dos
tratos vocais masculinos e femininos. White tambm notou que essas diferenas de sexo no foram
consistentes com dados para vogais de adultos. Os dados de White para 29 crianas de 11 anos de idade
mostraram que as freqncias de formantes foram maiores para a fala do que para o canto e tambm
foram mais altas para garotas do que para garotos.
Assumindo que variaes dialetais, articulatrias e de estilo de fala so controladas, diferenas nas
freqncias de formantes so associadas com diferenas estruturais no trato vocal, especificamente
diferenas no comprimento total. Ou seja, as freqncias de formantes so um ndice do crescimento
anatmico do trato vocal. Mas o desenvolvimento da fala tambm reflete um domnio fontico e uma
maturao das habilidades motoras da fala, que sero abordadas nas sees seguintes.

Padres Temporais

O desenvolvimento da fala muito mais do que mudanas no tamanho e geometria do trato vocal.
Tambm envolve uma preciso aumentada do controle e uma produo confivel de pistas fonticas e
fonolgicas. Comparado aos adultos, as crianas tendem a ter duraes segmentais mais longas (taxas de
elocuo mais baixas) e maior variabilidade em produes repetidas de um enunciado (Kent & Forner,
1980). A Figura 6-9 mostra uma comparao espectrogrfica da produo de um adulto e de uma criana
do sintagma took a spoon. A taxa lenta de produo para a criana evidente tanto na durao total do
sintagma quando nas maiores duraes da maioria dos segmentos, mas no todos. Esses efeitos so
geralmente consistentes com o desenvolvimento motor. medida que a criana adquire uma habilidade
motora, seu desempenho se torna tipicamente mais rpido e mais confivel. Estudos de padres temporais
na fala de crianas esto ajudando a moldar o entendimento do desenvolvimento da fala (Allen &
Hawkins, 1980; Nittrouer, 1993, 1995; Nittrouer & Studdert-Kennedy, 1986; Nittrouer, Studdert-Kennedy
& McGowen, 1989; Whiteside & Hodgson, 2000).
Figura 6.9. Espectrogramas do sintagma took a spoon produzido por um adulto masculino (topo) e uma criana jovem
(fundo). Os nmeros identificam os seguintes segmentos acsticos: 1 exploso de soltura de [t], 2 intervalo de aspirao, 3
vogal [u], 4 intervalo da oclusiva para [k], 5 exploso de soltura para [k], 6 vogal [], 7 frico para [s], 8 intervalo
de oclusiva para [p], 9 exploso para [p] e 10 vogal [u]. Nota-se, geralmente, duraes segmentais mais longas e energia de
freqncia maior para a produo da criana. Reimpresso de R. D. Kent, (1981). Sensorimotor aspects of speech development,
In R.N. Aslin, J.R. Alberts e M.R. Peterson (Eds.) Development of perception (Vol. 1). (Reproduzido com permisso da
Academic Press, New York). Direitos autorais 1981.

Mtodos acsticos so teis no estudo das variaes fonticas e fonolgicas na fala das crianas.
Consideremos a criana que apaga a fricativa [s] em palavras como spoon. Lembremos que as oclusivas
desvozeadas seguindo [s] so no aspiradas. Se uma criana apaga o [s], a oclusiva seguinte aspirada ou
no aspirada? A primeira resposta seria prevista se a fricativa deletada no estivesse representada na
representao fonolgica da criana, ou seja, a representao seria algo como [p u n]. Mas o alofone no
aspirado seria previsto se a representao fonolgica inclusse o [s] faltante, em cujo caso a
representao seria similar a do adulto [s p u n]. A Figura 6-10 mostra dois espectrogramas de banda
larga do sintagma took a spoon gravado da mesma criana dentro da mesma sesso. Nota-se que a
fricativa [s] apagada em ambas produes do sintagma. O padro de cima mostra uma oclusiva aspirada
[p], mas o de baixo mostra uma oclusiva no aspirada [p]. Aparentemente, a criana estava incerta sobre
qual alofone da oclusiva deveria usar. Os espectrogramas mostram uma evidncia clara da incerteza da
criana.
Figura 6.10. Espectrogramas do sintagma took a spoon produzido por uma criana jovem. O [s] em spoon apagado e o [p]
seguinte produzido como um alofone aspirado no topo, e como um alofone no-aspirado no fundo.

As vozes das Crianas

As vozes das crianas podem apresentar algumas das mesmas complicaes revistas anteriormente neste
captulo para as vozes das mulheres. Um problema especfico que o f0 relativamente alto da maioria das
crianas torna difcil selecionar uma largura de banda de anlise que resolva os formantes, mas no os
harmnicos. s vezes pode ser til se a fonao tiver componentes de rudo, porque a energia aperidica
pode tornar mais fcil a identificao dos formantes. As mudanas em f0 tambm podem ser teis, porque
elas podem mudar a relao formante-harmnico. claro que no h garantia de ocorrncia de rudo ou
variao de f0 em uma produo de fala natural. White (1999) usou uma produo de varredura de f0
deliberada para estudar os formantes em crianas de 11 anos, cantoras experientes em coral.
Alm de terem um f0 alto, as crianas freqentemente podem ser altamente variveis na fala e nas
caractersticas da voz, por exemplo, produzindo um enunciado com valores de freqncia fundamental
com extenso ampla, intervalos de soprosidade ou laringalizao e nasalizao no esperada. Em vista
dessas possveis complicaes, prudente rever as amostras de fala antes de realizar anlises detalhadas
que podem ser afetadas por caractersticas como as apresentadas. Uma exibio espectrogrfica em tempo
real muito til na reviso das amostras de fala. Sobretudo, no se deve assumir que os valores padro
dos parmetros de anlise (usualmente determinadas da fala de adultos masculinos) sero timos para a
anlise da fala das crianas. Geralmente, os valores dos parmetros de anlise para a fala das mulheres
ser mais adequado do que os valores para a fala dos homens ao se analisar os padres de fala das
crianas.
Lee et al. (1999) observaram que as diferenas de f0 entre crianas masculinas e femininas foram
estatisticamente significantes a partir da idade de 12 anos. Como notado anteriormente neste captulo,
diferenas de sexo nas freqncias de formantes parece emergir a partir dos 7 ou 8 anos. A mudana no f0
mdio pronunciada para adolescentes masculinos entre as idades de cerca de 12 e 15 anos. Por exemplo,
Lee et al. (1999) relataram um decrscimo de 78% no f0 para os adolescentes masculinos nessas idades.
Nenhuma mudana significante foi observada depois da idade de 15 anos, o que indica que a mudana de
voz est efetivamente completa em torno dessa idade (cf. Busby & Plant, 1995; Hollien et al., 1994; Kent,

1995).

Efeitos da Idade na Fala

Especialmente com a idade avanada, a fala pode sofrer vrias mudanas que podem ser facilmente
perceptveis para os ouvintes. Portanto, podemos, freqentemente, ser bastante precisos no julgamento da
idade de um falante apenas ouvindo suas vozes. Estudos mostraram que a idade pode afetar a voz
(Linville, 1996, 2000; Linville & Fisher, 1985), as freqncias de formantes (Endres, Bambach, & Flosser,
1971; Ras-tatter & Jacques, 1990), e os aspectos do controle motor da produo da fala (Weismer & Liss,
1991). Certamente, a fala uma funo robusta que serve a maioria de ns atravs da vida. Entretanto, as
mudanas que ocorrem com a idade podem ser significantes em alguns indivduos, levando a uma
inteligibilidade reduzida e uma qualidade de voz alterada.

Verificao, Identificao e Eliminao do Falante


Raramente um dia passa sem que reconheamos pessoas a partir dos sons de suas vozes. Freqentemente
podemos reconhecer um amigo no telefone mesmo a partir de uma mera saudao, e podemos identificar
pessoas famosas (atores, cantores, atletas, polticos) das gravaes das vozes. Por tudo isso, entretanto, a
habilidade humana para identificar outros a partir de suas vozes no surpreendentemente precisa. As
falhas foram estudadas na pesquisa de testemunha de oitiva. Em aplicaes para procedimentos criminais,
testemunha de oitiva o relato baseado na lembrana de eventos auditrios, como mensagens faladas na
cena de um crime. Estudos mostraram que a preciso da testemunha de oitiva bem baixa (Olsson, Juslin,
& Winman, 1998). possvel usar anlises acsticas para esses propsitos? Essa questo levanta questes
de verificao, identificao e eliminao de falante.
A verificao do locutor testa uma assero de identidade. O procedimento tpico determinar se uma
amostra de fala de um dado indivduo, que diz ser uma pessoa A, combina com uma amostra de
referncia armazenada, previamente obtida da Pessoa A. Uma aplicao da verificao do locutor uma
medida de segurana para garantir acesso a indivduos aprovados em reas restritas ou em fontes de
informao. Se uma pessoa quer ganhar acesso, ento a sua fala deve combinar com uma amostra prgravada. A identificao do locutor um processo de deciso em que uma amostra de fala de um locutor
desconhecido atribuda a uma indivduo em uma populao conhecida, como empregados em uma
instalao de alta segurana ou suspeitos em uma investigao criminal. A eliminao do locutor o
processo inverso da identificao e envolve uma deciso em que uma amostra de fala de um locutor
desconhecido no pode ser atribuda a indivduos de uma populao conhecida. A maioria das aplicaes
forenses (investigaes criminais) envolvem a identificao ou eliminao do falante.
A aplicao da anlise acstica para esses problemas assume que os falantes individuais podem ser
distinguidos a partir das propriedades acsticas de suas falas. Parece provvel que as diferenas acsticas
emerjam na comparao de certos subgrupos maiores de locutores, como subgrupos idade-gnero
(homens vs. mulheres, adultos vs. crianas) e alguns subgrupos dialetais (Sulistas vs. Nortistas). Tambm
possvel que um locutor individual possa ser distinguido de qualquer outro locutor? Em outras palavras,

possvel fazer impresses vocais que identificam indivduos to acuradamente quanto impresses
digitais?

Caractersticas que poderiam ser usadas para identificao de locutores podem ser conceitualizadas de
acordo com o modelo fonte-filtro descrito no Captulo 2. As caractersticas da fonte da voz incluem:
1. f0 mdio,
2. Padro tempo-freqncia de f0 (contorno de f0),
3. Flutuaes de f0, e
4. Forma da onda glotal.
As caractersticas de ressonncia do trato vocal incluem:
1. Forma e inclinao do envelope espectral,
2. Valores absolutos de freqncias de formantes,
3. Padro tempo-freqncia das freqncias de formantes,
4. Espectro mdio de longo termo (LTAS, na sigla em ingls), e
5. Larguras de banda dos formantes.
Embora seja de mais de 25 anos atrs, o maior e mais compreensivo estudo de identificao de locutores
por espectrogramas a investigao relatada por Tosi et al. (1972). Esse estudo foi baseado em 250
homens tirados do que foi considerado como uma populao homognea de 25000 homens falando
ingls americano geral (estudantes masculinos da Michigan State University). Os examinadores foram 29
indivduos, que tinham recebido um ms de treinamento em identificao espectrogrfica. Um total de
quase 35.000 tentativas de identificao foram conduzidas, com cada tentativa baseada em subconjuntos
de 10 ou 40 falantes tirados da amostra total de 250 locutores. O experimento incluiu vrios aspectos,
como: comparao de testes abertos versus fechados, uso de referncia no contempornea e amostras
testes, e variao de contexto. Dessas condies, a que se compara mais de perto com o tipo de teste
conduzido por um especialista forense o teste aberto com amostras no contemporneas, extradas da
fala contnua. Testes forenses freqentemente devem usar amostras de fala conversacionais (fala
contnua) obtida em tempos diferentes (amostras no contemporneas) de um suspeito que pode ou no
pode estar na amostra de referncia (teste aberto). Um exemplo uma pessoa que ameaa atravs de uma
chamada telefnica, a qual gravada por uma pessoa recebendo a ameaa. Depois um suspeito levado
delegacia policial e pede-se a ele para produzir uma amostra de fala que pode ser comparada com a
mensagem telefnica gravada. Para essa condio, Tosi et al. relataram taxas de erro de 6,4% para
identificao falsa (identificao de um sujeito que no era o falante real) e 12,7% para eliminao falsa
(rejeitando o falante real dos candidatos). Os examinadores tambm apresentaram taxa da certeza ou
confiana de seus julgamentos, com 60% de julgamentos incorretos sendo associados com uma taxa de
incerteza. Os autores sugeriram que se fosse permitido aos examinadores usar uma categoria de deciso
sem opinio quando eles no estivessem certos, ento as taxas de erro seriam 2,4% para a identificao
falsa e 4,8% para a falsa eliminao.

O status da identificao do locutor por espectrogramas foi avaliado em um artigo altamente importante
produzido por um conjunto selecionado de cientistas (Bolt et al., 1970). Eles concluram que a
identificao do locutor por esse mtodo sujeita a uma alta taxa de erro e que os available results are

inadequate to establish the reliability of voice identification by spectrograms [resultados disponveis so


inadequados para estabelecer a confiabilidade da identificao da voz por espectrogramas]. Um quarto de
sculo j se passou desde que o relato de Bolt et al. apareceu, mas no apareceram artigos de pesquisa
para fornecer uma resposta definitiva questo da confiabilidade da identificao espectrogrfica do
locutor (Kent & Chial, 1997).
O reconhecimento do sexo de um locutor pode ser realizado mesmo com segmentos voclicos curtos
usando informao de pistas de f0 e comprimento do trato vocal (freqncias de formantes) (Bachorowski
& Owren, 1999). Quando ambos tipos de informao foram usadas juntas, a classificao do sexo do
locutor foi virtualmente perfeita. Espera-se que essas duas fontes de informao reflitam a diferena de
tamanho entre as estruturas vocais de homens e mulheres. A questo surge se essas fontes de informao
podem ser usadas para prever o tamanho do corpo dentro de um grupo sexual. A resposta parece ser
no. Vandommelen e Moxness (1995) relataram que estimativas da altura e peso do falante foram
geralmente imprecisas. Alm disso, eles no acharam correlaes entre vrias medidas acsticas (f0,
freqncias de formantes, e energia abaixo de 1 kHz) e as alturas e pesos dos falantes realmente medidos.

Questes Sociolingsticas:
Estrangeiros

Estudos

de

Dialetos

Sotaques

Mtodos acsticos tambm foram aplicados ao estudo de dialetos e sotaques estrangeiros. Apenas uma
breve cobertura desse tpico ser includa aqui, basicamente para mostrar as formas em que a anlise
acstica ou sntese de fala pode ser informativa. Uma das maiores questes : Quais propriedades
acsticas so mais teis na caracterizao de dialetos e sotaque estrangeiro? A resposta pode bem
depender das lnguas ou dialetos envolvidos, mas pesquisas recentes apontam para alguns resultados
potencialmente gerais.
Arsland e Hansen (1997) estudaram sotaques estrangeiros atravs da anlise de caractersticas temporais,
padres entonacionais e caractersticas de freqncia para enunciados de ingls produzidos por nativos
versus ingls com acento chins (mandarim), alemo e turco. As caractersticas temporais incluam tempo
do incio do vozeamento (VOT) e a durao de fechamento da oclusiva em final de palavras. A ltima
caracterstica foi especificamente importante na distino de ingls com sotaque chins versus ingls
nativo. Uma anlise de freqncia detalhada da fala com sotaque estrangeiro revelou que a faixa de
freqncia mdia de 1500 a 2500 Hz especialmente sensvel na deteco de variaes de pronncia no
nativa do falante. Wayland (1997), em um estudo da produo das vogais, consoantes e tons do tai por
falantes nativos do tai ou do ingls tambm concluram que as propriedades espectrais de f0 e as
freqncias de formantes distinguiram os grupos de falantes mais efetivamente do que as propriedades
temporais de VOT e durao voclica. Wayland relatou que as contagens das taxas para os falantes no
nativos foram mais baixas para tons planos do que para de contorno, o que pode indicar diferentes graus
de dificuldade para tons diferentes.
O contraste de vozeamento para as consoantes ps-voclicos do ingls foi examinado em falantes de
japons e chins mandarim (Crowther & Mann, 1992) e rabe (Crowther & Mann, 1994). As produes
foram analisadas para determinar o uso de duas pistas principais de vozeamento, precedendo durao
voclica e a freqncia de sada do F1. Os resultados variaram com a bagagem lingstica dos falantes,
sendo os falantes ingleses altamente sensveis durao voclica, e os falantes de chins e rabe sendo

relativamente insensveis a essa pista, e os falantes japoneses estando entre esses dois grupos. Todos trs
grupos no ingleses pareceram ser mais sensveis freqncia de sada de F1 do que a durao voclica.
Vrios estudos apontam para uma concluso geral de que a idade de aprendizado de uma segunda lngua
crtica (Flege, MacKay, & Meador, 1999; Flege, Yeni-Komshian, & Liu, 1999; Munro, Flege, & MacKay,
1996). Quanto mais cedo, melhor. Entretanto, parece tambm que mesmo com uma exposio prvia ou
extensiva a uma segunda lngua, o domnio daquela lngua pode ser limitado em relao a certos aspectos
da percepo fontica (Bosch, Costa, & Sebastian-Galles, 2000; Takagi & Mann, 1995).

Desordens na Fala
As desordens na fala freqentemente apresentam desafios para a anlise acstica. Algumas pessoas com a
fala desordenada tm uma funo fonatria e articulatria altamente varivel, de modo que os parmetros
de anlise no so igualmente adequados ao longo do trecho de fala. Por exemplo, um falante pode ter
mudanas rpidas e marcadas na freqncia fundamental durante uma amostra de fala de interesse, ou
pode haver alternncias entre uma fonao bem suave e uma muito soprosa ou rouca. Portanto, os
parmetros de anlise que funcionam bem para uma parte do sinal podem no ser apropriados para outra
parte. Variaes rpidas nas caractersticas fonatrias e articulatrias da fala podem ocorrer
especificamente em falantes surdos ou disrtricos.
Uma abordagem compreensiva da anlise acstica de desordens na fala requereria vrios volumes.
Entretanto, certas questes so encontradas bem freqentemente, de modo que alguma preparao pode
ser dada em poucas pginas. O que segue, ento, uma descrio altamente seletiva da aplicao da
anlise acstica para desordens na fala. A anlise acstica efetiva de desordens na voz, fala e linguagem
baseada nas informaes presentes em captulos anteriores. Certas precaues e modificaes devem ser
pensadas na anlise de padres atpicos ou anormais.

Desordens na Voz
Um grande nmero de artigos foram publicados sobre os correlatos acsticos da qualidade de voz e das
desordens na voz, mas h uma incerteza contnua sobre quais medidas so timas para a anlise da voz.
Uma razo para a incerteza o fato de que diferentes medidas podem ser preferveis para tipos
especficos de qualidade de voz ou tipos de desordem na voz. Alm disso, algumas medidas que
funcionam bem para desordens leves na voz podem no ser teis para desordens mais severas. Outra
dificuldade o fato de que os estudos de correlaes entre taxas perceptuais de medidas de voz e medidas
acsticas de voz freqentemente produzem resultados discrepantes.
Um livro recente sobre o assunto (Kent & Ball, 2000) descreve vrias abordagens para a medio da
qualidade de voz, incluindo mtodos acsticos selecionados. O nmero de possveis medidas acsticas
enorme, e podem ser computados com uma variedade de algoritmos (vide Buder, 2000, para uma lista
extensiva). Algumas das medidas mais comumente usadas incluem o jitter (variaes de ciclo a ciclo no
perodo fundamental), o shimmer (variaes de ciclo a ciclo na amplitude glotal), o quociente harmnicosrudo (o quociente da energia peridica para a aperidica em uma forma de onda vozeada), a inclinao
espectral e a estatstica de f0. Sistemas comerciais oferecem a capacidade para anlises multidimensionais de

amostras de voz. Essas anlises geralmente permitem um clculo rpido dos valores e visualizaes
convenientes dos dados. Um exemplo dessa exibio mostrada na Figura 6-11.
Figura 6.11. Exemplo de anlise de uma fonao de vogal com o MDVPTM da Kay Elemetrics. O grfico mostra os resultados de
uma anlise multidimensional que inclui parmetros como jitter, shimmer, tremor, variao de freqncia e variao de amplitude.

Incompetncia Velofarngea (Hipernasalidade)


Uma caracterstica especialmente problemtica de muitas desordens na fala a nasalizao inesperada,
que surge da incompetncia velofarngea, ou inadequaes nos ajustes da abertura e fechamento
velofarngeos. A nasalizao pode comprometer severamente a anlise acstica de um sinal de fala. Em
falantes com incompetncia velofarngea severa, o sinal inteiro pode ser influenciado por um alto grau de
amortecimento (resultando em uma energia de sinal reduzida e em larguras de banda de formantes
aumentadas) e por antiformantes (que depois podem reduzir a energia total do sinal e complicar a
identificao de formantes). Uma fala severamente nasalizada usualmente tem um contraste acstico
enormemente reduzido entre seus componentes segmentais. Um exemplo dessa reduo dado na Figura
6-12, que mostra espectrogramas para uma produo normal de um falante de Mama made apple jam, e
uma recitao da mesma sentena por um falante com uma incompetncia velofarngea severa. Quando lida-se
com fala nasalizada, deve-se lembrar que os correlatos acsticos da nasalizao so numerosos e complexos em
seus efeitos potenciais no sinal acstico. A interpretao de gravaes acsticas pode, portanto, ser difcil. Por
exemplo, os seguintes correlatos de nasalizao podem aparecem em espectrogramas de vogais nasalizadas
(Kent, Liss, & Philips, 1989):
1. Aumento na largura de banda do formante, de modo que a energia do formante parece mais
ampla;
2. Diminuio na energia total da vogal (comparada s vogais no nasalizadas);
3. Introduo de um formante nasal de baixa freqncia com uma freqncia central de cerca de
250-500 Hz para adultos masculinos;
4. Um leve aumento da freqncia de F1 e um leve abaixamento das freqncias de F2 e F3; e
5. A presena de um ou mais antiformantes.
Figura 6.12. Espectrogramas para a sentena Mama made apple jam produzida por um falante com incompetncia
velofarngea (hipernasalidade) no topo (A) e por um falante com nasalidade normal no fundo (B). O padro em A tem uma
perda geral de contraste acstico entre os segmentos componentes.

Por ser a nasalizao associada com um conjunto complexo de caractersticas acsticas, nem sempre
imediatamente evidente em uma dada anlise, como um espectrograma, se o padro influenciado pela
nasalizao. Entretanto, parece que certas regies espectrais so especificamente teis para se fazer essa
determinao. Alguns exemplos so resumidos a seguir.

Anlises de espectros de potncia de um tero da oitava mostraram que vogais hipernasais tendem a ter
um nvel de potncia aumentado na regio entre F1 e F2 e um nvel de potncia reduzido em F2 e nas
proximidades de F2 (Kataoka et al., 1996). Em um estudo da nasalizao em ingls e francs, Chen

(1997) definiu ndices de nasalizao baseados em dois valores de diferena de amplitude derivados das
seguintes medidas: P0, a amplitude de um pico extra nas freqncias baixas; P1, a amplitude de um pico
extra localizado entre os dois primeiros formantes; e A1, a amplitude do primeiro formante. Valores de
diferena foram determinados por A1-P1 e A1-P0. A diferena A1-P1 deu, em mdia, mais do que 10 dB
entre as vogais orais e nasalizadas produzidas por falantes do ingls americano. Plante, Berger-Vachon e
Kauffman (1993) relataram que coeficientes especficos de LPC foram sensveis presena de
nasalizao em vogais produzidas por crianas. Uma distino entre fala nasalizada e no nasalizada
tambm foi demonstrada com uma anlise baseada no operador de energia Teager, sob certas condies
de filtragem (Cairns, Hansen & Riski, 1996). Embora a nasalizao instale desafios na anlise acstica,
uma melhor compreenso dos correlatos acsticos da fala nasal est surgindo.

A Fala dos Surdos ou dos com a Audio Profundamente Comprometida


Uma dificuldade geral na anlise acstica das desordens da fala que indivduos com a mesma desordem
podem variar enormemente um do outro em suas caractersticas acsticas de fala. Falantes com uma
perda auditiva profunda so notveis por esta variabilidade intra-individual. Alguns exemplos so
mostrados nas Figuras 6-13 e 6-14. A Figura 6-13 contem vrios espectrogramas de uma parte do
sintagma simples took a spoon produzido por seis adolescentes surdos. Esses espectrogramas focam-se
na produo da fricativa [s] na palavra spoon. Os seguintes padres podem ser vistos: (a) Este falante
produziu uma fricativa bastante normal, como evidenciada pela energia de rudo conspcua nas
freqncias mais altas; (b) Aqui o falante interrompe o segmento de frico, de modo que sua seo
mdia quase silencioso, parecendo-se com um intervalo de oclusiva; (c) Esta tentativa comea com uma
fricativa bem boa, mas cortada brevemente e seguida por um intervalo silencioso notvel; (d) A
produo caracterizada por uma exploso de energia de rudo difusa precedendo de perto o incio da
vogal [u]; (e) O falante representado aqui tendia a laringalizar os segmentos consonantais, como indicado
neste espectrograma pela continuao do vozeamento atravs do intervalo marcado e da apario de
pulsos glotais pronunciados; e (f) Neste caso, no h energia de frico, mas o local do [s] marcado por
um intervalo silencioso de aproximadamente a durao esperada da energia de [s] na fala normal.

Figura 6.13. Espectrogramas do sintagma a spoon (extrado da sentena I took a spoon and a dish) produzido por
falantes com perda auditiva profunda ou surdez. Os padres individuais de a-f so descritos no texto.

Figura 6.14. Espectrogramas das trs primeiras palavras da sentena Buy Bobby a puppy produzido por indivduos com
perda auditiva profunda ou surdez. O contorno de freqncia fundamental (f0) est sobreposto nos espectrogramas em b, c e d.
Veja discusso no texto.

A Figura 6-14 d exemplos de ressonncia fonatria e variaes prosdicas na fala dos surdos. Todos os
padres mostrados so para as trs primeiras palavras da sentena, Buy Bobby a puppy. O espectrograma
a mostra o resultado para um falante com voz continuamente soprosa. Nota-se que h pouca evidncia de
energia de vozeamento peridica (estrias verticais ausentes ou fracas) e que os formantes so excitados
por rudo. As regies intra-formantes tendem a ser preenchidas com rudo. No espectrograma b, o falante
tende a laringalizar consoantes e fronteiras de palavra, e a produzir a fala com pouca variao no f0 ou no
F2. O contorno de f0 sobreposto medida que a linha quebrada, em uma mdia um pouco menos do que
125 Hz, e a freqncia de F2 desenhada como uma linha slida no espectrograma. Esse um padro de
vozeamento contnuo (i.e., vozeamento que continua atravs de intervalos que deveriam ser desvozeados)
com uma reduo de f0 para marcar consoantes e fronteiras de palavra. Notemos a vibrao glotal (ou fry
glotal) perto do fim do padro. O espectrograma c o resultado para um falante com f0 altamente varivel

(vejam a linha quebrada sobreposta representando o contorno de f0) e uma forte tendncia nasalizao.
O ltimo resulta em um desaparecimento virtual da energia de F2 (veja a linha pontilhada). Finalmente, o
espectrograma d mostra o padro para um falante que produziu slabas quase igualmente acentuadas, bem
separadas, em um tipo de cadncia cantada. Essa fala lenta (comparada com a durao de c com a dos
outros trs padres) e deliberada (notem os padres formnticos distintos).
A variabilidade entre os falantes surdos ilustrado mais adiante na Figura 6-15, que mostra as trajetrias
de F1-F2 para o ditongo em buy produzido por 23 falantes adolescentes surdos. As trajetrias so
desenhadas como linhas retas conectando a parte inicial aparente do ditongo com sua parte final aparente.
As trajetrias diferem na freqncia do movimento inicial, na freqncia do movimento final e, em menor
grau, at mesmo na direo do movimento no plano F1-F2 (ex.: alguns falante realizam uma descida, em
vez da mudana de freqncia esperada para cima de F2).

Figura 6.15. Produes do ditongo /aI/ por um grande nmero de indivduos com perda auditiva profunda ou surdez. O
resultado para um falante especfico est representado no plano F1-F2 como uma linha indo do incio ao fim do ditongo
(cabea da flecha). Os valores de F1 e F2 mdios para o incio do ditongo so indicados por um crculo negro.

Disartria
O contraste acstico entre segmentos da fala reduzido em um nmero de desordens da fala. Uma,
especificamente, a disartria (desordem da fala neurolgica) associada com a doena de Parkinson. Alguns
falantes com esta doena tem uma disartria em que as palavras so enunciadas em padres corridos curtos
ou acelerados. A Figura 6-16 mostra os espectrogramas de banda estreita (topo) e de banda larga (fundo)
para uma produo curta acelerada das palavras something beyond his reach. O padro continuamente
vozeado (como evidenciado pela barra de vozeamento contnua e as estrias verticais do pulso glotal
ininterruptas) e mal articulado (notem o intervalo de oclusiva incompleto e as fricativas fracas). O falante
pode realizar uma taxa de elocuo rpida atravs do negligenciamento de muitos ajustes fonatrios e
articulatrios, a fim de dar um efeito borrado ao padro total. Uma comparao entre um falante
neurologicamente normal e um falante com doena de Parkinson mostrada na Figura 6-17 para o
sintagma strikes raindrops. Mesmo uma inspeo casual dos dois espectrogramas revela os contrastes
acsticos diminudos para o indivduo com a doena de Parkinson. Uma espiralizao de intervalos de
oclusivas facilmente observada: notem a presena de energia de rudo nos intervalos de oclusiva
esperados para as oclusivas etiquetadas. A espiralizao resulta do fechamento articulatrio incompleto,
que permite a gerao de rudo de turbulncia na constrio.

Figura 6.16. Espectrogramas de banda estreita (topo) e larga (fundo) do sintagma something beyond his reach, produzido
por um falante com doena de Parkinson. As flechas indicam os intervalos de vozeamento contnuo (vozeamento de segmentos
que deveriam ser desvozeados).

Figura 6.17. Espectrogramas do sintagma strikes raindrops produzido (topo) por uma pessoa com fala normal e por uma
pessoa (fundo) com doena de Parkinson e disartria. As cabeas das flechas no resultado para o falante com doena de
Parkinson indicam os intervalos de oclusiva espirantizados (ou seja, os intervalos de oclusiva contendo energia de frico).

Anlises acsticas podem ser teis no estudo de desordens da fala que perturbam a organizao temporal
e o sequenciamento. Uma dessas desordens a apraxia verbal (ou apraxia da fala), que uma desordem
do sequenciamento ou programao dos movimentos da fala. Nessa desordem, a fala tende a ser devagar,
intermitente e varivel. A Figura 6-18 mostra espectrogramas para produes da palavra please por (a)

um falante neurologicamente normal e (b) e (c) dois indivduos com apraxia de fala. Diferenas na
durao das palavras so imediatamente evidentes, com a produo em b e c sendo mais do que duas
vezes a durao daquela para o controle normal. O segundo formante (etiquetado em cada espectrograma)
tem uma trajetria muito mais devagar para os falantes com apraxia. Essa anlise mostra que as
produes disprxicas so mais longas e, alm disso, tm taxas mais lentas de mudana acstica (e, por
inferncia, articulatria).

Figura 6.18. Espectrogramas da palavra please produzida por (a) uma pessoa com fala normal, e (b e c) pessoas com apraxia
de fala. As produes aprxicas so enormemente aumentadas comparadas ao padro normal. Reimpresso de R. D. Kent and J.
C. Rosenbek, Acoustic patterns of apraxia of speech, Journal of Speech and Hearing Research, 26, 231-249. (Reproduzido
com permisso da American Speech-Language-Hearing Association, Rockville, MD.) Direitos autorais 1987.

Uma questo geral sobre a fala disprxica se os erros so fonmicos (substituies de um fonema por
outro) ou envolvem distores fonticas (como as que podem resultar da fala de coordenao). A Figura
6-19 ilustra o uso de um espectrograma para avaliar um erro especfico de fala disprxica. A palavra
analisada o monosslabo shush, em que a vogal precedida e seguida por uma consoante desvozeada. A
ilustrao mostra tanto espectrogramas de banda larga (topo) e de banda estreita (fundo). A palavra foi
produzida disfluentemente com um falso comeo, como indicado pelo segmento de frico inicial seguido
por uma pausa e ento a produo da palavra inteira. Notem que a produo inicial da fricativa de shush
no inteiramente desvozeada: a evidncia de que a vibrao das pregas vocais comea durante o
intervalo da fricativa aparece tanto no espectrograma de banda larga (notem a barra de vozeamento
circulada) quanto no de banda estreita (notem o padro harmnico circulado). Aparentemente, esse
falante comete erros na coordenao do vozeamento com a funo articulatria oral, de modo que o
padro resultante no um erro fonmico, mas um lapso fontico ou motor.

Figura 6.19. Espectrogramas de banda larga (topo) e estreita (fundo) de uma produo disfluente da palavra shush por uma
pessoa com apraxia de fala. Os segmentos circulados indicam intervalos vozeados breves durante a produo da fricativa
inicial (que deveria ser desvozeada). Reimpresso de R. D. Kent and J. C. Rosenbeck, Acoustic patterns of apraxia of speech,
Journal of Speech and Hearing Research, 26, 231-246. (Reproduzido com permisso da American Speech-Language-Hearing
Association, Rockville, MD.) Direitos autorais 1987.

Variaes no VOT para a oclusiva pr-voclica [d] em dad so ilustradas na Figura 6-20. Resultados so
mostrados para quatro falantes com apraxia, arranjados a fim de se aumentar a durao do prvozeamento. O intervalo de VOT ressaltado por uma barra vertical e uma flecha anexada. O falante
representado em (d) tem um intervalo especificamente longo de pr-vozeamento. Azou et al. (2000)
descreveram um nmero de anormalidades no VOT que so teis no estudo da apraxia da fala, disartria e
afasia.

Figura 6.20. Espectrogramas da palavra dad produzida por (a) uma pessoa com fala normal, e (b-d) pessoas com apraxia de
fala. O intervalo marcado por uma flecha o tempo de incio do vozeamento (VOT) para o [d] inicial.

Uma relacionada desordem da fala nas crianas freqentemente dada o rtulo de apraxia verbal do
desenvolvimento. Crianas com essa desordem tem uma dificuldade considervel na produo da fala na
taxa normal, na preciso fontica. A Figura 6-21 contm trs espectrogramas mostrando um falante
normal dizendo a palavra spaghetti (topo) e duas tentativas de uma criana com apraxia de dizer a mesma
palavra. As caractersticas de lentido, intermitncia e variabilidade so representadas acusticamente pela
durao total longa e duraes segmentais longas (taxa de elocuo lenta); pausas longas e variveis
(intermitentes, fala quebrada); e inconsistncia entre as duas produes (variabilidade). Caractersticas

semelhantes tm sido observadas na apraxia adulta (ou adquirida) da fala (Kent & Rosenbek, 1983).
Figura 6.21. Espectrogramas da palavra spaghetti, produzida por um falante adulto normal (topo) e (meio
e fundo) uma criana com apraxia do desenvolvimento da fala. As produes da criana so
caracterizadas por segmentos mais longos e um padro altamente varivel.

Desordens Fonolgicas nas Crianas

Essas desordens ocorrem com freqncia considervel e freqentemente requerem terapia de fala. Um
padro bastante comum o apagamento da consoante final, em que a criana omite a consoante final de
uma palavra ou uma slaba (ex.: [k ae t] produzida como [k ae]). Uma conseqncia especfica do
apagamento da consoante final que a criana no pode distinguir formas singulares de formas plurais
das palavras que adicionam /s/ ou /z/ como uma marcador de plural. Por exemplo, a criana
presumivelmente no pode distinguir o singular toe do plural toes, ambos sendo produzidos como [toU].
Mas essas crianas podem estar marcando a forma plural com outros meios. Tyler e McOmber (1999)
usaram anlise acstica para mostrar que quatro crianas que tinham o erro do apagamento da consoante
final produziam formas plurais que eram, na verdade, diferentes das formas singulares. Elas se baseavam
em um ou mais parmetros suprasegmentais para fazer a distino.

Documentando Mudanas na Fala


Um papel promissor dos mtodos acsticos na patologia da fala monitorar mudanas na produo da
fala que podem ocorrer como resultado do gerenciamento ou da progresso da doena. A anlise acstica
permite estudar a mudana na fala em um indivduo com esclerose lateral amiotrfica, uma doena
neurolgica fatal e degenerativa. Espectrogramas de amostra da palavra sigh por uma mulher com
esclerose lateral amiotrfica (doena de Lou Gehrig) so mostrados na Figura 6-22 para dois tempos
diferentes: logo aps o diagnstico inicial (topo) e vrios meses depois do diagnstico. Esse indivduo
capaz de, no mnimo, um [s] fraco na primeira amostra, mas gera pouca ou nenhuma frico de [s] na
ltima amostra. Mtodos acsticos podem ser usados para detectar mudanas mais sutis tambm,
possivelmente mudanas que no podem ser confiavelmente detectadas apenas pelo ouvido.

Figura 6.22. Espectrogramas da palavra sigh produzida por uma mulher com esclerose lateral amiotrfica (doena de Lou
Gehrig). O resultado em (a) foi gravado no estgio inicial da doena e o resultado em (b) foi gravado no estgio que a doena
estava altamente avanada.

O espectrgrafo tornou possvel um exame objetivo das desordens da fala. Entretanto, um problema com
o espectrgrafo que ele freqentemente deixa para o usurio uma considervel tarefa de anlise. O
espectrograma em si raramente suficiente; o usurio tem de derivar medidas, freqentemente por um
processo bem tedioso. Anlises muito mais rpidas, resultando em medidas quantitativas, esto sendo
usadas hoje. Por exemplo, o rastreamento de formantes por LPC identifica padres formnticos
automaticamente, economizando, assim, esforo e tempo que, de outra forma, seria dado ao rastreamento
manual de formantes nos espectrogramas. Uma amostra da anlise quantitativa automtica dada na
Figura 6-23. A anlise pertence a uma produo de um falante disrtrico da sentena "The potato stew is in
the pot." A anlise multi-paramtrica da Figura 6-23 mostra, nos quatro painis de cima, os quatro momentos
espectrais (curtose, assimetria, desvio-padro, mdia); no terceiro painel do fundo, rastreamento de formante por
LPC para os trs primeiros formantes; e, nos dois painis de baixo, o contorno da freqncia fundamental e o
envelope de rms. Essa anlise multi-paramtrica resulta em uma grande quantidade de informao sobre o
padro da fala, todo ele obtido semi-automaticamente por um computador pessoal.

Figura 6.23. Anlise acstica multi-paramtrica da sentena The potato stew is in the pot, produzida em trs diferentes estgios por um
falante com uma doena neurodegenerativa (esclerose lateral amiotrfica). Dados so mostrados para os quatro momentos espectrais
(curtose, assimetria, desvio-padro, mdia), os trs primeiros formantes derivados do rastreamento de formante por LPC, o f0 e o
contorno de rms. Note o contraste acstico diminudo entre as quatro diferentes sesses de gravao, que reflete a severidade aumentada
da doena. Os histogramas nos lados de cada painel representam os dados cumulativos para cada parmetro.

Para discusses mais detalhadas das caractersticas acsticas da fala desordenada, o leitor deve ver um
artigo sobre as caractersticas acsticas da disartria de Weismer (1984), um artigo mais recente tambm
sobre o tpico da disartria (Kent et al, 1999), e uma coletnea de artigos sobre anlise espectrogrfica
editado por Baken e Daniloff (1990).

Desordens Psiquitricas
Algumas desordens psiquitricas so associadas com padres bem distintivos da lngua falada, incluindo
alguns traos que podem ser estudados acusticamente. Apenas dois exemplos desse esforo so
considerados aqui. Em um estudo de 20 homens criminosos (dez psicopatas e dez no psicopatas),
determinou-se que os psicopatas falam mais calmamente e no diferenciam palavras neutras das afetivas
(Louth et al., 1998). Os autores interpretaram esses resultados para dizer que os psicopatas so insensveis
s conotaes emocionais da linguagem. Propriedades acsticas da fala podem ser teis na identificao
de indivduos com depresso, e, alm disso, possvel que anlises acsticas possam ajudar na
discriminao da fala deprimida e suicida. France et al., (2000) relatou anlises acsticas da fala de
indivduos com distimia, depresso ou alto risco para suicdio.

Expandindo a Base De Dados Fontico-Acstica


Os comentrios anteriores indicam que a base de dados da fontica acstica est se expandindo para
incluir uma gama muito mais ampla de falantes do que foi estudada no passado. Os dados esto sendo
coletados de bebs, crianas, mulheres, falantes de vrios dialetos e indivduos com vrias desordens da
fala e da voz. Esse esforo amplo de pesquisa importante para tornar a anlise acstica da fala, o
reconhecimento automtico da fala, a sntese de fala e outras tecnologias de fala aplicveis a populaes
diversas de falantes. Muito trabalho ainda necessita ser feito, mas, felizmente, mtodos atuais de anlise
acstica so muito mais adaptveis a diferentes caractersticas do falante do que era a espectrografia do
anos 1950 e 1960. O espectrgrafo foi uma ferramenta poderosa no seu tempo, mas os sistemas
computacionais modernos para a anlise de fala vo muito alm do espectrgrafo em velocidade,
flexibilidade e facilidade de uso.
Para muitas aplicaes, incluindo a avaliao dos sistemas de reconhecimento da fala, til ter uma base
de dados de amostras da fala. Vrias dessas bases de dados tm sido criadas e entre as mais
freqentemente usadas esto a base de dados TIMIT (Garofolo et al., 1993), a base de dados WSJ (Paul &
Baker, 1992) e a BREF (Gauvain et al., 1990). A TIMIT consiste de um conjunto de sentenas construdas,
lidas por uma variedade de falantes do ingls americano. A WSJ consiste de extratos lidos do Wall Street
Journal. A BREF contm extratos do jornal francs La Monde.

CAPTULO 7

PROPRIEDADES SEGMENTAIS DA FALA


A maior parte do que j foi dito at aqui simplifica bastante o problema da anlise acstica em vrias
aplicaes. A simplificao surge principalmente pelo fato de que fontes importantes de variabilidade,
bem como fontes de informao, so negligenciadas. Algumas das fontes de variabilidade j foram
mencionadas, mas a tarefa deste captulo consider-las mais detalhadamente e relacion-las s fontes
adicionais de informao da fala. Especificamente, este captulo considerar o contexto fontico e as
caractersticas suprasegmentais. O contexto fontico se refere ao ambiente fontico em que um som
ocorre, incluindo sons vizinhos e caractersticas prosdicas do enunciado. Raramente um som da fala
ocorre isolado de outros sons. Mais geralmente, um dado som alvo produzido em uma seqncia de
sons e esses sons vizinhos influenciam a produo do som alvo. Suprasegmentais so as caractersticas
prosdicas e vrias outras modificaes cujos efeitos transcendem as fronteiras dos elementos fonticos
individuais. Os suprasegmentais so sobrepostos nas seqncias fonticas, dando a essas seqncias uma
coerncia e unidade que obscurece a discretude aparente de seus constituintes fonticos. Embora seja um
tanto quanto simplificado, pode-se dizer que a fala uma srie de elementos fonticos (os segmentos)
produzidos em um fundo composto por entonao, acento, ritmo, altura e taxa (os suprasegmentais).
Extrair os elementos fonticos individuais desse fundo altamente desafiador. por isso que difcil
instruir mquinas para realizar reconhecimento de fala.

Coarticulao
As descries dos sons da fala nos captulos precedentes tm em grande parte ignorado os efeitos do
contexto, ou seja, a produo de sons em combinaes para formar slabas, palavras e sintagmas. Na
realidade, bastante artificial descrever um som em termos de sua produo isolada, discreta. A fala
usualmente envolve seqncias de sons enunciados em uma sucesso rpida. Nessas seqncias, os sons
individuais podem perder um pouco de sua distintividade e at mesmo pegar algumas propriedades dos
sons adjacentes. Freqentemente, as fronteiras entre sons so confusas. Como exemplo, consideremos a
palavra am [ae m]. Na produo tpica desta palavra, a vogal [ae] nasalizada, ou seja, produzida com
algum grau de ressonncia nasal devido ao fato de a abertura velofarngea para a nasal [m] ser antecipada
durante a vogal. Assim, um trao articulatrio (acstico) da consoante produzido antecipadamente
durante a vogal anterior. Tomemos um outro exemplo, a maioria dos falantes produz a palavra stew [stu]
com arredondamento dos lbios que comea durante o [s]. O arredondamento dos lbios , na verdade,
requerido para a vogal arredondada [u], mas comea bem antes de a prpria vogal ser articulada. Nenhum
arredondamento dos lbios observado para o [s] em uma palavra como stay, que no envolve uma vogal
arredondada.
Desses exemplos, podemos ver que os segmentos da fala se interagem, de modo que alguns de seus traos
so misturados entre si. O termo coarticulao (ou coproduo) se refere a eventos da fala em que o trato
vocal mostra em qualquer instante ajustes que so apropriados para dois ou mais sons. A direo de um
efeito coarticulatrio pode ser descrita como antecipatria (para frente) ou perseveratria (para trs). Na
articulao antecipatria, um trao articulatrio para um segmento fontico aparente durante a produo
de um segmento anterior. Consideremos os exemplos do pargrafo anterior. Para a palavra am, o trao de
nasalizao (porta velofarngea aberta) ocorre durante a vogal que precede a consoante nasal. Assim, essa
palavra mostra evidncia da coarticulao antecipatria da nasalizao. No segundo exemplo, a

coarticulao antecipatria do arredondamento dos lbios evidente para o [s] na palavra stew. Na
articulao perseveratria, um trao articulatrio para um segmento fontico transferido para um
segmento posterior. Por exemplo, na palavra no ([noU]), a nasalizao da consoante nasal [n]
transferida para o elemento voclico. Algum grau de coarticulao perseveratria inevitvel, pois os
articuladores no so capazes de velocidade infinita. Leva tempo para fazer os ajustes articulatrios, e a
coarticulao perseveratria reflete a inrcia fsica dos articuladores.
A coarticulao revisada em profundida por Sharf e Ohde (1981) e Farnetani (1997), que consideraram
aspectos fisiolgicos, acsticos e perceptuais deste fenmeno da fala. Eles tambm revisaram modelos de
produo da fala que tentam lidar com os padres coarticulatrios da fala. Uma reviso mais recente dos
modelos de produo da fala tambm est disponvel em Kent, Adams e Turner (1996). Para o propsito
deste texto, a coarticulao principalmente de interesse na compreenso das modificaes de um dado
som pelo contexto em que aparece. As discusses das produes de vogais e de ditongos no Captulo 4 e
da produo consonantal no Captulo 5 devem ser temperadas com o conhecimento de que sons em
contexto freqentemente so mutualmente influenciados. Alguns investigadores da coarticulao
descreveram o processo como de espraiamento de traos, de modo que um trao de um som
antecipado durante um som precedente na seqncia ou retido por um som posterior. Seja essa
caracterizao correta ou no, ela contm a idia dos efeitos coarticulatrios que podem ser observados
no sinal acstico.
Lembremos que na palavra [ae m], a vogal [ae] nasalizada por causa da influncia da consoante nasal
seguinte [m]. A nasalizao est presente como uma modificao da vogal [ae] produzida sem
nasalizao. Especificamente, antiformantes podem estar presentes, junto com a aparncia de um
formante nasal de baixa freqncia e um aumento das larguras de banda dos formantes. Esses traos
acsticos de nasalizao so, na realidade, espraiados para influenciar a produo do segmento
voclico.
A Figura 7-1 mostra vrios exemplos de coarticulao. Nota-se que, em cada caso ilustrado, h
espraiamento, sobreposio ou fuso de traos articulatrios entre sons de fala vizinhos. Todas essas trs
palavras espraiamento, sobreposio e fuso so usadas aqui, pois elas tm, de alguma forma,
diferentes conotaes e porque todas trs tm sido usadas para descrever coarticulao. Espraiamento
sugere uma expanso ou esticamento; sobreposio descreve sons produzidos ao mesmo tempo; e fuso
denota uma mistura ou unio ntima. Espraiamento pode ser preferido sobre os outros termos se
coarticulao puder ser relacionada a um processo em que um trao esticado, como borracha, para
exceder suas fronteiras tpicas. Por exemplo, se o arredondamento dos lbios para uma vogal arredondada
antecipado durante segmentos anteriores, pode-se dizer que o trao arredondamento expandido ou
esticado. Sobreposio um bom termo para se referir a modificaes em que um trao ou propriedade
especfica mudado no tempo relativo a outros traos. Essa mudana temporal no reforma muito um
segmento de som, medida que ela permite que o som seja penetrado por um trao especfico. Por
exemplo, algumas abordagens da nasalizao prope que um trao de nasalidade esteja sobreposto de um
fone nasal para seu fone anterior ou seguinte. Fuso o termo preferido se um segmento de som
reformatado para acomodar seus vizinhos fonticos. Ou seja, o segmento passa uma significante reviso
que leva em considerao sua natureza global comparada natureza dos sons que o circundam. A fuso
pode ser mais drstica do que espraiamento ou sobreposio. Esses conceitos recorrem na seguinte
discusso.
Figura 7.1. Exemplos de coarticulao: (A) variao no ponto de articulao da consoante velar, dependendo do contexto
voclico; (B) variao no arredondamento dos lbios para /s/, dependendo da vogal seguinte; e (C) variao na articulao
velofarngea durante a vogal, dependendo da consoante seguinte.

O pargrafo anterior discutiu conceitos que so de natureza amplamente temporal. Esses conceitos so
relevantes para determinar o domnio temporal da coarticulao. Entretanto, a coarticulao tambm pode
ser considerada do ponto de vista da extenso de valores espaciais assumidos por um articulador
individual. Keating (1990) descreveu um modelo de janela para a coarticulao baseado na idia de que,
para uma dimenso fsica especfica (ex.: posio mandibular, abertura velofarngea), cada valor do trao
de um segmento associado com uma extenso de possveis valores espaciais. Essa extenso de valores
chamada de uma janela e constitui an undifferentiated range representing the contextual variability of a
feature value (Keating, 1990, p. 455) [uma extenso indiferenciada representando a variabilidade
contextual de um valor de trao]. Essa proposta ajuda a lidar com variaes espaciais na produo de um
dado som em diferentes contextos fonticos.

De certa forma, a coarticulao pode ser descrita de uma forma abstrata que no envolve tempo fsico.
Por exemplo, se sons individuais podem ser definidos por um encontro de traos coocorrentes, ento a
reespecificao de traos produz um padro abstrato de coarticulao. No final, entretanto, a
coarticulao realizada no tempo, e esta complexidade temporal do processo que confronta o cientista
de laboratrio. A maioria da discusso aqui pertence ao tempo fsico, e bem menos a um tempo
fonolgico abstrato. Alguns traos so especificamente improvveis de ter uma grande extenso temporal.
Entre esses traos esto arredondamento dos lbios e nasalizao, que so s vezes descritos como
relativamente vagarosos. Outros traos tendem a afetar apenas os segmentos imediatamente adjacentes. A
afirmao anterior pode ser uma simplificao, pois efeitos coarticulatrios podem se estender sobre
intervalos mais longos do que tm sido s vezes suposto. Magan (1997) observou efeitos coarticulatrios
entre vogais em slabas no-adjacentes, um achado que no previsto por alguns modelos
contemporneos da articulao da fala.
Quando sons so produzidos em contexto, um nmero de ajustes temporais usualmente ocorrem.
Geralmente, um som produzido em contexto menor do que o mesmo som produzido isoladamente.
Alm disso, a durao de um segmento tende a se tornar mais curta medida que mais elementos so
adicionados cadeia sonora. Por exemplo, quando elementos so adicionados a uma dada consoante para
produzir encontros consonantais de dois ou trs elementos (como /p/, /sp/ e /spr/), a durao da consoante
diminui (Haggard, 1973; Schwartz, 1970; Umeda, 1977). Um efeito semelhante ocorre para as slabas. A
durao de uma base monossilbica, como stick, se torna progressivamente mais curta em seqncias com
sufixos de slabas como stick, sticky, stickiness (Lehiste, 1972). Esses efeitos duracionais ocorrem mesmo
quando o falante tenta produzir fala em uma taxa constante. Esse um ajuste essencialmente automtico e
quase obrigatrio que o falante competente faz. Se uma palavra como stickiness produzida sem essa
compresso temporal, ela pode soar afetada e no natural.
Como uma nota final para esta seo sobre coarticulao e efeitos contextuais, tm-se sugerido que pistas
acsticas para identidade fontica so fracas e dispersas, em vez de serem fortemente atadas a segmentos
discretos (Nearey, 1992; van Son & Pols, 1999). Por esse questionamento, no se espera que pistas acsticas para
percepo da fala sejam sempre fortemente associadas com a noo tradicional de um segmento fonmico. De
acordo com van Son e Pols (1999), human listeners extract an important fraction of the information needed to
identify phonemes from outside the conventional segment boundaries (p. 1) [ouvintes humanos extraem uma
importante frao da informao necessria para identificar fonemas de fora das fronteiras segmentais
convencionais]. Os autores atriburam a esta informao o seguinte nome: fala perisegmental.

Suprasegmentais
Uma conseqncia principal da coarticulao que as caractersticas acsticas e articulatrias dos
elementos fonticos so afetados pelos elementos circundantes. Portanto, concesses devem sempre ser
feitas para efeitos contextuais. As descries acsticas oferecidas neste captulo no do conta de todas as
variaes coarticulatrias na fala, que so numerosas demais para resumir brevemente. As propriedades
acsticas para qualquer elemento dado depender de um nmero de fatores, incluindo os associados com
contexto fontico, falante, estilo de fala (ex.: casual versus formal), taxa de elocuo, dialeto e situao.
Um falante pode ajustar os padres de fala de diversas formas e para vrios propsitos. Poucas
investigaes sistemticas tm sido conduzidas para mostrar a natureza dessas variaes. Alguns
comentrios muito breves sero dados aqui sobre alguns fatores selecionados e seus efeitos acsticos. Os
comentrios so arranjados sob os nomes de fala clara, prosdia (entonao) e taxa de elocuo. Essas so
propriedades suprasegmentais da fala no sentido de que elas tipicamente tm efeitos que so expressados
alm de fronteiras segmentais. Freqentemente, os traos suprasegmentais so descritos em termos de
unidades maiores do que os segmentos, por exemplo, slabas, sintagmas ou grupos de respirao. No
queremos dizer, no entanto, que propriedades suprasegmentais no tenham efeitos segmentais.

Fala Clara
Um fator a diferena entre fala clara (fala produzida de maneira que seja altamente inteligvel) e fala
conversacional (em que a clareza pode ser comprometida). A Figura 7-2 mostra uma comparao
espectrogrfica da fala clara e da fala conversacional. Comparada fala conversacional, a fala clara (1)
mais lenta (por conter pausas mais longas entre palavras e alongamento de alguns sons da fala), (2) mais
apta para evitar formas modificadas ou reduzidas de segmentos consonantais e voclicos, e (3)
caracterizada por uma maior intensidade RMS de sons obstruentes, especificamente as consoantes
oclusivas (Picheny, Durlach, & Braida, 1985, 1986, 1989). Quando falantes fazem um esforo para
serem facilmente entendidos, eles modificam sua articulao para tornar a fala mais lenta e mais distintiva
acusticamente. Na fala conversacional, as vogais so freqentemente modificadas ou reduzidas, perdendo
assim algumas de suas distintividades acsticas. Semelhantemente, as oclusivas que ocorrem em posio
final de palavra na conversao freqentemente no so soltas, de modo que a pista de exploso no est
disponvel para os ouvintes. Entretanto, na fala clara, as vogais provavelmente no so modificadas ou
reduzidas, e as consoantes oclusivas (e consoantes em geral) tendem a ser soltas.
Figura 7.2. Comparao espectrogrfica da fala conversacional (A) com a fala clara (B). Ambos espectrogramas so para a
sentena, We show speech here.

Surge uma questo: As diferenas acsticas entre fala clara e conversacional tm implicaes para a
compreenso das inteligibilidades entre falantes individuais? Pesquisas recentes indicam uma resposta
afirmativa. Bond e Moore (1994) estudaram as diferenas acstico-fonticas entre um falante com uma
inteligibilidade relativamente alta e dois falantes com inteligibilidade relativamente baixa. O falante com
alta inteligibilidade tinha muitas propriedades acsticas que foram previamente descritas na fala clara.
Bradlow, Torretta e Pisoni (1996) estudaram tanto diferenas globais quanto finas entre falantes,
medida que essas diferenas se correlacionaram com diferenas entre falantes em inteligibilidade. Eles
concluram que caractersticas globais no se correlacionavam fortemente com inteligibilidade, mas
caractersticas finas sim. O perfil de um falante altamente inteligvel foi o que produzia sentenas com
uma extenso relativamente grande de f0, um espao voclico relativamente expandido que inclui uma
variao de F1 substancial, uma articulao precisa de vogais extremas (point), e uma alta preciso de
organizao temporal intersegmental. Parece, ento, que h uma ligao importante entre duas

abordagens gerais para o estudo das diferenas de inteligibilidade. Essas diferenas acsticas que do
conta de diferenas de inteligibilidade entre fala clara e conversacional so amplamente congruentes com
as diferenas entre falantes que tm diferenas inerentes de inteligibilidade.
Lindblom (1990) props que falantes variam sua sada de fala ao longo de um contnuo de hipofala para
hiperfala (a hiptese H&H). Essa hiptese baseada na idia de que falantes se adaptam a vrias
circunstncias de comunicao, em efeito acertando suas produes de fala para fatores comunicativos e
situacionais. Lindblom cita evidncia de que a fala clara (hiperfala na hiptese H&H) no
simplesmente fala alta; ela envolve uma reorganizao articulatria (Moon & Lindblom, 1989). Adams
(1990), entretanto, concluiu a partir de um estudo de micro-feixes de raios-x dos movimentos da fala que
mudanas na clareza da fala no refletia uma reorganizao do controle motor da fala. As mudanas que
Adams de fato observou como aumentos no deslocamento mximo e velocidade de pico dos movimentos
articulatrios, ocorreram para manter um quociente fixo de velocidade/deslocamento.
Prosdia
Imagine de quantas maneiras um falante pode produzir a simples sentena, I'll give it to you. Ela
poderia ser uma declarativa (um afirmao factual), uma pergunta (I'll give it to you?) ou uma forma
checada em que o falante requer mais informao, como em I'll give it to you PAUSA (on Monday?
Tuesday?). Ela pode cobrir uma grande gama de emoes, de uma oferta graciosa para uma
concordncia regarantida a um rancor, ou mesmo uma concesso amarga, por exemplo. A sentena pode
ser produzida com diferentes padres acentuais, atravs da colocao de nfase em palavras com letras
maisculas nas seguintes verses: I'LL give it to you. I'll GIVE it to you. I'll give it to YOU. Ela
tambm pode ser produzida com diferentes pausas internas, como uma pausa depois de it, ou uma pausa
depois de to. Todas essas modificaes caem na categoria de prosdia. Para os propsitos deste livro,
prosdia ser definida como os traos suprasegmentais da fala que so compostos pelos parmetros de
freqncia fundamental (percebida basicamente como tom vocal), intensidade (percebida basicamente
como altura) e durao (percebida basicamente como comprimento). O termo suprasegmental indica que
os fenmenos de interesse no esto confinados a segmentos fonticos. Na verdade, eles so
freqentemente observados sobre intervalos muito mais amplos slabas, palavras, sintagmas, sentenas
e at mesmo discursos.

O termo prosdia no facilmente definido de forma que concorde com tudo que tem sido escrito sobre
ele. Definies discordam em alguns aspectos, de modo que o leitor deve ser cauteloso na aplicao de
uma definio a diferentes escritas sobre o tema. Um desacordo principal com o par de termos, prosdia
e entonao. Alguns escritores os tomam como sinnimos, enquanto outros marcam uma importante
distino entre eles. Ns seguimos o ponto de vista de Johns-Lewis (1986) ao considerar a entonao
como uma parte da prosdia. A entonao similar prosdia, pois seus parmetros so freqncia
vocal, intensidade e durao, mas a entonao se refere a uma faixa mais estreita de fenmenos,
geralmente aos padres de subidas e descidas de tom e aos padres de acento em uma dada lngua. A
prosdia inclui esses efeitos, mas tambm incorpora tempo (pausa e alongamento), esforo vocal, altura e
outros fenmenos. Alguns escritores incluem taxa de elocuo como uma parte do tempo, e, portanto,
como uma parte da prosdia. Por serem esses termos definidos diferentemente por diferentes autores,
deve-se tomar cuidado na comparao de diferentes fontes de informao.

O propsito aqui no fornecer uma definio rigorosa e compreensiva de prosdia e seus conceitos
relacionados. Essa uma questo de intenso debate sobre teoria lingstica e vai alm do modesto escopo
deste captulo. Ao invs disso, o propsito simplesmente resumir os correlatos acsticos de fenmenos
prosdicos bsicos: freqncia fundamental, intensidade e durao de voz. A medio de todos os trs
parmetros foi discutida no Captulo 3. As formas em que esses parmetros so regulados determinaro
como a sentena, I'll give it to you toma forma acstica e percebida. Esses parmetros se auto
influenciam de forma complicada; ns esboaremos uns poucos efeitos prosdicos bsicos sem tentar
descrever detalhadamente suas interaes.
Pode ser til imaginar a prosdia em mbitos gerais e ento prosseguir para uma discusso de alguns de
seus traos detalhados. A prosdia tem sido descrita com relao a trs tipos gerais de fenmenos da
linguagem: acento frasal, pistas de fronteira e metro (Gerken & McGregor, 1998). Essas classes de
prosdia so usadas aqui para introduzir as questes gerais da descrio e anlise prosdicas.
Acento frasal o fenmeno de proeminncia lexical em um sintagma, ou seja, uma palavra em um grupo
de palavras considerada como mais proeminente, mais saliente ou mais acentuada. Se considerarmos
qualquer agrupamento de palavras, um falante usualmente colocar mais proeminncia em uma palavra
comparada a outras. Poderamos tentar um simples experimento em que se pedem a falantes que leiam
um sintagma curto ou uma sentena impressa em um carto (ex.: o sintagma, I put the fork and spoon on
the plate). Oua s vrias produes. Podemos contar qual palavra (ou palavras) foi dada proeminncia
por um falante especfico? Com relao ao acento lexical, muitos autores distinguem acento de nfase.
Acento considerado como um trao abstrato lexical, enquanto o nfase um trao fontico com
correlatos na produo, acstica e percepo.

Pistas de fronteira so pausas, mudanas de durao ou ajustes de tom, os quais marcam finais de
unidades lingsticas. Falantes podem usar pistas de fronteira para marcar grandes estruturas lingsticas e
dar forma a uma conversao ou uma amostra de leitura. Um importante exemplo o alongamento em
final de frases, em que uma palavra ou slaba que precede o fim de uma unidade sinttica maior
alongada. O alongamento comum para a ltima palavra de uma sentena, mas tambm ocorre para a
ltima palavra de um sintagma dentro de uma sentena maior. Por exemplo, as barras transversais na
seguinte sentena indicam quebras sintticas maiores (uma barra para uma fronteira sintagmtica e duas
para uma fronteira frasal) e as palavras em negrito sero tipicamente alongadas: I saw the sign/ that was
on the wall//. Uma variedade de outras pistas de fronteira so discutidas mais tarde neste captulo.
Metro (ou ritmo) o padro de slabas acentuadas e tonas para palavras e frases. Assume-se que, no
ingls americano, slabas usualmente tm uma alternncia forte-fraco (SW, na sigla em ingls), e essa
alternncia d um ritmo especfico linguagem. O padro SW uma tendncia geral e no deve ser
esperada de ocorrer sem violao. Ela ligada a uma unidade acentual chamada de p, que um par
silbico SW.
Esses fenmenos so interrelacionados, mas podemos dizer que metro define o fluxo rtmico de um
enunciado, colocando suas slabas juntas em uma seqncia alternante forte-fraco. Essa seqncia
interrompida ou modulada pelas pistas de fronteira (efeitos de quina) nos finais das unidades lingsticas,
especialmente sintagmas ou sentenas. Em um dado sintagma, o falante pode escolher uma palavra para
receber proeminncia especial e, portanto, atribui um padro acentual frasal. Imagine os diferentes
padres de acento frasal que podem ser dados seguinte seqncia.
CV CVC CV CV CVC
my dog saw the cat

CV CV CVC
at the door

Slabas
Antes de prosseguir para uma discusso mais detalhada de prosdia, devemos tomar um momento para
discutir a slaba, pois esta unidade bastante proeminente em muitas abordagens terica e analticas da
prosdia. Na discusso anterior, e na maior parte da que veremos a seguir, a slaba tida como uma
unidade relevante para a compreenso da prosdia. O que exatamente uma slaba? Handel (1989)
oferece duas definies. Primeiramente, uma slaba pode ser definida fisicamente como um pico de
sonoridade ou de altura circundado por segmentos com valores de sonoridade progressivamente
diminudos (Selkirk, 1984). Com esta definio, deveria ser possvel determinar slabas bem facilmente
de uma anlise da energia sonora (como o envelope de amplitude RMS); entretanto, o procedimento no
sempre direto. Em segundo lugar, uma slaba pode ser definida fonologicamente como uma combinao
de fonemas com um centro voclico ligado por uma consoante permitida ou uma combinao de
consoantes (O'Connor & Trim, 1953). Obviamente, s vezes no h consoantes. Outro problema que
algumas consoantes parecem ambissilbicas, ou seja, pertencem a slabas em ambos os lados da
consoante.
Em outra abordagem para definio da slaba, Hayes (1984), ao escrever sobre mtrica e teoria
fonolgica, afirma que syllables correspond one-to-one with terminal nodes of the metrical pattern
[slabas correspondem uma-a-uma com ns terminais do padro mtrico]. Esta idia ilustrada na Figura
7-3. Com essa definio, slabas so um conceito mtrico e so, portanto, fundamentais para a descrio
prosdica da linguagem.
Figura 7.3. Um modelo de estrutura silbica. A slaba se divide em ataque e rima, com a ltima se dividindo em ncleo e coda.
Vrios exemplos de slabas individuais so mostradas ortograficamente no fundo da figura. Tanto o ataque quanto a coda
podem ser nulos, como nas palavras on e no.

Acento frasal
Uma forma de estudar prosdia considerar sua forma em vrios nveis de estrutura lingstica ou
comunicativa. No nvel do discurso, por exemplo, nova, em oposio a dada, informao realada
prosodicamente. Behne (1989) mostrou que em um mini-discurso como:
"Someone painted the fence."
"Who painted the fence?"
"Pete painted the fence."
A nova informao (Pete no exemplo acima) realizada mais longa e com freqncia fundamental mais
alta. Ela tambm mostrou que as mesmas pistas so dispostas de maneira um pouco diferente em francs.
As pistas prosdicas variam entre lnguas, assim como as pistas segmentais. O ponto principal para os
presentes propsitos o fato de que falantes e ouvintes sabem os meios pelos quais informaes novas
podem ser distinguidas da informao dada (prvia).
Outro efeito do discurso na prosdia o acento contrastivo, que pode ocorrer em quase qualquer palavra,
sintagma ou sentena que o falante considera contradizer ou contrastar com uma que foi previamente dita
ou implicada no discurso. Por exemplo, diz-se, I'll GIVE it to you quando se acredita que algum outro
verbo (como sell) foi incorretamente assumido pelo ouvinte.

Ainda outro aspecto do acento frasal pertence aos contrastes de acento lexical. O ingls tem muitos pares
substantivo/verbo como 'import versus im'port, em que o padro acentual o principal contraste falado.
Outro efeito lexical o padro em compostos versus em sintagmas. Por exemplo, o nome composto
'blackboard [quadro negro] contrasta com o sintagma nominal black 'board (quadro que negro). O
acento em ingls, seja contrastivo ou lexical, no meramente uma questo de intensidade, mas envolve
todos trs parmetros acsticos durao, intensidade e freqncia fundamental dos quais a durao
pode ser o mais saliente e confivel (Adams & Munro, 1978; Fry, 1955; Sluijter & van Heuven, 1996).
Embora a intensidade parea ser menos importante do que a freqncia fundamental ou a durao na
maioria dos estudos publicados, o esforo vocal pode ser uma pista que os ouvintes usam para identificar
slabas acentuadas. Uma pista acstica para o esforo vocal o balano espectral ou a quantidade relativa
de energia em freqncias altas (acima de 0,5 kHz) versus freqncias baixas (Sluijter & van Heuven,
1996). Entretanto, o papel da inclinao espectral no acento est longe de ser clara. Embora Sluijter e van
Heuven (1996) tenham concludo que a inclinao um trao acstico importante nos contrastes de
acento lexical, van Kuijk e Boves (1999) acharam que a inclinao foi menos efetiva do que a durao ou
a energia nesses contrastes. van Kuijk e Boves determinaram que o melhor trao foi um que integrava
energia ao longo da durao de uma vogal.
O acento tambm afeta propriedades segmentais como articulao voclica e consonantal (Kent &
Netsell, 1971; de Jong, 1991). Os segmentos nas slabas acentuadas tendem a ter movimentos
articulatrios mais amplos do que em slabas tonas. De certo modo, os movimentos nas slabas
acentuadas so mais contrastivos, e essa contrastividade tambm percebida nos padres acsticos da
fala. Assim, uma vogal em uma slaba acentuada usualmente tem um padro formntico distintivo, ou
seja, um padro que se parece com o padro alvo presumido para a vogal como poderia ser definido em
uma produo isolada. A distintividade acstica usualmente decresce em slabas tonas.
Algumas abordagens lingsticas distinguem tipos de efeitos acentuais como acento e proeminncia
(Lehiste, 1970); entretanto, uma teoria unificadora (Beckman, 1986; Beckman & Edwards, 1991) props
uma representao em quatro nveis:
Nvel 1: slabas com ncleos reduzidos, como a segunda slaba de vita.
Nvel 2: slabas semelhantes s acima, exceto por possurem vogais plenas (ex.: veto).
Nvel 3: slabas podem ser dadas seletivamente mais acento atribuindo-se a elas um acento tonal.
Nvel 4: slabas podem receber uma marcao chamada de acento nuclear (ou acento sintagmtico),
em que o o ltimo item acentuado em um agrupamento fonolgico assume o acento mais
proeminente.
Essa proposta ilustra a complexidade do acento, que pode envolver vrios fenmenos diferentes,
interativos. Consideremos um falante que quer colocar um acento tonal na palavra tuba. O acento no
pode ser colocado na segunda slaba, que um ncleo reduzido. Em vez disso, o acento deve ser colocado
na slaba acentuada. Dessa forma, os vrios nveis da representao acentual podem interagir sem destruir
os padres fonolgicos essenciais.

Pistas de fronteira prosdica

A prosdia exerce papeis essenciais tambm na sintaxe. No nvel sinttico, encontramos fenmenos de
juntura e pausa marcando unidades com mltiplas palavas. Um dos mais importantes e mais conhecidos
desses fenmenos em ingls o do alongamento em final de frase, em que a a ltima slaba acentuvel
em um sintagma ou uma frase sinttica maior alongada. Por exemplo, se contrastarmos as duas
sentenas,

1. Grapes, melons, and apples are my favorite fruits.


2. Apples, grapes, and melons are my favorite fruits.
a primeira slaba de apples ser mais longa em (1) do que em (2), pois a primeira est no fim do sintagma
nominal sujeito. (Embora a palavra apples contenha duas slabas, apenas a primeira pode ser acentuada.)
Em um grau at mesmo maior, fruits ser mais longa em ambas sentenas do que seria se estivesse no
meio de uma sentena. Klatt (1976) apresenta uma pesquisa clssica sobre isso e outros fenmenos
relacionados que determinam duraes de elementos de fala. Read e Schreiber (1982) mostraram que os
ouvintes usam alongamento em final de frase para reconhecer a estrutura de (ou seja, fazer anlise sinttica)
de sentenas faladas. Eles argumentaram que crianas confiam mais nesta pista prosdica do que adultos, e,
na verdade, que a prosdia fornece o aprendiz de lngua com um ponto de partida acessvel para aprender as
complexas estruturas sintticas da linguagem.
Tambm na sintaxe, o contorno de freqncia fundamental tipicamente declina entre sentenas ou
unidades comparveis. A origem, natureza e medio dessa inclinao da freqncia fundamental so os
temas do argumento (Cohen, Collier, & t'Hart, 1982). Uma viso que a declinao linear a
freqncia fundamental cai gradual e linearmente ao longo de uma sentena (Maeda, 1976; Sorensen &
Cooper, 1980; Thorsen, 1985). Esse padro freqentemente descrito como uma propriedade universal
da linguagem falada. Outros escritores questionam a hiptese de declinao linear, especialmente para a
fala espontnea (Lieberman et al., 1985). Lieberman (1967) props uma teoria de entonao de grupo
respiratrio, em que a variao permitida na parte no terminal do contorno de freqncia fundamental. Ou
seja, se uma sentena declarativa divida em partes no terminais e terminais, a primeira pode tomar vrias
formas, enquanto a ltima mostra tipicamente uma queda rpida na freqncia fundamental. Suporte para esta
proposta vem de estudos que mostram que uma pista acstica importante a queda na freqncia fundamental
e na intensidade no fim de um grupo respiratrio (Landahl, 1980; Lieberman & Tseng, 1981; Lieberman et
al, 1985). Suporte adicional para esta viso mais flexvel da entonao foi relado por Umeda (1982), que
descreveu a declinao como dependente do contexto: o padro de freqncia fundamental se torna mais
complexo medida que a complexidade da informao contextual aumenta.
A queda de f0 aparece como um inclinao descendente do contorno da freqncia fundamental. Tm sido
observado que as diferenas entre as freqncias de incio e sada so quase constantes, independente da
durao do enunciado. Portanto, a taxa (r) de declinao se torna maior com o comprimento do enunciado
decrescente. Maeda (1976) computou r como segue:
r = f / t,
onde f a declinao de f0 mdia para um falante individual (cerca de 20-30 Hz para homens).
A regra da linha do topo assume uma inclinao negativa de picos de f0 sobre o tempo e usada
primariamente para predizer um ou mais valores de f0 intermedirios aos valores iniciais e finais. Um

efeito chamado de reincio de f0 ocorre em um pico de f0 observado que maior do que o pico que o
precede. Para que o reincio ocorra:
a declinao de f0 deve estar presente ante e depois do reincio; e
o reincio deve estar entre sentenas ou entre fronteiras de oraes em um enunciado multi-oraes.
O efeito P1 uma propriedade de f0 que lida com a extenso geral de uma sentena quando se programa o
primeiro pico de f0; ou seja, sentenas mais longas tm maiores valores de P1, de modo que a inclinao
descendente permanece bastante constante em sentenas com uma nica orao. O maior valor de P1 para
sentenas mais longas permite ao falante uma extenso adequada de valores de f0.
A queda de f0 em final de sentena ou alongamento em final de sentena se refere maior queda de f0 em
uma dada palavra ocorrente em posio final na sentena. Isso marca o fim de um enunciado quedas
menores precedendo-o assinalam que o falante pretende continuar o enunciado.
Pistas de fronteira so tambm chamadas efeitos de quina, que so assimetrias na forma fontica que
ocorrem entre posies internas e nos cantos de domnios prosdicos, ou seja, um segmento assume
diferentes caractersticas em posio interna versus de quina. Em geral, pistas acsticas para segmentos
so aumentadas nos cantos desses domnios. Os aumentos tomam a forma de alongamento de segmentos
ou pausas (Beckman & Edwards, 1991; de Pijper & Sanderman, 1994; Klatt, 1975b, 1976; Oiler, 1973;
Wight-man et al., 1992), fortalecimento (Fourgeron & Keating, 1997), alternncia do grau de sobreposio
de segmentos adjacentes (Byrd, 1996; Byrd & Saltzman, 1998), e a probabilidade de glotalizao das vogais
em incio de palavra (Dilley Shattuck-Hufnagel, & Ostendorf, 1996). Esses efeitos podem ser relacionados
pontuao oral, pois ajudam o ouvinte determinar as fronteiras sintagmticas e frasais que so
freqentemente representadas por vrgulas, ponto e vrgulas, e outras marcas de pontuao no texto escrito.
A salincia perceptual dessas pistas foi estudada por de Pijper e Sanderman (1994), que se referiram ao
seus efeitos coletivos como fora de fronteira perceptual. Seus experimentos mostraram que ouvintes no
treinados podiam julgar confiavelmente fronteiras prosdicas mesmo quando contedos lexicais dos
enunciados foram tornados irreconhecveis. Parece que fronteiras prosdicas so bastante salientes e
podem ser muito teis na compreenso do discurso falado.

Mtrica (Ritmo)
freqentemente assumido que a fala tem uma qualidade rtmica. Como notado anteriormente neste
captulo, o ritmo um componente da prosdia da linguagem. O ritmo essencialmente notado na
recitao de versos poticos, mas mesmo a fala conversacional comum parece ter um ritmo, e, em um
certo grau, lnguas diferentes possuem ritmos diferentes. Definido de maneira simples, o ritmo a
distribuio de vrios nveis de acento entre uma srie de slabas (Kent, Adams, & Turner, 1996). Essa
definio de ritmo na fala est de acordo com uma definio mais geral de comportamento rtmico em
que experience of rhythm involves movement, regularity, grouping, and yet accentuation and
differentiation (Handel, 1989, p. 384) [a experincia do ritmo envolve movimento, regularidade,
agrupamento e, ainda, acentuao e diferenciao]. No cerne da questo do ritmo na fala est uma
seqncia de unidades (presumivelmente slabas) que se juntam em um padro acentual global que pode
ser analisado como nveis de acento atribudos a unidades individuais.
O ritmo da fala pode ser definido de duas formas gerais que carregam implicaes bastante diferentes
para o estudo emprico (Guaitella, 1999). Primeiramente, o ritmo pode ser definido metricamente, por

exemplo, como an assimilation tendency involving the regulation of intervals (Guaitella, 1999, p. 509)
[tendncia de assimilao envolvendo a regulao dos intervalos]. O conceito de isocronia (intervalos
igualmente espaados) um exemplo dessa abordagem mtrica. Em segundo lugar, o ritmo pode ser
definido para enfatizar uma tendncia dissimilante sobre os eventos da fala. Guaitella explica a diferena
na abordagem da seguinte forma: Metric analysis is based on the premise that a temporal continuum can
be analyzed by quantification, while rhythmic analysis approaches temporal organization through the
mechanisms of perception (p. 509) [A anlise mtrica baseada na premissa de que um contnuo
temporal pode ser analisado por quantificao, enquanto a anlise rtmica aborda a organizao temporal
atravs de mecanismos da percepo]. Um certa tenso existe entre as abordagens mtricas e as rtmicas,
pois elas no so facilmente sintetizadas em uma anlise comum do ritmo. Em uma anlise de oito
lnguas, Ramus, Nespor e Mehler (1999) concluram que tipos de ritmo intuitivo refletem propriedades
fonolgicas especficas, e essas, em contrapartida, so associadas com traos acsticos/fonticos da fala.
Talvez uma abordagem deste tipo ser til para estabelecer os correlatos acsticos do ritmo entre
diferentes lnguas. Deve-se enfatizar tambm que o ritmo relacional, no sentido de que o ritmo pode se
aplicar a diferentes taxas de produo, da mesma forma que a mesma melodia pode se aplicar a letras
cantadas em taxas diferentes.

Para tornar as coisas bem simples, a mtrica do ingls americano pode ser descrita como um padro
alternante de slabas fortes e fracas (SW, na slaba em ingls). Essa simples abordagem tem tanta adequao
descritiva que tomada como um ponto de partida conveniente na anlise da mtrica ou ritmo. Se uma
estrutura rtmica de slabas SW se aplica ao ingls americano, ento, pode-se esperar que o intervalo entre
duas slabas acentuadas (o p mtrico) seja bastante uniforme. Essa proposta foi avaliada em vrios estudos
(Bolinger, 1965; Hoequist, 1983; Nakatani, O'Connor, & Aston, 1981). Embora os resultados no sejam
convincentes, eles fornecem pelo menos uma fraca evidncia para a constncia (isocronicidade) em alguns
tipos de ps mtricos. Mas, como explicado anteriormente, o ritmo pode ser um fenmeno perceptual que
no est fortemente amarrado s medidas temporais reais do sinal da fala. Outra abordagem baseada na
teoria da fonologia mtrica (Selkirk, 1984). A idia que, no esforo de manter a constncia rtmica, os
falantes manipulam a colocao do acento para evitar seqncias de slabas acentuadas adjacentes (ex.: SS)
ou slabas tonas adjacentes (ex.: WW). Presumivelmente, os falantes alternam entre slabas S e W. Um
teste desta hiptese determinar se h uma mudana de acento silbico em frases onde o choque acentual
(como duas slabas adjacentes de forte acento) ocorre. Se a hiptese de Selkirk verdadeira, os falantes
deveriam tentar ajustar o padro mtrico da segunda slaba acentuada. Essa hiptese foi avaliada por Cooper
e Eady (1986) e Kelly e Block (1988). Cooper e Eady mediram a durao e a mudana de tom associados
com o choque acentual, mas no observaram uma reduo acstica no acento (durao e tom reduzidos)
para ambas as slabas do par em choque acentual. Kelly e Bock (1988), em um experimento perceptual,
concluram que os falantes tendem de fato a mudar os ps mtricos, de modo a impor um ritmo acentual
alternante. necessrio dizer que a pesquisa continua para a evidncia do padro SW no ingls americano.

Juntando tudo: O grande quadro da prosdia


Para convenincia de discusso, a informao anterior sobre prosdia foi descrita em relao s trs
categorias gerais de acento frasal, pistas de fronteira e mtrica. Aos efeitos prosdicos nesses nveis de
descrio lingstica formal, poderamos acrescentar padres sociolingsticos, como os de dialetos
geogrficos e sociais. Por exemplo, uma pronncia britnia de Are you going pode ter tom plano nas
duas primeiras palavras, com acento tonal em go, enquanto uma pronncia americana pode ter tom em
subida nas trs primeiras slabas, seguidas por uma subida curta em -ing. Como muitas dessas diferenas
transatlnticas, essa pode covariar com o status social, real ou desejado. Sentimentos (atitude,

compromisso, humor, emoo) tambm podem fortemente afetar a prosdia. Um exemplo a ocorrncia
de entonao em subida no que entendido como um enunciado declarativo, um padro que pode sugerir
uma perda de certeza, um desejo para elicitar uma resposta do ouvinte, ou at mesmo um status social
mais baixo do que o ouvinte de algum. Mais ser dito sobre sentimentos mais tarde neste captulo.
A questo aqui simplesmente que a prosdia mistura vrios tipos diferentes de informao que foram
estudadas na lingstica e na fontica experimental. Quando contemplamos as interaes possveis de
todas essas (e mais) fontes de variao prosdica, podemos facilmente entender porque a prosdia
geralmente entendida menos bem do que a estrutura segmental. Podemos descrever bastante bem (embora
no completamente) a estrutura formntica da vogal [a], mas temos mal comeado a descrever as
diferenas prosdicas entre usar aquela vogal com uma exclamao de descoberta momentnea (Ah!) e
como uma interjeio do ouvinte, avisando o falante que ele parece estar prestes a dizer algo controverso
ou ofensivo. Temos ainda menos comparado sistematicamente os usos da prosdia entre as lnguas.
O que claro, entretanto, que a prosdia no meramente a decorao meldica e rtmica da
linguagem. verdade que a fala arrtmica, montona pode ser entendida se outras pistas estiverem
intactas, mas igualmente verdade que segmentos podem ser apagados sem afetar a inteligibilidade (Warren, 1970, 1976) e que palavras intactas extradas da conversao podem ser ininteligveis quando
apresentadas isoladamente (Craig & Kim, 1990). Essas observaes meramente mostram que nenhum
aspecto da fala essencial, dada a redundncia do todo. Mais adequadamente, a prosdia pode ser entendida
como o tecido da fala, dentro da qual os segmentos so os pontos ou fibras individuais. Os padres
prosdicos abarcam os nveis lingsticos, colocando juntas as muitas influncias que constituem a rica
tecelagem da linguagem em contexto. A prosdia serve funes essenciais, s vezes sutis, na comunicao e
suas bases acsticas no so menos importantes no sinal da fala do que as que distinguem segmentos.
Cutler, Dahan, e VanDonselaar (1997) discutiram o papel da prosdia na compreenso da linguagem falada,
e esse artigo um resumo excelente das formas em que os ouvintes confiam em informao prosdica para
entender uma mensagem falada.

Representaes da prosdia
H muitas abordagens diferentes para o problema da representao da prosdia, mas selecionamos uma
para discutir aqui, pois ela pode ser validada por mtodos acsticos. A abordagem chamada de
estilizao de cpia fechada, que definida como a synthetic approximation of the natural course of
pitch, meeting two criteria: it should be perceptually indistinguishable from the original, and it should
contain the smallest possible number of straight-line segments with which this perceptual equality can be
achieved (Nooteboom, 1997, p. 646) [uma aproximao sinttica do curso natural do tom, encontrando
dois critrios: ele deve ser perceptualmente indistinguvel do original, e conter o menor nmero possvel
de segmentos em linha reta com o qual essa igualdade perceptual possa ser alcanada]. Embora no seja
absolutamente necessrio usar linhas retas, essa abordagem oferece uma vantagem simplificada para a
descrio.
Como sabemos que este mtodo vlido? Evidncias confirmadoras vem do uso de tcnicas de anlise
por sntese. A anlise por sntese determina como um padro de fala composto pela gerao do padro
atravs da fala sintetizada. Estudos mostram que recolocar o curso do tom original de uma sentena com
uma artificial derivada atravs de anlise de cpia fechada pode dar um resultado altamente satisfatrio,
mesmo quando o padro tonal simplificado como uma srie de linhas retas. Isso pode ser feito com a
ressntese por anlise de LPC ou um mtodo conhecido como Sobreposio Sncrona do Tom e Mtodo
de Adio (PSOLA, na sigla em ingls) (Nooteboom, 1997).

As duas prximas sees lidam com o que muitos consideram ser aspectos adicionais da prosdia: taxa
de elocuo e esforo/altura vocal. Esses efeitos so resumidos sob uma seo separada primariamente
para facilidade de escrita e no por sugerir que a taxa de elocuo ou o esforo e a altura vocais sejam
distintos da prosdia.

Taxa de Elocuo (Tempo)


Obviamente, quando uma pessoa fala mais rpido, a durao total do enunciado diminui. Entretanto, o
que no claro como a alterao afeta os vrios componentes do enunciado, incluindo vogais versus
consoantes, slabas acentuadas versus tonas, duraes dos movimentos versus duraes em estado
estacionrio. Parte da competncia de um falante a habilidade de produzir um enunciado em vrias
taxas, estendendo de muito lenta a moderada para muito rpida. Estudos acsticos de mudanas de taxa
revelam como falantes realizam variaes na taxa, como essas mudanas so assinaladas para os ouvintes,
e como essas alteraes afetam vrias classes de sons da fala.
medida que a taxa de elocuo aumenta, as duraes dos componentes da fala necessariamente ficam
menores. O que no to bvia a maneira na qual redues de durao so distribudas entre os
componentes. A reduo no constante. Geralmente, pausas e segmentos em estado estacionrio para as
vogais e consoantes tendem a ser mais sacrificados do que aspectos transicionais ou dinmicos do sinal da
fala. Entretanto, em taxas de elocuo muito rpidas, os segmentos e mesmo slabas tonas podem ser
apagados. As taxas rpidas tambm tem a ser acompanhadas por undershoot, como descrito no Captulo
4. Especificamente para as vogais, parece que a produo real pode se desviar da configurao especial
que ocorre para uma produo isolada do som.
Alguns exemplos das variaes da taxa de elocuo so mostrados na Figura 7-4, que contm
espectrogramas para taxas lentas e rpidas de fala para a sentena, It starts at six o'clock. A diferena na
durao total imediatamente evidente dos espectrogramas. A produo em taxa rpida leva apenas cerca
de metade da produo em taxa lenta. Outras diferenas podem ser detectadas atravs de um exame
cuidadoso das caractersticas espectrogrficas.
Figura 7.4. Espectrogramas da sentena It starts at six o'clock produzida em duas taxas: moderada e rpida.

As mudanas na taxa de elocuo tambm podem afetar um nmero de caractersticas fonticas da fala,
incluindo o apagamento real de segmentos ou mesmo slabas (Dalby, 1986). Tentativas de usar medidas
acsticas para estudar o efeito da taxa de elocuo obviamente devem ser usadas com reconhecimento de
mudanas na estrutura fontica do sinal de fala.
Devido ao fato de mudanas na taxa de elocuo poderem afetar a durao base dos segmentos,
importante sabermos como outros fenmenos relacionados durao, como alongamento em final de
frase e nfase contrastiva, se relacionam com variaes na taxa de elocuo. Um experimento de
Cummins (1999) mostrou que sobre uma gama ampla de taxas de elocuo, o alongamento em final de
frase e a nfase contrastiva se combinam aditivamente para determinar as duraes dos segmentos.

Esforo Vocal e Altura


Falantes podem facilmente ajustar o esforo vocal com o qual a fala produzida. Esses ajustes so
comumente usados para algumas expresses emocionais (ex.: raiva), para ser ouvidos sobre uma longa
distncia ou contra um ambiente ruidoso, ou para certos propsitos estilsticos. Pode parecer que o
esforo vocal, a altura e o nvel de presso sonora se referem ao mesmo fenmeno, mas, na verdade, eles
no so idnticos. Primeiramente, importante distinguir esforo vocal de altura. Traunmuller e Eriksson
(2000) definiram esforo vocal como the quantity that ordinary speakers vary when they adapt their speech
to the demands of increased or decreased communication distance (p. 3438) [a quantidade que falantes
comuns variam quando eles adaptam sua fala s demandas de distncia de comunicao aumentada ou
diminuda]. Ou seja, a maioria das variaes do esforo vocal ocorre quando os falantes se ajustam a
mudanas na distncia interlocutria, embora o esforo vocal possa ser usado para outros propsitos
notados anteriormente.
A altura definida como a percepo da magnitude ou fora de um som, e escalada de baixa a alta. A
unidade de autora o sone, definido como a altura de um tom de 1 kHz a 40 dB acima do limiar. O nvel
de altura de um som expresso em fons e numericamente igual ao nvel da presso sonora de um tom
de 1 kHz que julgado como igualmente alto. Embora o atributo perceptual de altura seja relacionado
especialmente intensidade ou nvel de presso sonora de um som, a altura tambm varia com a
freqncia e composio de sons (Beranek, 1988; Handel, 1989; Neuhoff, McBeath, & Wanzie, 1999).
Devido ao fato de a altura se relacionar bem diretamente com o nvel de presso sonora, pode parecer
intuitivo que falantes faam ajustes primrios na altura e no nvel de presso sonora quando eles precisam
ser ouvidos sobre distncias variadas de um ouvinte. Uma hiptese muito simples em relao a esse ponto
que falantes seguem a lei do quadrado inverso, que implica que os falantes aumentam ou diminuem sua
intensidade vocal em 6 dB para cada dobragem ou metade da distncia do ouvinte (Warren, 1968).
Entretanto, estudos subsequentes no confirmaram essa relao (Johnson et al., 1981; Markel, Prebor, &
Brandt, 1972; Michael, Siegel, & Pick, 1995).
Na verdade, estudos perceptuais recentes tm mostrado que o nvel de presso sonora (ou intensidade) no
exerce um papel principal nos julgamentos de esforo vocal (Traunmuller & Eriksson, 2000). Embora o
nvel de presso sonora possa mudar medida que os falantes ajustam seu esforo vocal, a relao no
invariante e pode ser muito menor do que prevista pela lei do quadrado inverso. As mudanas mais
consistentes que ocorrem com o aumento do esforo vocal so f0 aumentado (Rostolland, 1982;
Traunmuller & Eriksson, 2000), freqncias de formantes aumentadas, especialmente para Fl (Huber et al,
1999; Junqua, 1993; Lienard & Di Benedetto, 1999; Rostolland, 1982; Schulman, 1989; Traunmuller &
Eriksson, 2000), durao voclica aumentada (Bon-not & Chevrie-Muller, 1991; Fonagy & Fonagy, 1966),
e mudanas na nfase ou inclinao espectral (Traunmuller & Eriksson, 2000). O esforo vocal, ento,
associado com vrias possveis caractersticas acsticas, mas o nvel da presso sonora no a principal
delas.

Sentimento na Fala (Emoo)


Sentimento na fala considerado por alguns escritores como uma propriedade suprasegmental da fala,
mas outros o colocam em um domnio separado como paralingstica. Consideramos o sentimento como

um aspecto separado, embora em sua expresso ele compartilhe muitos atributos acsticos com os
suprasegmentais previamente discutidos. A personalidade de uma pessoa ou o estado emocional pode ser
determinado com algum grau dos padres da fala. Especificamente para pessoas que conhecemos bem
mas, s vezes, mesmo para completos estranhos podemos acessar as emoes que esto por trs de um
enunciado. Quais so as pistas pelas quais tomamos essas decises?
Vrios estudos mostram que a freqncia fundamental vocal e a taxa de elocuo esto associados com
variveis de personalidade como extroverso, afirmao, competncia ou atividade (Brown, Giles, &
Thakerar, 1985; Brown, Strong, & Rencher, 1974; Ziegler & Hartmann, 1996). Estudos da avaliao
perceptual de excurses de f0 mostram que taxas de vivacidade variam com funes de potncia da taxa
de elocuo e a magnitude das excurses de f0 (Traunmuller & Eriksson, 1995). Um falante mais ativo
tende a usar uma taxa mais rpida e tm variaes substanciais em f0.
Devido ao fato de ouvintes poderem julgar as emoes de um falante em taxas bem maiores do que a
sorte (Bachorowski, 1999), pode-se supor que as emoes tm correlatos acsticos especficos. Vrios
estudos tm sido realizados para identificar esses correlatos, mas no fcil desenhar um conjunto simples
de concluses, parcialmente por causa das diferenas em procedimentos. Murray e Arnott (1993) revisaram
a literatura sobre os correlatos da fala de estados emocionais. Seus maiores achados so resumidos na
Tabela 7-1. Estudos mais recentes examinaram a expresso emocional em diferentes tipos de material de
fala. Mesmo um enunciado de uma palavra pode carregar uma qualidade emocional, e essas simples
expresses vocais fornecem uma oportunidade de identificar correlatos acsticos do acento (Leinonen et al.,
1997). medida que os materias de fala se tornam mais complexos, diferentes combinaes de pistas
acsticas podem ser usadas. Sobin e Alpert (1999) concluram que, embora seja possvel um certo grau de
diferenciao acstica, as variveis acsticas clssicas podem no ser suficientes para identificar aqueles
fatores usados por decodificadores humanos de emoo na fala.
TABELA 7-1
Fala selecionada e correlatos de voz da emoo vocal humana. Baseado em dados de I.
R. Murray e J. L. Arnott (1993). Toward the simulation of emotion in synthetic
speech, Journal of the Acoustical Society of America, 93, 1097-1108.

RAIVA
TAXA DE
ELOCUO
MDIA DE
TOM
EXTENSO
TONAL
INTENSIDADE

levemente mais

rpida
muito mais
alta
muito
ampla
mais alta

FELICIDADE
mais rpida ou
mais lenta

muito
mais alta
muito mais

ampla
mais alta

TRISTEZA
levemente

mais
devagar
levemente mais
baixa
levemente mais
estreita
mais baixa
ressonante

MEDO
muito rpida
muito mais alta
muito ampla
normal

vozeamento
irregular

DESGOSTO

muito mais
devagar
muito mais
baixa
levemente
ampla
mais baixa

soprosa,
tom de peito

soprosa,
clangorosa

MUDANAS
DE TOM

abrupta, em
slabas suaves,
acentuadas

inflexes
em subida

inflexes
em descida

normal

ampla,
inflexes terminais
em descida

ARTICULAO

tensa

normal

indistinta

precisa

normal

QUALIDADE
DE VOZ

bufada,
tom de peito

A combinao de Informao Segmental e Suprasegmental


Como um exemplo da complexidade do sinal acstico medida que ele se relaciona com as vrias
fontes de informao da fala, consideremos a durao de um dado segmento fontico, como uma
vogal ou at mesmo uma pausa. Quais so os fatores que governam a durao? A seguinte lista uma
compilao de fatores elaborados em parte da informao apresentada neste e nos captulos anteriores.
1. Diferenas fonolgicas inerentes na durao voclica. Vogais curtas (relaxadas) e longas (tensas)
diferem em cerca de 40% na durao. Especialmente quando o padro formntico semelhante, essas
diferenas duracionais podem ser influenciadas no reconhecimento fontico.
2. Durao como uma pista para vozeamento em fricativas. Geralmente, duraes longas de rudo de
frico so associadas com cognatos desvozeados.
3. Durao como uma pista para distines fonticas baseadas no modo. A durao do rudo pode ser
uma pista significante para decises sobre se um som uma oclusiva, africada ou fricativa. A durao
do rudo aumenta entre as classes sonoras listadas.
4. Alongamento em final de frase. Palavras ou slabas so aumentadas quando ocorrem em final de
frase, tanto em suas fronteiras frasais internas quanto nos finais de sentena. O alongamento pode
ocorrer at mesmo para o item final em listas de palavras.
5. Efeitos relacionados ao acento. A durao um correlato de acento frasal, lexical ou enftico.
6. Durao voclica como uma pista para o vozeamento de uma consoante ps-voclica. As vogais
so mais longas precedendo consoantes vozeadas do que desvozeadas.
7. Encurtamento de elementos em encontros consonantais. Segmentos em encontros consonantais
tendem a ser encurtados relativo a suas duraes isoladas. H uma tendncia geral para duraes
segmentais diminurem medida que o nmero de slabas em uma palavra aumenta.
8. Informao nova versus dada. Informao nova em um discurso tipicamente associada com
alongamento das palavras relevantes.
9. Taxa de elocuo. medida que a taxa de elocuo aumenta, as duraes segmentais geralmente
decrescem. O efeito mais pronunciado para vogais e pausas.
10. Esforo vocal. O aumento do esforo vocal pode ser associado com o aumento da durao de
segmentos, especialmente vogais.
11. Emoo. Mudanas em emoo podem afetar as duraes segmentais junto com outras
propriedades acsticas do sinal.
Assim, o sinal acstico da fala reflete vrios diferentes nveis de informao que so integrados no ato de
falar. Esse um dos desafios e um dos potenciais da anlise acstica.

Captulo 8: Sntese de Fala


Propsitos e Aplicaes

Com alguns bilhes de pessoas no planeta que podem produzir fala natural mais ou menos fluentemente,
por que algum iria querer criar uma fala sintetizada? Essa questo parece especialmente pertinente
considerando-se a m qualidade de algumas tentativas anteriores de produo de fala sintetizada.
Entretanto, a fala sintetizada tem vrios bons usos, alguns dos quais so realmente bastante importantes, e
outros dos quais apenas comeamos a imaginar.

Brinquedos que Falam


Um dos primeiros usos amplamente conhecidos para a fala sintetizada foi em brinquedos e jogos, como o
Speak & Spelltm, que (em um de seus vrios modos) pronuncia palavras para uma criana soletrar em seu
teclado. Quando foi introduzido em 1978, esse brinquedo surpreendeu muitos cientistas da fala, bem
como competidores de mercado; poucas pessoas eram cientes de que a fala sintetizada de qualidade
comercial poderia ser produzida por um circuito integrado (um chip) de to baixo preo que poderia
estar no cerne de um brinquedo. A Industrial Research/Development selecionou a Speak & Spelltm como
um dos 100 mais importantes significantes produtos de 1979. Outro brinquedo, o Julie Toytm, estendeu o
uso da tecnologia de fala pela incorporao da sntese de fala, do reconhecimento de fala e de um
algoritmo de controle que gerenciava a fala e as funes de sensores do disco rgido, tudo isso em uma
boneca interativa vivaz. Outro brinquedo popular um animal virtual interativo chamado Furbytm. Este
brinquedo no apenas conversa (em furbs), mas parece gradualmente aprender palavras inglesas. Ele
tem um vocabulrio de mais de 800 palavras e frases. equipado com sensores para poder responder
luz, ao som e ao toque. Pode agitar as orelhas, piscar os olhos e mover a boca.
O potencial para brinquedos e jogos falantes agora limitado apenas por nossa imaginao. A fala
sintetizada facilmente incorporada em uma variedade de itens desenvolvidos para entretenimento e
recreao. Com a miniaturizao da tecnologia de fala, quase certo que uma variedade de brinquedos
sero equipados com a habilidade para produzir e reconhecer a fala.

Instruo de Leitura
Um passo curto de um brinquedo falante para soletradores jovens um processador de palavra que l o
que se escreve. A maioria dos professores de escola primria hoje encoraja as crianas a escrever
enquanto, ou mesmo antes, aprendem a ler. Nesse processo, as crianas freqentemente perguntam, O
que eu escrevi? Sob comando, um processor de palavra falante tenta dizer o que a criana escreveu. Esse
mesmo retorno pode ser til para escritores mais velhos tambm mesmo para adultos, e especialmente
para os deficientes visuais. Uma extenso dessa idia a mquina de ler, das quais um exemplo notvel
o Kurzweil Personal Reader, vendido pela Xerox Imaging Systems. Uma mquina de leitura, tambm
conhecida como um sistema texto-fala, liga um scanner que pode reconhecer caracteres impressos a um
sintetizador que os pega como entrada e produz fala como sada.

Ajudas de Comunicao para os No Vocais (Deficientes Vocais)


Nem todos podem falar fluentemente ou, at mesmo, no falar nada. Os que no desenvolveram ou
perderam a capacidade podem, no entanto, ser capazes de controlar um sintetizador de fala, que permite
uma interao com outras pessoas atravs da linguagem falada, face-a-face ou ao telefone. Essa

recolocao pode ser vital em um mundo no qual a maior parte da comunicao, incluindo as mais
urgentes, oral. Para uma reviso da sntese de fala como um auxlio, vejam Edwards (1991), que d
ateno especfica interface, ou seja, os modos nos quais uma pessoa pode controlar um sintetizador.
Edwards inclui vrios estudos de caso de dispositivos, bem como apndices listando equipamentos e
fabricantes. A sntese de fala uma tecnologia usada no campo dos sistemas de comunicao
aumentativos e assistivos.

Mquinas controladas por Voz


Em muitas situaes, os olhos e mos dos trabalhadores esto completamente ocupados; exemplos disso
so pilotos de avio durante decolagens e pousos, bem como trabalhadores de fbricas que esto
controlando uma mquina que demanda toda ateno. Em tais casos, mensagens do avio ou de outra
mquina, em vez de mais luzes, medidores e bipes, podem ser essenciais para transmitir uma mensagem
importante. Essas aplicaes no necessariamente requerem fala sintetizada; se as mensagens forem
relativamente poucas e breves, elas podem ser gravadas digitalmente e tocadas sob comando. Esta a
abordagem que companhias telefnicas usam hoje para responder pedidos de assistncia de listas ou
fornecer mensagens de erros. A mesma tcnica usada em sistemas para questes telefnicas sobre
extratos de banco, relatrios para o escritrio caseiro dos representantes de venda na estrada, e registro de
curso nas universidades. Quando as mensagens potenciais se tornam extremamente numerosas ou
imprevisveis (como no processamento de palavras), a fala gravada no mais vivel e a fala sintetizada
se torna necessria. Como sistemas para informao e controle se tornam mais complexos e a qualidade
da fala sintetizada aumenta, podemos nos achar ouvindo mais freqentemente a mquinas que conversam.

Sistemas de Comunicao Multilnguas


A comunicao multilngue por voz baseada em mquinas um objetivo desafiador, mas progressos
substanciais tm sido feitos para o desenvolvimento de sistemas que permitem ao falante de uma lngua
transmitir uma mensagem falada traduzida para um falante de outra lngua. Essa aplicao requer
reconhecimento automtico da fala (para representar a mensagem do emitente), traduo automtica (para
converter a mensagem de uma lngua para outra), e sntese de fala (para produzir a mensagem traduzida
na lngua do destinatrio).

Cincia da Fala
Apesar dessa lista crescente de aplicaes comerciais, o uso de fala sintetizada que mais importante para
a cincia da fala a checagem final de nossa anlise da fala. Na realidade, anlise e sntese so
freqentemente partes complementares pareadas de uma investigao. Se conclumos da anlise
espectrogrfica que um certo padro formntico crucial para a produo e compreenso de [Q], por
exemplo, o teste real daquela hiptese sintetizar aquele padro e ver se ele soa como [Q]. Depois do
desenvolvimento do espectrgrafo do som, um dos mais importantes passos na pesquisa moderna da fala
foi o desenvolvimento do sintetizador de playback de padres no Haskins Laboratories nos anos 1950.
Esse dispositivo era simplesmente o inverso de um espectrgrafo: dado um espectrograma como entrada,
ele produzia a fala correspondente como sada. Ou seja, ele escaneava um espectrograma e produzia som
nas freqncias e intensidades indicadas sobre o tempo. O que tornou o dispositivo to importante foi o
fato de que o padro espectrogrfico na entrada poderia ser desenhado mo em vez de impresso por um
espectrgrafo. Assim, os pesquisadores testaram a hiptese de que os dois ou trs primeiros formantes so

cruciais para a qualidade de vogais atravs do desenho apenas dos formantes e ouvindo a fala sintetizada
correspondente. Dessa forma, os pesquisadores descobriram a importncia de transies formnticas para
exprimir o ponto de articulao das consoantes oclusivas, por exemplo. Seria difcil testar essas idias
pela anlise da fala natural, pois eventos breves como transies formnticas no podem ser manipulados
separadamente das vogais s quais elas so anexadas. Quando ouvimos as transies formnticas
sozinhas, elas soam como chiados, e no consoantes oclusivas.
A sntese essencial no apenas em estudos do sinal de fala e de sua produo, mas tambm em estudos
de como as pessoas percebem a fala. Por exemplo, como vimos, h vrias diferenas acsticas entre
oclusivas vozeadas e desvozeadas: na ocorrncia de aspirao, na durao da oclusiva e de uma vogal
anterior, na freqncia fundamental de uma vogal seguinte, e na ocorrncia de vozeamento durante o
fechamento, para citar alguns. Quais desses mais afeta a habilidade dos falantes para ouvir essa distino?
Qualquer uma delas necessria? Dificilmente podamos ter estudado essas questes sem a fala
sintetizada, porque no poderamos controlar essas caractersticas individualmente pela edio da fala
natural.
Na sntese moderna, podemos controlar quase qualquer caracterstica da fala considerada importante,
incluindo as qualidades da fonte de voz, bem como da articulao e ressonncia. Dada a rapidez com que
a mudana ocorre no sinal de fala, esse controle pode ser tedioso, mas o teste final de nosso
entendimento.

Mtodos de Sntese de Fala


O restante deste captulo descreve diferentes tipos de sntese de fala. A maioria desses so baseados em
modelos acsticos do sinal de fala e so mais comumente usados hoje. Pelo fato de muitos deles terem
sido implementados em microcomputadores comuns, qualquer um com um computador pessoal e algum
equipamento adicional pode fazer experimentos com a fala sintetizada. Esse fato certamente acelerou o
progresso no campo.
H duas formas principais de sintetizar uma forma de onda de fala: abordagens paramtricas e
abordagens concatenativas. A primeira uma estratgia baseada em regras que sintetiza a fala usando
tanto informao acstica (caractersticas de domnio temporal e de freqncias dos sons da fala) quanto
articulatria (propriedades fisiolgicas dos sons da fala). A informao acstico-fontica resumida nos
Captulos 4, 5, 6 e 7 o tipo de conhecimento acstico necessrio para snteses baseadas em regra de
sucesso. A sntese paramtrica que se baseia na informao acstica chamada de sntese baseada no
sinal (ascendente), pois especifica propriedades acsticas da fala como formantes, duraes de segmentos
e tipos de rudo para fricativas. Este tipo de sntese s vezes chamada de anlogo terminal, pois tenta
produzir um anlogo do nvel terminal (acstico) da fala e presta pouca ou nenhuma ateno aos aspectos
articulatrios da fala. Aplicada sntese de uma vogal individual, como o [I] em he, a sntese baseada no
sinal tipicamente define o som em termos de sua estrutura formntica, da durao de sua energia
peridica, e do padro de f0.
A outra abordagem paramtrica a sntese articulatria (descendente), que tenta modelar as propriedades
fsicas do trato vocal humano. A sntese articulatria tipicamente produz a fala com um conjunto de
parmetros que simula a articulao da fala humana. Para a vogal /i/, por exemplo, um sintetizador
articulatrio poderia especificar a posio da mandbula, a posio da lngua e a configurao da lngua.
A sntese articulatria cria fala a partir de um modelo do formato em mudana do trato vocal durante a

articulao. Este mtodo considerado por muitos como tendo o melhor potencial para a fala sintetizada
soar natural, pois incorpora as propriedades da produo da fala humana. Entretanto,
correspondentemente mais intricada e demandante do que a sntese baseada no sinal. Apenas
recentemente tornou-se possvel criar modelos computacionais da articulao que funcionam
relativamente rpidos. Os primeiros sintetizadores de fala geralmente usaram fonemas como unidades de
entrada, mas trabalhos recentes enfatizam gestos articulatrios, ou representaes abstratas de
movimentos. Esses gestos podem ser usados em uma representao fonolgica de um enunciado, de
modo que fonemas no so nem usados. Os gestos especificam os ajustes do trato vocal em um
sintetizador articulatrio. Por exemplo, a palavra had poderia ser representada com gestos para a abduo
das pregas vogais (para [h]), aduo vocal (para [ae] e [d]), avano da raiz da lngua (para [ae]), e
constrio coronal (para [d]). Esses gestos podem ser organizados em uma tabela chamada de pauta
gestual, que mostra a organizao temporal (e sobreposio) dos gestos composicionais. Notem que a
palavra hand usaria os mesmos gestos descritos para had, mas acrescentaria um gesto de abertura
velofarngea (para [n]) seguido de um gesto de fechamento velofarngeo (para [d]). Uma vantagem dessa
abordagem que os gestos sobrepostos refletiriam bastante naturalmente padres coarticulatrios da fala
natural. Se os gestos so prescritos para ter as caractersticas de organizao temporal da fala natural,
ento eles deveriam ser adequados para simular a dinmica da articulao de fala humana.
A sntese concatenativa cria a fala formando-a a partir de uma biblioteca de unidades pr-gravadas que
so reunidas para uma mensagem de fala desejada. O fonema uma unidade possvel. Afinal de contas,
dado que o ingls americano tem cerca de 45 fonemas, deve ser possvel produzir qualquer enunciado
pelo uso das combinaes certas de unidades to tamanho do fonema. Entretanto, revela-se que o fonema
pode ser problemtico como uma unidade de sntese, especialmente porque as transies de uma unidade
a outra so muito difceis de especificar. As transies refletem ambos ajustes coarticulatrios entre fones
adjacentes e fenmenos prosdicos como taxa de elocuo e padro acentual. A no ser que essas
questes sejam consideradas em detalhe, a fala sintetizada pode ser altamente artificial e mesmo difcil de
se entender.
A sntese concatenativa (tambm chamada de sntese de cpia) pode ser realizada com outras unidades,
como a slaba, o difone, a semisslaba ou at mesmo pedaos de forma de onda da fala. A slaba
discutida no Captulo 7. Para os nossos objetivos, suficiente notar que a slaba uma unidade atraente,
pois inclui em suas fronteiras um nmero de estados estacionrios e transies para fones individuais e
tambm pode ser combinada com outras slabas para formar palavras de comprimento variado. Pode
parecer que o nmero de slabas necessrio para sntese seria severamente amplo, dado que os fonemas do
ingls americano podem formar mais de 4 bilhes de seqncias arbitrrias de 1 a 6 membros. Mas o
nmero diminui rapidamente quando se considera a composio real de slabas admissveis e reais. Essas
so apenas cerca de 100.000 possveis (pronunciveis) palavras monossilbicas, e apenas um dcimo
dessas so palavras monossilbicas reais. Alm disso, as slabas diferem enormemente na freqncia de
ocorrncia. Dewey (1923), que analisou a freqncia de ocorrncia de diferentes unidades na fala
humana, relatou que as 12 slabas mais freqentemente usadas do conta de cerca de um quarto de nosso
comportamento verbal, que 70 diferentes slabas constituem metade de nossa fala, e que menos de 1.500
slabas so suficientes para cerca de 90% do que dizemos.
Os difones so produzidos pela diviso da forma de onda em unidades do tamanho do fone com cortes
feitos no meio (estado estacionrio) dos fones. Cada difone contm a transio entre dois fones. Por
exemplo, a palavra ballgame [b a l g eI m] teriam os constituintes difones [b-a], [a-l], [l-g], [g-eI] e [eIm]. O difone [b-a] poderia ser usado para qualquer palavra comeando com aquela combinao de fones
(ex.: box, bond, boss, bog). Em geral, relativamente fcil conectar estados estacionrios, que so os
pontos de juno na concatenao de difones. Pelo fato de difones inclurem transies, eles evitam
muitas das complexidades que confrontam a sntese baseada em regras com as unidades do tamanho do

fone. Aproximadamente 2.000 difones so necessrios para a sntese concatenativa do ingls americano.
Embora esse nmero seja consideravelmente maior do que o nmero de fonemas na linguagem, no de
forma alguma um nmero pesado para os computadores modernos.
A semisslaba semelhante ao difone pelo fato de incluir informao transicional dentro da unidade. As
semisslabas so obtidas pela diviso da onda de fala em segmentos silbicos, com cortes feitos no meio
das slabas. Por exemplo, a palavra streetlights consistiria dos disslabos [stri], [it], [laI], e [aIts]. O
nmero de semisslabas cerca do mesmo do nmero de difones. Uma vantagem para esta unidade que
ela inclui encontros consonantais tanto nas posies iniciais quanto nas posies finais de slaba. Ela
tambm representa efeitos coarticulatrios que ocorrem nas slabas.
H ainda outras possibilidades para unidades na sntese concatenativa. Uma usar unidades de diferentes
tamanhos em um sistema de sntese. Por exemplo, os difones podem ser usados como um tipo de unidade
padro, mas seqncias que ocorrem freqentemente e altamente coarticuladas podem ser representadas
por seqncias multifones. Por exemplo, uma frase comum como I don't know ou Would you repeat that,
please? Seriam um candidato para uma unidade multifnica. Um mtodo relativamente recente o da
sntese da forma de onda, que usa uma representao do domnio temporal dos segmentos de fala. Os
pedaos de forma de onda so ento conectados para formar enunciados maiores.
Propriedades estatsticas da fala so importantes no desenvolvimento da maioria dos mtodos de sntese
concatenativa. O objeto identificar unidades que so econmicas para se armazenar e que podem ser
efetivamente usadas na constituio de seqncias de fala arbitrrias. As unidades assim selecionadas no
correspondem s tradicionalmente reconhecidas na fonologia e fontica.

Sntese de Formantes
A sntese acstica mais bsica simplesmente recriar os formantes em mudana da fala, cada um sendo
especificado como uma freqncia e uma largura de banda, atualizada em torno de cada 5 ms durante um
enunciado. Poucos desses formantes (ressonncias) juntos com entradas adequadas, chamadas peridicas
e fontes de rudo para imitar o vozeamento e a frico, respectivamente, se mostraram suficientes para
produzir uma fala reconhecvel. Basicamente, essa foi a abordagem do sintetizador de playback de
padres, embora ele fosse rudimentar comparado com dispositivos modernos; por exemplo, sua fonte de
voz no variava em f0 ou outros parmetros. A sntese de formantes recebeu um grande impulso em 1980
com a publicao de Dennis Klatt de um um modelo mais elaborado, completo com um programa
computacional que sintetizava a fala em um computador de laboratrio (Klatt, 1980). Devido ao fato de a
sntese de fala ter tido um valor comercial, essa publicao foi uma contribuio generosa da parte de
Klatt. Variantes deste modelo esto agora disponveis como programas computacionais de vrias fontes
com pouco ou nenhum custo. Klatt atualizou o modelo, especialmente em relao qualidade e voz, em
Klatt e Klatt (1990), e a Sensimetrics Corporation oferece um programa de microcomputador baseado
neste segundo modelo.
A base para o modelo de Klatt a teoria fonte-filtro, discutida no captulo 2. Este um bom exemplo da
forma como a teoria leva a aplicaes. A Figura 8-1 o diagrama de blocos de Klatt de seu sintetizador
de formante em cascata/paralelo (1980). H duas fontes de som, uma para o vozeamento (etiquetada
fonte de vozeamento) e uma para frico (etiquetada fonte de rudo). Elas coordenam dois sistemas
de ressonncia, um ressoador em cascata (serial) para vogais e um ressoador paralelo para as fricativas.

No ressoador em cascata, a sada do ressoador do primeiro formante (R1) se torna a entrada para o
ressoador do segundo formante (R2), e assim por diante. Assim, os formantes se influenciam entre si: a
amplitude relativa de cada um depende parcialmente em como ele est perto em freqncia de outros
formantes, como na articulao natural de vogais (discutida no Captulo 2). No h necessidade para um
controle de amplitude separado para cada formante como h no ressoador paralelo, em que cada formante
desenvolvido independentemente. O sintetizador em cascata modela a produo dos sons da fala em que
a fonte de excitao est na laringe e o trato vocal inteiro serve como um ressoador, enquanto o
sintetizador paralelo modela a produo de fricativas, em que a fonte de rudo mais alta, usualmente na
cavidade oral, e apenas aquela parte do trato vocal que est na parte anterior da fonte serve como o
ressoador.
Figura 8.1. Diagrama em bloco do sintetizador de formante em cascata/paralelo (Klatt, 1980).

Tracemos o sistema em cascata na Figura 8-1 da fonte para a sada. A fonte de vozeamento gera um fluxo
de impulsos comos os produzidos pelas pregas vocais. As caixas etiquetadas RGP, RGZ e RGS so
essencialmente filtros que suavizam esta forma de onda glotal simulada e molda seu espectro. AV
controla a amplitude do vozeamento; ele configurado para zero durante os sons desvozeados ou pausas.
Essa fonte ento entra no sistema de ressonncia, em que RNP e RNZ representam plos nasais e o zero
nasal, respectivamente, e R1 a R5 representam formantes de 1 a 5. Para cada formante, o usurio
especifica uma freqncia e uma largura de banda para cada ms da fala.
Ao traarmos o sistema paralelo, achamos uma fonte de rudo que comea com gerador de nmeros
aleatrios, pois o rudo de frico comea com uma turbulncia que quase aleatria em freqncia e
amplitude. MOD responsvel pela mixagem do rudo e as fontes de vozeamento para as fricativas
vozeadas. LPF um filtro passa-baixas que molda o espectro da fonte, e AH e AF controlam a amplitude
da aspirao e da frico, respectivamente. O rudo de aspirao vai para o ressoador em cascata porque a
aspirao gerada na laringe, como o vozeamento, usa o trato vocal inteiro como ressoador. A aspirao
pode ser mixada com a fonte de voz para produzir (entre outras coisas) uma qualidade de voz soprosa,
como comum em vozes femininas. A fonte de rudo para fricativas vai atravs de ressoadores paralelos,
cada um com seu prprio controle de amplitude. As caixas etiquetadas Primeiros Diff so filtros passaaltas; o que est na sada simula a nfase dada a freqncias mais altas medida que o som erradia dos
lbios.
Juntos, o modelo de Klatt de 1980 tem 39 parmetros (valores de controles), dos quais 19 so fixos. O
usurio deve especificar os outros 20 para cada 5 ms da fala a ser produzida. Assim, para uma slaba de,
digamos 250 ms, os 20 parmetros variveis devem ser configurados 50 vezes, para um total de 1.000
especificaes. A maioria desses valores no mudam constantemente. Por exemplo, durante uma vogal,
AF (amplitude de frico) e as amplitudes de todos os formantes paralelos podem ser configurados em
zero e permanecer l. Em princpio, f0 e AV (amplitude de vozeamento) poderia ser considerado para
valores constantes durante uma slaba em que a freqncia fundamental no muda. Entretanto, mesmo
nessa slaba, mais fala semelhante real resultar se esses dois valores variarem um pouco, como ocorre
na fala natural. Em algumas implementaes do sintetizador de Klatt, o usurio pode configurar os
parmetros chave em pontos de maior mudana, e o programa preencher o resto, usando interpolaes
lineares ou outras. Por exemplo, poderamos configurar a freqncia fundamental no comeo e no fim da
parte vozeada de uma slaba, e o programa preencher f0 em todos os pontos entre elas, criando uma
inclinao linear ou no linear e talvez introduzindo uma leve variao no perodo fundamental (jitter).

A Tabela 8-1 lista valores sugeridos para F1, F2, F3 e a durao para a maioria dos fonemas do ingls,
como produzidos por um falante adulto masculino. (Como discutido nos captulos anteriores, esses

valores devem ser ajustados se o objetivo produzir fala de mulheres ou de crianas.) Esses so valores
padro, no sentido de que poderiam ser usados como pontos de partida na sntese antes de se tomar
contexto e variao individual em considerao. Note tambm que a Tabela 8-1 d apenas parte da
informao necessria para uma fala inteligvel e natural. Muitos sons no precisam apenas especificao
de formantes, mas tambm especificao de exploses de rudo ou intervalos de frico.
TABELA 8.1
Valores sugeridos para sntese de formantes de segmentos fonticos. So mostrados para cada
fonema IPA: CPA alfabeto fontico computacional, Palavra-chave palavra-chave para
pronncia do som; F1 freqncia do primeiro formante em Hz, F2 freqncia do segundo
formante em Hz, F3 freqncia do terceiro formante em Hz, e DUR durao inerente em ms.
Quando dois valores so listados para um formante, eles indicam os valores iniciais e terminais de
um padro de ditongo.
A Figura 8-2 mostra dois espectrogramas de enunciados de seep. O inferior de uma fala natural e o
superior de uma fala produzida com o sintetizador Klatt e Klatt (1990) como implementada pela
Sensimetrics. Apenas esforos moderados foram feitos para modelar a fala sintetizada. Notem que ela tem
pouca energia de som acima de 5 kHz, enquanto na fala natural o [s] tem energia intensa at a extenso de
8 kHz do espectrograma. A fala sintetizada tem uma amplitude menos varivel, mais transies abruptas,
mais aspirao intensa do [p], e menos rudo nas freqncias mais altas do que a fala natural. Geralmente,
o padro sintetizado tem uma maior regularidade e simplicidade.
Figura 8.2. Espectrogramas de dois enunciados de seep. Canal inferior: fala natural; canal superior: fala sintetizada do
sintetizador de Klatt e Klatt (1990).

A Figura 8-3 mostra um espectro de amplitude tomado perto do meio do [i] em cada enunciado; o trao
mais leve para a fala natural. Notem que a vogal sintetizada tem uma largura de banda maior para F2 e
um F3 consideravelmente mais alto. Na verdade, a inclinao do espectro nas altas freqncias est
errada.
Figura 8.3. Espectros da vogal [i] mostrado na Figura 8-2. O trao mais claro para a fala natural. O cursor aponta para o F2
da fala sintetizada (trao mais escuro). A forma de onda acima dos espectros da fala sintetizada, com o cursor na posio
onde o espectro foi calculado.

A Figura 8-4 mostra as formas de onda e contornos de f0 de cada enunciado; contando do topo, canais 1 e
3 so a fala natural, que tem uma mudana mais gradual tanto na amplitude quanto no f0. Em princpio,
todas essas diferenas poderiam ter sido eliminadas se tivssemos moldados os parmetros relevantes
com suficientes detalhes.
Figura 8.4. Formas de onda e contornos de f0 dos enunciados mostrados na Figura 8-2. Os canais 1 e 3 so a forma de onda e
contorno de f0, respectivamente, da fala natural.

A Tabela 8-2 lista os 60 parmetros deste sintetizador, com uma breve descrio de cada. Os valores
padro so os para uma vogal neutra como schwa. A coluna 2, intitulada V/C, indica se aquele
parmetro varivel ou constante; os constantes podem ser mudados, mas so configurados apenas
uma vez para cada enunciado. Por exemplo, DU (durao) uma constante, neste sentido. Entre os
parmetros variveis, alguns podem ser mudados quase continuamente, enquanto outros podem ser

ajustados apenas ocasionalmente, dependendo das necessidades da sntese.


TABELA 8-2
Os 60 parmetros do sintetizador de Klatt e Klatt (1990), como implementado pela Sensimetrics.
Cada linha um parmetro; as colunas so o smbolo (SYM), se varivel ou constante (V/C)
durante a sntese de um enunciado especfico, o valor mnimo (MIN), o valor corrente (VAL), o
valor mximo (MAX) e uma descrio do parmetro. O valor corrente um valor padro ou um
selecionado para uma aplicao especfica. Nota: os parmetros identificados como variveis no so,
necessariamente, atualizados da mesma forma. Alguns iro variar ao longo do enunciado, enquanto outros
podem ser configurados em um valor inicial que no muda. Por exemplo, F2, a freqncia do segundo
formante pode mudar enquanto B2, a largura de banda do segundo formante, mantida em um valor
constante.
Quo boa pode ser uma sntese de formante? Essencialmente, to boa quanto se tem pacincia para fazla. Se algum comea com um espectrograma para comparar, por exemplo, especifica muitos parmetros
em cada atualizao, ouvir a sada ocasionalmente e revisar de acordo, um investigador meticuloso pode
moldar a sada cada vez mais perto do alvo. Holmes (1973) pretendia produzir uma fala em que ouvintes
no poderiam confiavelmente distinguir da gravao natural. As duas fontes principais de falta de
naturalidade na fala sintetizada so a perda de pequenas variaes na freqncia fundamental e outros
parmetros e a dificuldade de criar uma fonte de voz que mimetiza a produzida pela laringe,
especificamente durante rpidas mudanas de f0.
Dada as demandas feitas nossa pacincia, os sintetizadores de formantes tm sido teis principalmente
na pesquisa, especialmente na pesquisa perceptual, comparando os efeitos de mudana de um ou dois
parmetros dentro de um nmero relativamente pequeno de slabas. Claramente, configurar 60 parmetros
bem tcnicos a cada 5 ms no uma forma prtica de encontrar as necessidades mais comerciais para a
sntese de fala, mesmo com a ajuda de interpolao automtica. Certamente no haveria Speak & Spell
algum se os usurios tivessem de conhecer sobre freqncias de formantes e larguras de banda. Por outro
lado, entretanto, no haveria Speak & Spell algum ou outras snteses prticas se os pesquisadores
usando sintetizadores de formantes no tivessem meticulosamente descobertos as configuraes de
parmetros que agora so programadas em produtos comerciais.

Sntese por Regra


Um passo chave para se fazer sntese de valor prtico mais amplo o reconhecimento de que muitos
parmetros so previsveis aproximadamente em slabas, palavras e enunciados e sabemos a seqncia de
fonemas a ser produzida. A freqncia fundamental declina lentamente nos enunciados e rapidamente no
final de uma sentena declarativa; as vogais so aumentadas antes de consoantes vozeadas; as vogais so
nasalizadas antes de consoantes nasais; as vogais baixas so geralmente mais longas do que as vogais
altas: essas so umas poucas regras gerais que so bem conhecidos pedaos da fonologia do ingls e de
outras lnguas. Os fonlogos escrevem essas regras em formas precisas, levando em conta o efeito de um
sobre o outro. O livro clssico The Sound Pattern of English de Noam Chomsky e Morris Halle (1968)
inspirou uma abordagem de sntese baseada em regras de reescrita. Elas foram usadas para construir
compilares de regra especiais para sntese texto-fala. Se quantificarmos essas regras, podemos
automatizar muitas das configuraes de parmetros nas snteses. Por exemplo, quanto so as vogais mais
longas diante de consoantes vozeadas, e como esse fator interage com a altura da vogal? Os captulos
anteriores, especialmente os Captulos 4, 5 e 7 apresentaram informao do tipo que pode ser usada para

formular sntese baseada em regras. Essa informao o produto de muitos estudos em fontica acstica,
acoplada a princpios de fonologia.
Nesse sistema, o usurio pode digitar a seqncia de fonemas de um enunciado. O sintetizador, ento,
comearia com uma lista de valores padro para cada fonema, por exemplo, para cada vogal, durao
intrnseca, f0, e freqncias e larguras de banda dos formantes. Ele, pois, confeccionaria automaticamente
cada um desses valores de acordo com o contexto de cada fonema. A variedade de regras que poderia ser
includa, pelo menos em princpio, se estende de regras prosdicas como aumente a durao e a
mudana de tom na ltima slaba acentuada do enunciado a especificaes acsticas detalhadas que no
so encontradas nos livros de fonologia, como o F2 muda para um valor de cerca de 1800 Hz antes de
consoantes alveolares. Interessante notar que poderamos procurar a fala mais natural pela expanso
desse conjunto de regras em ambos os lados. Em um nvel mais alto, poderamos tentar formular regras
do discurso, como aumente a proeminncia (amplitude e durao) de um substantivo se essa a primeira
vez que ele foi mencionado no discurso. No outro extremo, poderamos introduzir pequenas flutuaes
aleatrias na freqncia fundamental e na amplitude durante as slabas mais longas para simular jitter e
shimmer vocais.
Obviamente, esse conjunto de regras poderia ser de fato muito formidvel, e mesmo assim poderia no
capturar as formas sutis em que a fala natural varia em relao ao contexto em todos os nveis
lingsticos. No entanto, os pesquisadores da fala criaram programas de sntese por regra que produziam
uma fala razoavelmente soando como natural e ainda operando rapidamente em discos rgidos baratos.
Esse desenvolvimento tornou possvel as aplicaes prticas da sntese, como brinquedos, prteses de fala
e mquinas de leitura.
Claramente, essas aplicaes dependem em mais um passo, entretanto. No se pode esperar que a maioria
dos usurios digite uma representao de uma seqncia de fonemas. Uma mquina de leitura deve
comear com uma impresso comum. Em virtualmente todas as aplicaes prticas, uma traduo prvia
necessria antes que a sntese por regra possa operar: da ortografia comum para uma seqncia de
fonemas. Qualquer um que conhece a ortografia inglesa sabe que para o ingls, pelo menos, essa traduo
no uma questo trivial. Entretanto, com a ajuda de um dicionrio interno, junto com regras para
palavras que no esto no dicionrio, os sintetizadores podem fazer essa primeira traduo. O resultado
uma fala que soa razoavelmente natural, produzida quase instantaneamente da ortografia comum digitada
(ou escaneada).
Um dos melhores exemplos comerciais desse tipo de sintetizador o DECtalk, produzido pela Digital
Equipment Corporation, e baseado em regras desenvolvidas por Dennis Klatt. Esse dispositivo, pela
primeira vez no mercado por volta de 1983, pega a ortografia comum (de um teclado, um arquivo de
computador ou um scanner) como entrada e produz uma fala do ingls altamente inteligvel e
razoavelmente natural como sada. Em sua verso anterior, ela tinha vozes pr-feitas (masculinas,
femininas e crianas) mais uma que poderia ser confeccionada para as necessidades do usurio,
selecionando 13 especificaes indo do sexo e tom mdio para tamanho de cabea e soprosidade. A
Figura 8-5 uma tabela de fluxo, mostrando a seqncia de operaes pelas quais o DECtalk chega em
uma pronncia, levando em conta tanto a pontuao quanto a forma ortogrfica.
Figura 8.5. Fluxograma de operaes no sintetizador DECtalkTM, do Manual do Usurio do DECtalkTM. A tabela comea no
topo com a entrada da ortografia padro e termina com a produo da fala sintetizada.

Nota-se que o DECtalk primeiramente procura seu dicionrio e ento aplica suas regras de converso
ortografia-som apenas para palavras no encontradas l; assim, o dicionrio uma lista de palavras com
ortografia excepcionais. Se uma seqncia de letras falha na combinao com qualquer palavra no
dicionrio ou nas regras de converso ortografia-som, o DECtalk simplesmente nomeia as letras. Se a
pronncia do DECtalk no satisfatria, o usurio pode digitar os smbolos fonmicos em vez da
ortografia padro. Por exemplo, o DECtalk pronuncia mal shoebench como [bEn]. Uma soluo
simplesmente colocar hfen na palavra, mas outra trocar a ortografia por ['shuwbehnch]. O que no se
pode controlar com o DECtalk precisamente o que se deve controlar com um sintetizador de
formantes, a saber, as freqncias e larguras de formantes ao longo do tempo.
A Figura 8-6 mostra dois espectrogramas de We show speech, o superior foi enunciado por DECtalk
da ortografia padro e o inferior por um falante adulto masculino aproximadamente com a mesma taxa. A
diferena mais bvia est na extenso de freqncias. DECtalk produz muito pouco som acima de 5
kHz (a escala do espectrograma de 0 a 8 kHz), enquanto a fala natural tem uma grande quantidade de
energia sonora acima de 5 kHz nas trs fricativas (incluindo a segunda parte de [tS] em speech).
Entretanto, essa restrio no tem grandes conseqncias nas aplicaes comerciais, especialmente na
rede telefnica padro, que transmite apenas freqncias de at 3,3 kHz.
Figura 8.6. Espectrogramas de dois enunciados de We show speech. Canal inferior: fala natural de um adulto masculino;
canal superior: fala sintetizada do sintetizador do DECtalkTM.

Nota-se o formato extensivo do segundo e terceiro formantes no enunciado do DECtalk, no apenas na


semivogal [w] de we, mas tambm nas transies no comeo das vogais de show e speech. Esses
contrastam com a fala sintetizada minimamente especificada mostrada na Figura 8-2. Nota-se tambm
que a durao de cada segmento se parece bastante com a da fala natural em uma taxa total similar. Em
ambos esses aspectos, o DECtalk levou o contexto de cada fonema em considerao.
H tambm outras diferenas diferentes da extenso de freqncias que nos permite fazer inferncias
sobre as regras pr-programadas do DECtalk. O [p] em speech consideravelmente mais aspirado no
enunciado do DECtalk do que na amostra natural. O DECtalk sabe, entretanto, que o /p/ depois do /s/
inicial relativamente no aspirado; ele produziria /p/ em peach com uma aspirao muito mais longa.
Note tambm o f0 descendente durante a vogal de speech, como mostrado pela distncia entre as estrias
verticais. Essas estrias se tornam separadas na produo do DECtalk, mas em um grau menor do que na
fala natural. Como ocorre com a maioria da fala sintetizada, o DECtalk produz menos variao de
amplitude do que o falante humano. Especificamente nos finais das vogais de show e speech, a
amplitude decresce marcadamente na fala natural, fato especialmente notado nos formantes mais altos.
Entretanto, essas diferenas podem ter pouca significncia para a inteligibilidade ou at mesmo a
naturalidade. Logan, Greene, e Pisoni (1989) estudaram a inteligibilidade de 10 sistemas de sntese por
regra. A voz padro do DECtalk (Paul) resultou na menor taxa de erro; em consoantes em incio de
slaba, ela foi equivalente fala natural. Sob boas condies de escuta (palavras em contexto, baixo rudo
no ambiente), raramente se nota dificuldade para compreender o DECtalk . Para uma descrio
posterior do DECtalk , vejam Bruckert (1984). Para uma descrio das regras construdas no seu
predecessor, vejam Allen, Hunnicutt, e Klatt (1987). Mas a superioridade da voz masculina Paul do

DECtalk agora tem alguns competidores, especialmente no Mac-inTalk (Hustad, Kent, &
Beukelman, 1998).

Considerando que ele ele produz seu enunciados quase instantaneamente, uma vez que ele encontra um
marca de pontuao final (um ponto final, uma marca de pergunta, ou ponto de exclamao), a fala do
DECtalk um testemunho audvel para as realizaes da cincia da fala contempornea. Devemos ter
em mente que os recentes avanos, como o extraordinrio sintetizador de Klatt e suas regras detalhadas,
so construdos sobre compreenses fundamentais que tm sido desenvolvidas desde o sculo passado,
como a teoria fonte-filtro apresentada no Captulo 2. O progresso nas cincias da fala tm sido aditivos e
s vezes tem surpreendido at mesmo os que fazem parte dele.

Sntese Preditiva Linear


Um terceiro tipo de sntese comea com a codificao preditiva linear (LPC), descrita no Captulo 3. O
LPC parametriza o sinal de fala, ou seja, analisa o sinal de fala complexo, em constante mudana, em
alguns valores chamados de parmetros, que mudam relativamente devagar. O modelo a abordagem
fonte-filtro descrita no Captulo 2; os parmetros que representam o sinal so as freqncias e larguras de
banda de um conjunto de filtros que produzem o sinal, dada uma certa excitao. Essa anlise
reversvel; dada uma anlise de LPC, pode-se produzir (ou sintetizar) o sinal que ele descreve. Se a
anlise de LPC fosse perfeita, o sinal ressintetizado seria exatamente como o original. Uma vantagem da
sntese com LPC que sua estrutura mais simples do que a da sntese com formantes, dado que as
propriedades espectrais da fala (exceto periodicidade) so representadas nos coeficientes de LPC que so
automaticamente calculados da fala normal.
Obviamente, a anlise com LPC nunca perfeita. Uma dessas imperfeies que a maioria dos modelo
de LPC so modelos todos os plos, significando que eles so responsveis por ressonncias apenas.
Como resultado, eles tm dificuldade em descrever sons nasais e laterais, que tm antiressonncias
(zeros) tambm. Outra imperfeio que o modelo descreve o filtro, mas no a fonte; a forma de onda
glotal na fala vozeada e a fonte de rudo nas fricativas no so bem descritas. Entretanto, uma fala
ressintetizante de uma anlise de LPC , no mnimo, uma checagem de quo boa a anlise foi. Outra
limitao dessa anlise que a interpolao dos parmetros de LPC em fronteiras de segmentos pode ser
difcil, pois cada coeficiente afeta uma gama de freqncias da fala de forma complicada.
Se isso fosse tudo que ela poderia fazer, a sntese preditiva linear provavelmente no estaria qualificada
para ser includa neste captulo. Entretanto, ela tem uma caracterstica adicional que a torna interessante:
tendo-se representado o sinal de fala como um pequeno conjunto de parmetros, pode-se edit-los antes
da ressntese. Por exemplo, podemos mudar a freqncia ou a largura de banda de F1 independentemente
de todos os outros formantes e, ento, ouvir o seu efeito. No temos condies de realizar essa operao
no sinal de fala natural. No podemos editar um formante ou pedir a um falante real que varie apenas F1.
Em um certo sentido, a sntese por LPC como ter um sintetizador de formantes que comea com uma
anlise da fala real, de forma que no tenhamos de construir cada sinal do nada. Um experimento tpico,
por exemplo, comear com uma gravao da vogal /i/; realizar uma anlise por LPC; e ento edit-la,
movendo F1 para cima e F2 para baixo em dez passos; sintetizar as dez variantes resultantes; e toc-las
em ordem aleatria para ouvintes, a fim de determinar em quais pontos o /i/ comea a soar como /e/ ou
/Q/.

Como exemplo, usaremos o ASL, um programa de anlise/sntese por LPC vendido pela Kay Elemetrics
Corp. com um acrscimo ao seu espectrgrafo digital e como parte do programa de anlise da fala conhecido
como CSL. A Figura 8-7 uma das exibies bsicas do ASL. O canal superior mostra uma forma de onda
do sintagma sntese de fala, falado por um falante masculino. Sob a parte vozeada de cada slaba, uma srie de
tiques verticais curtos marca os perodos glotais. Esses tiques se separam durante as duas ltimas slabas, pois o
f0 estava caindo no final do enunciado. O ASL pode realizar essa anlise dos perodos fundamentais
automaticamente e ento o usurio pode edit-la caso necessrio. Sua importncia que a anlise de LPC (e,
assim, a ressntese) mais precisa se ela for sncrona ao tom, ou seja, se (nas partes vozeadas apenas) a unidade
de anlise for um perodo glotal.
Figura 8-7. Trs formas de onda na visualizao do ASL, um programa para anlise de LPC e sntese. O
sintagma speech synthesis falado por um adulto masculino. Canal superior: forma de onda da fala; canal
mdio: sinal do resduo; canal inferior: fala sintetizada.
Depois da anlise preditiva linear, h uma parte do sinal que permanece sem ser trabalhado pela seqncia de
filtros digitais que a anlise desenvolveu. Essa parte conhecida como sinal do erro ou do resduo. Para nosso
enunciado exemplo, a forma de onda do sinal residual mostrada no painel medial da Figura 8-7. Idealmente, o
resduo deve representar apenas a fonte: a forma de onda glotal e a excitao do rudo. O resduo pode ser um
sinal muito fraco; sua amplitude aparente foi normalizada para preencher o painel da Figura 8-7. Entretanto,
evidente que o resduo nas partes vozeadas das slabas no apenas uma forma de onda glotal; ele complexo
demais. Na verdade, ao ouvir um sinal residual, pode-se ouvir traos das vogais originais se toda a estrutura
formntica no tiver sido capturada na anlise.
Tendo-se feito a anlise de LPC, podemos, ento, ressintetizar o sinal. Temos uma escolha de usar ou no
o sinal residual para completar a sntese. Us-lo significa acrescentar de volta aquela parte do sinal que a
anlise no trabalhou; o sinal sintetizado resultante deve ser idntico ao original. Obtemos uma excelente
sntese, mas um teste ruim da anlise.
Neste exemplo, no usamos o resduo. O painel inferior da Figura 8-7 mostra o enunciado sintetizado
resultante. Ao compararmos a forma de onda com a original (painel superior), podemos ver que ela
diferente. De forma geral, podemos at ver que a forma de onda sintetizada mais o resduo se aproximaria
bastante do original.
A Figura 8-8 uma viso espectrogrfica de uma comparao semelhante. O canal inferior um
espectrograma de seven, falado por uma falante feminina; o canal superior o mesmo enunciado depois
da anlise de LPC e da ressntese sem o resduo. Nota-se que a estrutura formntica de ambas vogais
bastante bem reproduzida na sntese, mas que h dificuldades nas transies entre as fricativas e as
vogais. Essas transies so grandes mudanas, no apenas na fonte, mas tambm na forma e ressonncia
do trato vocal. Devido ao fato de a anlise de LPC operar em molduras (neste caso, 20 ms de durao
durante as partes desvozeadas do sinal), ela tem dificuldade em representar rpidas transies entre a fala
desvozeada e a vozeada.
Figura 8.8. Espectrogramas de dois enunciados da palavra seven. Canal inferior: fala natural de um adulto feminino; canal
superior: o mesmo enunciado depois de uma anlise de LPC e ressntese.

O ASL fornece dois modos nos quais o usurio pode editar a anlise antes da sntese. A Figura 8-9 mostra a
exibio grfica em tela cheia de uma anlise de spurious, falada por uma falante masculino. O painel superior

a forma de onda, com perodos glotais marcados; o painel mdio a exibio de formantes; e o painel mais
inferior o contorno de f0 durante a parte vozeada da palavra. No painel mdio, as barras horizontais curtas
representam as freqncias centrais dos formantes, e as linhas verticais intersectando-as representam larguras de
banda. Pode-se facilmente rastrear os cinco primeiros formantes durante a maior parte da seo vozeada, de
modo que as linhas verticais predominem. Nessa exibio, pode-se usar um mouse para desenhar novos
formantes ou um novo contorno de f0 para sntese. Um usurio experiente com uma mo firme pode criar
mudanas bastante dramticas no sinal, embora os resultados, s vezes, incluam transies ruidosas ou outros
efeitos imprevisveis de interao entre essas variveis.
Figura 8.9. Visualizao de formantes no ASL da palavra spurious falada por um adulto masculino. Canal superior: forma de onda da
fala com perodos fundamentais marcados por tiques verticais; canal mdio: formantes (linhas horizontais) e larguras de banda (linhas
verticais); canal inferior: contorno de f0.

A Figura 8-10 mostra a exibio do editor numrico para o mesmo enunciado. Cada linha representa uma
moldura de anlise e cada coluna um parmetro. RES o nmero da moldura (do resduo), PK significa
amplitude de pico, LEN, a durao da moldura, B1, a largura de banda de F1 e assim por diante. A
moldura 26, logo abaixo do meio da tabela, marcada por uma caixa na forma de onda. Est perto do [r],
de modo que o F2 (realado na tabela) est baixo, em 1442 Hz. O usurio pode editar qualquer um dos
parmetros, levando vantagem da interpolao para produzir mudanas nas taxas lineares e no-lineares.
Neste modo, tem-se controle preciso sobre cada aspecto de um enunciado falado representado por
parmetros de LPC. Esse grau de controle no prtico para as aplicaes comerciais da sntese de fala,
mas abre importantes portas para a pesquisa. Por exemplo, se se suspeita que a taxa de transies
formnticas depois de consoantes oclusivas uma parte importante do que torna certa fala disrtrica
difcil de compreender (Kent et al, 1989), pode-se editar essa caracterstica e ver que diferena ela faz.
Em um sintetizador de formantes, tem-se o mesmo tipo de controle, mas no comeando com uma anlise
paramtrica da fala natural.
Figura 8.10. Visualizao no editor numrico do ASLTM do mesmo enunciado mostrado na Figura 8-9. As linhas so
molduras; as colunas so resultados da anlise de LPC, incluindo a amplitude (PK), a extenso da moldura (LEN) e as
freqncias e larguras de banda dos formantes (F1, B1, etc.).

Olhando para Trs


Um medidor do progresso em sntese de fala olhar espectrogramas de fala sintticas nos ltimos 50
anos. A sntese de playback de padres (cerca de 1951) das palavras four hours representada por
espectrogramas de banda larga e estreita na Figura 8-11. A sada do Speak & Spell (cerca de 1980)
ilustrada para as palavras now spell na Figura 8-12. A voz masculina padro do DECtalk (cerca de
1990) ilustrada, bem apropriadamente, com as palavras standard male voice na Figura 8-13.
Comparando-se os espectrogramas das Figuras 8-11, 8-12 e 8-13, podemos provavelmente detectar melhoras
na naturalidade dos padres de fala. Nota-se, especificamente, a suavidade dos harmnicos e formantes na
Figura 8-13, que se compara favoravelmente com os espectrogramas da fala humana natural mostrados em
outros captulos deste livro. Nas ltimas cinco dcadas, a fala sintetizada melhorou consideravelmente tanto
na inteligibilidade quanto na naturalidade.
Figura 8.11. Espectrogramas de banda larga (topo) e estreita (fundo) do sintagma four hours produzido com o sintetizador de
fala de Playback de Padres da dcada de 1950.

Figura 8.12. Espectrogramas de banda larga (topo) e estreita (fundo) do sintagma now spell produzido com o brinquedo Speak
& SpellTM da dcada de 1950.
Figura 8.13. Espectrogramas de banda larga (topo) e estreita (fundo) do sintagma standard male voice produzido com o
DECtalkTM da dcada de 1990. Note o [t] no aspirado em standard, as variaes suaves nos formantes e o contorno
entonacional.

A Tabela 8-3 lista vrias realizaes marcantes na anlise de fala e na tecnologia de fala. Esta lista
altamente seletiva, mas indica um grande registro do progresso, comeando com tentativas prvias de
visualizao da fala com formas de ondas e espectrogramas e chegando at sistemas computacionais
sofisticados que podem reconhecer a fala humana e produzir fala sintetizada de alta qualidade e naturalidade.
Vejam tambm Campbell (1999), Flanagan (1972) e Venkatagiri (1996).

TABELA 8-3
Alguns avanos mpares na anlise e tecnologia de fala.

Olhando para o Futuro


A sntese de fala um exemplo do progresso em tecnologia. Os primeiros esforos produziam uma fala
que era certamente artificial e difcil de entender. A fala sintetizada contempornea tanto natural quanto
inteligvel, e certamente atingimos um ponto em que os ouvintes podem, com dificuldade, dizer se a fala
que ouvem no telefone, ou em outros sistemas de comunicao, produzida por um humano ou uma
mquina. O futuro provavelmente ter progressos na miniaturizao, personalizao e globalizao.
A miniaturizao acontecer parcialmente porque o dispositivo de entrada/sada para a fala pode ser um
pequeno microfone/falante, em oposio a um teclado ou tablet. Embora os microfones sejam bem
pequenos agora, o prospecto para microfones ainda menores. Uma tecnologia especialmente promissora
o desenvolvimento de microfones esculpidos em circuitos integrados de silicone (Ouellette, 1999). Esses
microfones podem substituir bem os microfones eletreto-condensadores que so comumente usados hoje em
produzidos manuais para o consumidor como celulares. Os novos microfones podem ser colocados em grandes
arranjos que permitem o uso sem mos em automveis, ou conferncias por chamada. Esses arranjos poderiam
detectar a voz de um falante, mas tambm poderiam ser usados com tcnicas de processamento de sinais para
cancelar rudo e interferncia. Vantagens significantes so acumuladas com a incorporao de microfones em
circuitos integrados de silicone, e podemos bem ver em um tempo curto uma revoluo no uso da fala como
entrada para sistemas computacionais miniaturizados.
A personalizao facilitada pela miniaturizao, porque podemos facilmente transportar o sistema conosco. As
tecnologias de fala como a fala sintetizada tambm se tornaro personalizadas, porque elas podem ser (1)
ajustadas s caractersticas individuais (ex.: vocabulrio, taxa de elocuo e emoo); (2) adaptadas a vrios
ambientes (ex.: ambientes ruidosos ou condies perigosas); e (3) equipadas com tipos de informaes
especficas a um dado usurio (ex.: uma base de dados de informao tcnica, contas de clientes, ou resumos de
artigos publicados). A telefonia acoplada com um GPS (Sistema de posicionamento global, em ingls) pode
garantir comunicao virtualmente em qualquer lugar do mundo.
Global se refere no apenas distncia, mas tambm comunicao universal entre barreiras lingsticas.
Portanto, a globalizao depende de desenvolvimento multinacional (entre barreiras geogrficas e lingsticas)
de sistemas de fala que ofeream traduo automtica, bem como sntese de fala. Pode no estar longe o dia em
que ser comum falar em uma mquina que reconhecer a mensagem lingstica com um lngua (digamos
ingls), traduzi-la para outra lngua (dgamos hindu), e ento usar a sntese de fala para produzir a mensagem na
lngua traduzida. Com esforo suficiente, a sada traduzida e sintetizada poderia at mesmo refletir o estado
emocional do falante.

Concluso
A sntese de fala atual oferece um arsenal de opes. Pode-se comear com um texto ingls comum, uma
amostra da fala gravada para ser editada, ou uma tela cheia de linhas e colunas vazias para serem
preenchidas. O usurio pode no ter conhecimento tcnico algum ou um entendimento da estrutura
acstica da fala em imensos detalhes. Em vez de limites absolutos, encaramos negociaes entre tempo e
grau de controle.

Em qualquer forma, a sntese de fala hoje ilustra a idia que algum certamente entende um processo
apenas quando se pode reproduzi-lo. Que todos esses tipos de sntese podem produzir uma fala
compreensvel deve indicar que entendemos uma parte considervel da natureza da fala que elas so
todas imperfeitas indica que h um importante trabalho ainda a ser feito. Rpido progresso est sendo
feito na rea da prosdia e da expresso emocional. A fala sintetizada no futuro prximo pode no apenas
ser altamente inteligvel, mas tambm ter atributos emocionais semelhante aos humanos.

Apndice B: Fsica Elementar do Som


Acstica o ramo da fsica que lida com som. Psicoacstica o estudo da resposta psicolgica ao som;
uma diviso da psicofsica, ou o estudo geral das respostas psicolgicas a estmulos fsicos. O estudo da
acstica da fala possui tanto um lado fsico quanto psicoacstico. O lado fsico pertence estrutura fsica
dos sons da fala. O lado psicofsico trabalha com a percepo desses sons. Um entendimento amplo da
fala requer conhecimento de ambos desses aspectos da acstica da fala. Uma famosa charada pergunta:
Se uma rvore cai na floresta, mas ningum est l para ouvi-la, ela emite som?. Obviamente, a
resposta depende da definio dos termos. Se som definido com relao percepo humana, ento
nenhum som ser verificado. Mas, se som for definido como uma perturbao fsica do ar, ento um som
deve ter ocorrido. Uma charada mais apropriada fala seria: Se a fala tornada visvel como padres no
papel (ou um monitor de vdeo), mas ningum a ouve, ela realmente fala?
Som vibrao. Vibrao um movimento repetitivo para frente e para trs de um corpo. Usualmente,
no ouvimos diretamente as vibraes reais de uma fonte sonora como uma mquina, mas, ao invs disso,
ouvimos as vibraes que so propagadas ou transmitidas em um meio como o ar. Quando ficamos perto
de uma mquina barulhenta, ouvimos as vibraes produzidas pela mquina distncia e o ar o meio de
propagao. A Figura B-1 mostra um arranjo fsico simples que demonstra a natureza do som. A fonte de
som uma borracha de cabelo esticada que pode ser puxada para entrar em vibrao. A borracha se
movimenta para frente e para trs aps ser puxada. As vibraes iniciais so de grande amplitude,
indicando que os balanos para frente e para trs possuem um movimento relativamente grande. A
amplitude diminui at que o movimento eventualmente parar. A reduo da amplitude reflete o
amortecimento, ou a perda de energia. No mundo natural, as vibraes no continuam indefinidamente
depois que a fonte de energia responsvel pela vibrao cessa. Ao invs disso, as vibraes esvanecem
com o tempo. A taxa nas quais elas esvanecem uma medida do amortecimento, que a taxa na qual a
energia absorvida. Quando uma moeda jogada em um cho rgido, o som parece tilintar por um
perodo curto. Quando a moeda jogada em um sof, o som mais seco e some rapidamente. A
combinao moeda-cho rgido produz uma baixa taxa de amortecimento, de modo que a energia sonora
continua por um tempo alm do impacto inicial da moeda no cho. Portanto, a moeda tilinta. Por outro
lado, a moeda e o sof produzem um som que rapidamente amortecido produzindo um barulho seco.
FIGURA B-1. Gerao de som com uma borracha de cabelo. Quando a borracha puxada, ela vibra.
Assim, causa-se uma reao em cadeia de colises nas partculas de ar A, B e C. Por ser o ar elstico,
cada partcula retorna a sua posio original apos a coliso. Cada partcula, portanto, se move para frente
e para trs.
Como ouvimos as vibraes da borracha de cabelo no exemplo descrito anteriormente? Para responder
essa questo, consideramos primeiro a forma na qual a borracha em vibrao interage com as molculas
de ar imediatamente adjacentes a ela. O ar composto de partculas que se movem em resposta a uma
energia aplicada. Quando a borracha vibra, seu movimento de sada empurra as molculas de ar
adjacentes, comprimindo-as. Se o ar fosse um corpo rgido, a massa de ar inteira se moveria com a
borracha, como um pisto gigante. Mas o ar elstico, de forma que suas molculas podem se mover
relativamente s outras, como se estivessem interconectadas por pequenas molas. As molculas que
foram deslocadas tendem a retornar a sua posio original. Por conta de sua elasticidade, a energia
vibratria fornecida pela borracha transmitida de molcula de ar a molcula de ar em um tipo de reao
em cadeia. Suponhamos que tivssemos trs molculas de ar, A, B e C, como mostrado
esquematicamente na Figura B-1. A molcula A est prxima a uma fonte de som, B, numa posio
intermediria e C, est mais afastada. A sequencia seguinte ocorreria em resposta a uma energia
vibratria: A empurrada de modo que colide com B. B, em contrapartida, colide com C, mas ao mesmo

tempo, A retorna a sua posio original (por causa da elasticidade). Nessa sequncia, um padro de
compresses e rarefaes desenvolvido. A coliso da molcula produz compresso medida que as
partculas so pressionadas. Entretanto, o movimento de retorno de uma partcula no meio elstico produz
uma rarefao em que a densidade da partcula momentaneamente reduzida em um ponto especfico no
espao.
O som , pois, uma srie de condensaes e rarefaes. Uma dada partcula no caminho da onda sonora
propagadora ser sujeita a um impulso de condensao e rarefao. Para as partculas A, B e C
introduzidas acima, os intervalos de curto perodo ocorrem entre seus movimentos: a molcula A se move
primeiro, depois B e ento C. Quando observamos um raio e ouvimos um trovo, temos um exemplo
tpico desse intervalo de tempo. Vemos o raio imediatamente, pois a luz viaja muito rapidamente, em
cerca de 300.000 quilmetros por segundo; mas o som do trovo alcana nossos ouvidos depois de um
atraso, s vezes de vrios segundos, pelo fato de o som se mover mais vagarosamente atravs do meio ar,
em cerca de um tero do quilmetro por segundo (0,34 km/s). O som viaja vagarosamente o suficiente de
forma que ouvimos frequentemente evidncia de a barreira do som foi quebrada. Quando um jato
excede a velocidade do som, ouvimos um rudo snico. A mesma coisa acontece quando um chicote o
movimento rpido do final do chicote alcana a onda sonora e, assim, faz um pequeno rudo snico.
O que ouvimos som a resposta do ouvido humano s vibraes do meio circundante, usualmente o ar,
mas que podia, por exemplo, ser gua se estivssemos nadando. O ouvido detecta partculas de ar to
pequenas quanto 0,003 milmetros. De fato, a sensitividade do ouvido cai perto da resposta a movimentos
aleatrios das partculas de ar. Pequenas flutuaes da presso do ar resultam em som. Essas flutuaes se
movem em ondas, e o movimento descrito em termos de movimento ondulatrio.
H dois tipos principais de movimento ondulatrio. O som se move como uma onda longitudinal, i.e., as
partculas se movem para frente e para trs ao longo da direo da onda. Lembre-se das partculas A, B e
C descritas acima: elas se movem em sucesso, para frente e para trs, ao longo do caminho da onda
sonora. Em contraste, as ondas produzidas quando uma pedra atirada no meio de uma lagoa so ondas
transversais, em que as partculas se movem para cima e para baixo, ou perpendicularmente onda em
movimento. A onda longitudinal do som no facilmente vista como as ondas transversais em uma
piscina de gua. Entretanto, a natureza da onda longitudinal do som pode ser imaginada com a
demonstrao ilustrada na Figura B-2. Este um experimento Gedanken (pensamento) que seria
realmente difcil de ser executado. Suponha que um lpis esteja anexado a uma perna de um diapaso.
Quando o diapaso posto em vibrao, o lpis na ponta de sua perna vibrar para frente e para trs com
a mesma. Esse movimento para frente para trs ser desenhado pelo lpis como um movimento repetitivo,
de modo que a linha do lpis seria desenhada sobre si mesma continuamente. Agora se gentilmente
movermos o lpis ao longo de uma folha de papel, o resultado seria um padro em que os movimentos de
vaivm aparecem como uma linha que suavemente se move para cima e para baixo. Pelo fato de o
diapaso se mover em uma frequncia nica, i.e., ele possui um movimento de vaivm peridico simples,
o padro produzido no papel toma a forma de uma senide (nome advindo da funo seno da geometria).
FIGURE B-2. Um experimento Gedanken (pensamento) para ilustrar a vibrao senoidal. Um lpis
anexado perna de um diapaso. Quando o diapaso tocado, ele vibra em uma frequncia especfica. A
Idea desta ilustrao que medida que o diapaso com o lpis anexado arrastado num pedao de
papel, uma onda senoidal ser traada.

O grfico mostrado na figura B-3 chamado de forma de onda, que um grfico de amplitude em funo
do tempo. Todos os sons podem ser representados em um grfico bidimensional de amplitude e tempo. A

forma de onda da Figura B-3 especialmente importante, porque a senoide uma forma de onda bsica
que pode ser usada como um tipo de unidade de anlise. A ideia que todos os sons podem ser
decompostos em um nmero de componentes senoidais. Para ver como isso possvel, precisamos
examinar algumas caractersticas da forma de onda e introduzir alguns conceitos adicionais.
Um ciclo completo de vibrao de um diapaso (um movimento de vaivm) representado na onda
senoidal como uma sequncia de movimento para cima e para baixo. O tempo requerido para este ciclo
chamado de perodo. A frequncia de vibrao medida como o nmero de ciclos por segundo (chamado
de hertz, abreviado Hz). Se um diapaso vibra em 256 Hz, ele completa 256 ciclos de vibrao em um
segundo. O perodo, ou durao de um ciclo, pode ser computado simplesmente pela diviso do nmero
de ciclos por um segundo. Ou seja, o perodo o recproco da frequncia. O perodo de um tom de 256
Hz cerca de 0.004 segundos, ou 4 milissegundos (ms). A medida fsica de frequncia se correlaciona
altamente com o fenmeno perceptual do tom vocal (pitch). Um som de alto tom vocal possui uma alta
frequncia, e um som de um baixo tom vocal possui uma baixa frequncia. A gama de freqncias que o
ouvido humano pode detectar cerca de 20-20.000 Hz, correspondendo a gama de perodos de 50 ms a
0,5 ms. Os ces e muitos outros animais podem ouvir uma gama estendida de freqncias, razo pela qual
ces podem ouvir certos apitos que humanos no podem. Os sons tambm variam em intensidade. O
correlato fsico da intensidade a amplitude. medida que a amplitude de vibrao aumenta, ouvimos
um som mais forte.
A onda sonora tambm pode ser representada espacialmente. Pelo fato de a som se propagar
longitudinalmente, um ciclo de vibrao cobre uma certa distancia no espao. A distncia chamada de
comprimento de onda e determinada pela diviso da velocidade do som (cerca de 340 m/s) pela
frequncia do som. Um som de baixa frequncia tem um longo comprimento de onda e um som de alta
frequncia tem um curto comprimento de onda.
A senoide uma forma de onda elementar que bsica para a anlise acstica porque vrios tipos de sons
podem ser analisados em componentes senoidais de especficas frequncia, amplitude e fase. Frequncia
e amplitude j foram descritas, respectivamente, como uma medida da taxa de taxa de vibrao e uma
medida de magnitude da excurso. Sons de frequncias diferentes mas mesma amplitude so ilustrados
como formas de onda na Figura B-3A. Tons de diferentes amplitudes mas mesma frequncia so
ilustrados na Figura B-3B. Fase especifica a relao de tempo entre os componentes de uma onda sonora
a mais efetivamente demonstrada com um tom complexo, ou um tom que composto de dois ou mais
harmnicos. Cada harmnico uma senoide e os diferentes harmnicos so relacionados como mltiplos
inteiros. Por exemplo, o terceiro harmnico de um tom de 100 Hz um tom de 300 Hz (o nmero
harmnico, 3, multiplicado pela fundamental ou tom mais baixo).
FIGURA B-3A. Formas de onda de senoides com mesma amplitude mas diferentes freqncias (nmero
de vibraes completas por unidade de tempo), convencionalmente expressas como hertz (ou numero de
ciclos por segundo). A forma de onda esquerda possui uma frequncia mais baixa que a da direita.
FIGURE B-3B. Formas de onda de senoides com mesma frequncia mas diferentes amplitudes. A forma
de onda esquerda possui uma maior amplitude que a da direita.
Vimos que a forma de onda um grfico de amplitude em funo do tempo, o qual pode ser interpretado
para refletir o deslocamento de uma molcula de ar durante a propagao do som. Uma forma alternativa
de ver o som o espectro, que um grfico de amplitude em funo da frequncia. O espectro indica a
amplitude de cada componente senoidal em um som. A Figura B-4 mostra vrios pares de forma de onda
e espectro. Note que uma nica senoide possui uma linha em seu espectro porque toda a energia

concentrada em uma frequncia. medida que mais componentes senoidais so adicionados, mais linhas
aparecem no espectro. O padro mais complexo na Figura B-4 se assemelha ao som da voz humana, ou
seja, o som gerado pelas pregas vocais. Este som harmonicamente rico, e os harmnicos so espaados
em intervalos correspondentes frequncia fundamental da vibrao das pregas vocais. Os espectros na
Figura B-4 so todos espectros de linha, assim chamados porque os espectros so compostos de linhas.
FIGURA B-4. Pares de forma de onda e espectro: (A) senoide, (B) tom complex com trs harmnicos e
(C) tom complexo com seis harmnicos.

At aqui a discusso esteve restrita a tons complexos ou sons com uma composio harmnica.
Harmnicos so mltiplos inteiros. Se o primeiro harmnico 100 Hz, ento o segundo harmnico 200
Hz, o terceiro 300 Hz e assim por diante. Sons com estrutura harmnica so peridicos, significando
que algum padro vibratrio bsico recorre repetidamente em um intervalo fixo. O intervalo fixo o
perodo fundamental ou o perodo do harmnico mais baixo. No exemplo acabado de ser citado, o
perodo fundamental de uma sequncia harmnica de 100, 200 e 300 Hz seria 10 ms, o perodo do
harmnico mais baixo. Mas nem todos os sons do mundo, ou mesmo na fala, so complexos harmnicos.
Muitos sons so ruidosos e no possuem um padro regular recorrente de vibrao. O rudo muito muito
mais aleatrio por natureza. Essa aleatoridade mostrada na Figura B-5 tanto na forma de onda quanto no
espectro. A forma de onda parece ruidosa a amplitude varia sem um padro detectvel. O espectro
mostra que o rudo composto de energia em muitas frequncias diferentes. Esse tipo de espectro
chamado de espectro contnuo.
A forma de onda e espectro so formas alternativas de representar um som. As duas representaes so
matematicamente relacionadas por uma operao chamada de transformada de Fourier. Um espectro s
vezes chamado de espectro de Fourier, e a anlise de Fourier um tipo muito comum de anlise espectral.
O objetivo bsico dessa anlise espectral converter o padro amplitude-por-tempo da forma de onda em
um padro alternativo que revela a quantidade de energia nos vrios componentes senoidais do som. Note
que a fase foi negligenciada nessa discusso simplificada. Para tornar uma forma de onda e um espectro
completamente intercambiveis, a informao de fase deveria ser includa junto anlise espectral. Essa
informao descreveria as relaes de tempo entre os componentes espectrais. Embora a fase no possa
ser negligenciada no estudo do som, ela geralmente ignorada em estudos da acstica da fala por no
contribuir criticamente para a percepo da fala.
A unidade de medida da frequncia foi definida como hertz, que uma medida linear da frequncia como
o nmero de vibraes que ocorrem em um segundo. Entretanto, o ouvido humano no percebe o tom
vocal de forma que seja linear em frequncia. Por exemplo, em um teclado de piano, um aumento
equivalente de tom julgado a ocorrer a partir do d central ao prximo d e assim por diante. Esses
intervalos so chamados oitavas e correspondem multiplicao dos valores da frequncia linear por
dois. Se subirmos uma oitava de 220, a frequncia linear correspondente ser 440 Hz.
At o momento, a unidade de medida de amplitude foi negligenciada. Esse negligenciamento deve ser
agora remediado. A amplitude conceitualmente pode ser medida em termos das excurses reais das
molculas, mas a medida seria implausivelmente difcil para a maioria das aplicaes. Em acrscimo, a
resposta humana ao som de tal forma que os julgamentos de intensidade mudam grosseirametne com o
logaritmo das mudanas fsicas reais do sinal. Por exemplo, com um logaritmo de base 10, as potncias
de 10 seriam representadas com os valores de log de 0 para 1 ou a unidade, 1 para um valor de 10, 2 para
um valor de 100, 3 para um valor de 1000, e assim por diante. Por ser a gama de amplitudes a serem
consideradas na audio humana vasta, a escala logartmica conveniente para representar essa dimenso
do som.

Figura B-5. Forma de onda (a) e espectro (b) do rudo. Note a distribuio difusa de energia no espectro.

A unidade tipicamente usada para medir a energia sonora o decibel. O decibel tem uma derivao
bastante complicada, mas a sequencia seguinte ajudar a clarific-la.
O decibel um dcimo de um bel. Por ser o bel grande demais para ser uma unidade prtica de medida, o
decibel (deci = um dcimo) usado no lugar.
O bel um logaritmo de um quociente. Lembre-se que uma escala logartmica vantajosa devido
grande extenso de amplitudes sonoras que precisam ser consideradas. Ir de uma escala linear para uma
logartmica ajuda a manter os nmeros de tamanho conveniente, por exemplo, o logaritmo de 4
corresponde a um valor linear de 10.000 (10 quarta potncia). O quociente entra na figura porque a
energia sonora medida relativa a um valor de referncia. Ou seja, a varivel energia sonora V descrita
relativa a uma energia padro S:
Energia sonora em bels = log (base 10) V / S
Por ser 1 bel (B) igual a 10 decibels (dB),
Energia sonora em decibels = 10 log (base 10) V / S
Tanto a intensidade quanto a presso sonora so comumente usadas como a medida fsica real da energia
sonora. Para a medida de intensidade ou nvel de intensidade (NI),
Intensidade sonora em dB NI = 10 log (base 10) Iv / Ip,
em que Iv a varivel intensidade e Ip a intensidade padro.
Por ser a presso sonora igual ao quadrado da intensidade, o nvel de presso sonora em dB introduz um
fator de 2:
Presso sonora em dB NPS2 = 20 log (base 10) Pv / Pp,
em que Pv a varivel presso sonora e Pp a presso sonora padro.
Neste livro, a magnitude sonora usualmente ser expressa pelo nvel de intensidade dB ou nvel de
presso sonora dB. Por esse motivo, um espectro de um som ter o eixo horizontal de freqncia (em Hz
ou kHz, em que k um multiplicador de 1000) e um eixo vertical de nvel de intensidade ou de presso
sonora em dB. Uma propriedade interessante da escala dB logartmica que a adio de valores dB
corresponde multiplicao dos valores (antilog) originais. Isso uma caracterstica til, pois simplifica
alguns clculos em acstica.

Nvel de presso sonora (SPL na sigla em ingls).

J vimos que som um fenmeno de onda em que a energia vibratria propagada em um meio. Essa
propriedade de onda pode ser representada graficamente como uma forma de onda (amplitude de
deslocamento em funo do tempo) ou um comprimento de onda (amplitude de um deslocamento em
funo da distncia). Uma das formas mais teis de se analisar o som atravs do espectro (energia em
funo da freqncia). Um apelo fundamental do espectro que mesmo sons bastante complexos podem
ser analisados como uma combinao de sons elementares, como senoides. O espectro de Fourier fornece
esse tipo de anlises, possibilitando-nos descrever vrios tipos de sons em termos das distribuies de
energia ao longo das freqncias. Uma regra geral para relacionar forma de forma e representaes
espectrais a seguinte (assumindo que formas de onda so plotadas na mesma escala de tempo): quanto
maior o pico (quinas inclinadas) da forma de onda, maior a energia nas freqncias mais altas do
espectro. Essa relao estabelecida pois traos inclinados requerem freqncias altas para sua definio.
Os sons da fala usualmente possuem energia distribuda amplamente ao longo das freqncias, mas
algumas regies de energia so mais importantes do que outras. Parte do objetivo da anlise acstica da
fala , pois, determinar como os sons diferem em seus espectros e descrever as regies espectrais mais
importantes para cada som ou classe sonora. Os captulos desse livro descrevem abordagens modernas
para tornar a fala visvel, uma empreitada que ocupou a vida de cientista da fala por vrias dcadas.
Quase um sculo atrs, Potter, Kopp e Green (1947) publicaram um livro, Visible Speech. O presente
livro poderia, similarmente, ter este subttulo e, por essa razo, relata sobre cinquenta anos de progresso
nessa busca.

Apndice C: Escalas No-Lineares de Frequncia para a Anlise da Fala

As escalas descritas nesta seo foram propostas como alternativas frequncia linear para a
representao dos sons da fala. Um argumento maior para o uso dessas escalas no-lineares de frequncia
o fato de elas se aproximam mais de uma anlise feito pelo ouvido humando do que a escala linear.
Embora essas escalas no-lineares foram especialmente importantes para vogais, elas tambm podem ser
usadas para consoantes.
Em cada uma das equaes abaixo, f designa um valor de frequncia. Equaes so definidas em valores
de mels, Barks e Koenig.
Mels tcnicos (MT) foram definidos por Fant (1973) como:
MT = (1000 / log 2) log (f / 1000 + 1)
A transformada de Bark (B para Bark) calculada de acordo com a equao de Zwicker e Terhardt
(1980) como:
B = 13 arctan (0,76f / 1000) + 3,5 arctan (f / 7500)2
Os valores de Koenig (K) de Koenig (1949) so calculados com as equaes:
K = 0,002f para 0 f < 1000
K= (4,5 log f) 11,5 para 1000 f < 10000
Para uma comparao grfica dessas escalas, vejam Miller (1989).

Glossrio

You might also like