You are on page 1of 103

FACULDADE DE E NGENHARIA DA U NIVERSIDADE DO P ORTO

Relao entre caractersticas objetivas da voz cantada e seus atributos artsticos e estticos.
Vtor Filipe Maia Baptista Fonseca Almeida

V ERSO P ROVISRIA

Mestrado Integrado em Engenharia Electrotcnica e de Computadores Orientador: Anbal Ferreira (Professor Doutor)

Janeiro de 2012

c Vtor Almeida, 2012

Resumo
A classicao da qualidade da voz, de um cantor, est geralmente associada perceo auditiva. Existem vrios parmetros de avaliao e classicao de voz cantada, mas com vrias denies pouco coerentes, sendo normalmente de carcter subjetivo e dependendo dos gostos de quem avalia. Estes parmetros esto normalmente associados ao resultado nal; sem haver a preocupao de compreender os fenmenos que originam um determinado tipo de voz, ou uma caracterstica que a faa distinguir e sobressair do ponto de vista esttico ou de qualidade global. Esta dissertao enquadra-se num projeto nanciado pela Fundao para a Cincia e Tecnologia com vista ao desenvolvimento de ferramentas de apoio ao ensino e aprendizagem de canto. Neste projeto de dissertao foram estudados os parmetros percetivos e de qualidade associados ao canto. Procurou-se, assim, claricar quais os fenmenos responsveis por essas caractersticas percetivas da voz, e as suas origens, para que estes parmetros possam ser caracterizados em termos acsticos e perceber de que forma se podem desenvolver ferramentas de anlise e de feedback visual. Dos estudos efetuados sobre os parmetros percetivos, foi possvel identicar a importncia que as ressonncias do trato vocal tm para a caracterizao da qualidade da voz. Assim, foram estudados mtodos de estimao de formantes para voz cantada. O objetivo o desenvolvimento de um sistema robusto para estimao de formantes, utilizando tanto informao de todo o sinal como do rudo da voz, e de representao em tempo real sobre um espectrograma. Durante o decorrer do projeto, foi construda uma base de dados de canto com cantores treinados que serviu de elemento de teste e estudo e servir, tambm, como material de apoio para as vrias realizaes do projeto nanciado pela Fundao para a Cincia e Tecnologia, no qual esta dissertao se enquadra.

ii

Verso 1.10 (30 de Janeiro de 2012)

Abstract
Classication of a singers voice is usually associated with auditory perception. There are several parameters for evaluation and classication of singing voice, but several inconsistent denitions, being usually subjective in nature and dependent on aesthetical preferences of who evaluates. These parameters are usually associated with the nal result, with no concern to understand the phenomena that cause a particular type of voice or a characteristic that makes it stand out and distinguish from aesthetic point of view or overall quality. This dissertation is part of a project supported by Fundao para a Cincia e Tecnologia, to develop support tools for teaching and learning of singing. In this dissertation perceptual and quality parameters associated with the singing voice were studied in order to clarify which phenomena are responsible for these perceptual characteristics of voice, understanding their origins, so that these parameters can be categorized in terms of acoustic and see how we can develop tools to help and support the learning/teaching of singing. With the studies carried out in the perceptual parameters, it was possible to identify the importance of the vocal tract resonances to characterize the voice quality. Thus, we studied methods for formants estimation in the singing voice. The goal is the development of a robust formants estimation method for singing voice, using the entire signal and also the noise of the voice, so that they can be represented in real time on a spectrogram. During the course of the project, a database of singing voices was recorded by trained singers. This database served as element of study and test for this project. It will also serve to support the various achievements of the project nanced by the Fundao para a Cincia e Tecnologia, where this thesis ts.

iii

iv

Verso 1.10 (30 de Janeiro de 2012)

Agradecimentos
Quero agradecer ao Professor Doutor Anbal Ferreira pela sua orientao e apoio, bem como pela oportunidade de trabalhar neste projeto. Uma palavra tambm ao Doutor Ricardo Sousa pela sua disponibilidade e apoio durante a dissertao; bem como a todas as pessoas com quem partilhei o espao de trabalho, pelo ambiente de entreajuda criado. Aos meus pais, por todo o apoio e disponibilidade, principalmente nas adversidade do caminho, onde estiveram sempre ao meu lado. minha irm, av e restante amigos, pelo apoio durante toda esta caminhada.

Vtor Almeida

vi

Verso 1.10 (30 de Janeiro de 2012)

A cincia de hoje a tecnologia de amanh.

Edward Teller

vii

viii

Verso 1.10 (30 de Janeiro de 2012)

Contedo
1 Introduo 1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Caracterizao do estado da arte 2.1 Introduo . . . . . . . . . . . . . . . . . . . . 2.2 Voz . . . . . . . . . . . . . . . . . . . . . . . 2.3 Voz Cantada . . . . . . . . . . . . . . . . . . . 2.3.1 Frequncia Fundamental . . . . . . . . 2.3.2 Vibrato . . . . . . . . . . . . . . . . . 2.3.3 Formantes e formante de cantor . . . . 2.3.4 Vozeamento . . . . . . . . . . . . . . . 2.4 Perceo . . . . . . . . . . . . . . . . . . . . . 2.5 Parmetros qualitativos e percetivos . . . . . . 2.5.1 Anao . . . . . . . . . . . . . . . . 2.5.2 Tessitura . . . . . . . . . . . . . . . . 2.5.3 Timbre . . . . . . . . . . . . . . . . . 2.5.4 Falsete . . . . . . . . . . . . . . . . . 2.5.5 Ataque . . . . . . . . . . . . . . . . . 2.5.6 Vibrato . . . . . . . . . . . . . . . . . 2.5.7 Legato . . . . . . . . . . . . . . . . . 2.5.8 Staccato . . . . . . . . . . . . . . . . . 2.5.9 Micro-dinmicas e destreza vocal . . . 2.6 Aplicaes . . . . . . . . . . . . . . . . . . . . 2.6.1 Estimao e mapeamento de formantes 2.6.2 Deteo e caracterizao de vibrato . . 2.7 Concluses . . . . . . . . . . . . . . . . . . . Estimao e mapeamento de formantes 3.1 Introduo . . . . . . . . . . . . . . . . 3.2 Modelo fonte-ltro . . . . . . . . . . . 3.3 Estimao de trato vocal . . . . . . . . 3.3.1 Linear Prediction Coding . . . . 3.3.2 Cepstrum . . . . . . . . . . . . 3.4 Estimao da frequncia dos formantes 3.5 Mapeamento temporal dos formantes . . 3.6 Concluses . . . . . . . . . . . . . . . ix 1 1 2 2 3 3 3 5 6 6 7 9 9 12 12 12 12 15 15 15 15 16 16 17 17 19 19 21 21 21 22 22 23 24 30 33

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

CONTEDO

Teste e resultados 4.1 Introduo . . . . . . . . . . . . . 4.2 Base de dados . . . . . . . . . . . 4.2.1 Voz sintetizada . . . . . . 4.2.2 Voz natural . . . . . . . . 4.3 Testes . . . . . . . . . . . . . . . 4.3.1 Testes com vozes sintticas 4.3.2 Testes com vozes naturais 4.4 Concluses . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

35 35 35 35 37 38 39 42 51 53 54 55 55 55 58 66 66 68 74 78 81 81 82 83

Concluso 5.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A Anexo A - Descries estatsticas dos testes A.1 Descries estatsticas dos testes com vozes naturais A.1.1 Praat . . . . . . . . . . . . . . . . . . . . . A.1.2 Mtodos implementados . . . . . . . . . . . A.2 Descries estatsticas dos testes com vozes sintticas A.2.1 Praat . . . . . . . . . . . . . . . . . . . . . A.2.2 Mtodos implementados . . . . . . . . . . . A.2.3 Grcos . . . . . . . . . . . . . . . . . . . . A.2.4 Relao de proximidade aos harmnicos . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

B Anexo B - Equipamentos utilizados nas gravaes B.1 Microfone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Pr-amplicador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Referncias

Verso 1.10 (30 de Janeiro de 2012)

Lista de Figuras
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 Trato Vocal [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espectrogramas da mesma frase na forma cantada e falada [5] (adaptada) . . . . Exemplos de vibrato (adaptada) [13] . . . . . . . . . . . . . . . . . . . . . . . . Anao de formantes [2] (adaptada) . . . . . . . . . . . . . . . . . . . . . . . Espectro do formante de cantor e sua comparao com a orquestra [2] (adaptada) Jitter, Shimmer, SNR e D2 para seis estilos de msica [19] . . . . . . . . . . . . Catalogao de tipos de voz masculinas consoante a tessitura (Fach) [22] . . . . Catalogao de tipos de voz femininas consoante a tessitura (Fach) [22] . . . . . Erros tpicos de estimao de formantes [29] (adaptada) . . . . . . . . . . . . . Espectograma com o tracking dos formantes encontrados (Vogal o de um Contralto), de notar que o padro de cores est inverso ao habitual. . . . . . . . . . . 4 5 7 8 9 10 13 13 18 19 22 23 25 26 27 28 29 30 31 31 32 36 37 38 40 41 42 43 44 45

Modelo fonte-ltro [32] (adaptada) . . . . . . . . . . . . . . . . . . . . . . . . Exemplo de envolvente obtida com modelo baseado em LPC (preto) do espectro de um sinal (azul) para modelao do trato vocal . . . . . . . . . . . . . . . . . 3.3 Primeiro nvel de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Processo de estimao do resduo . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 As envolventes espectrais calculadas . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Processo de estimao de candidatos a formantes pela segunda derivada da envolvente espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Segundo nvel de processamento. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Dois possiveis erros de tracking (Vogal o de um Contralto) . . . . . . . . . . . 3.9 Exemplicao da alocao de formantes no stream . . . . . . . . . . . . . . . . 3.10 Processamento do tracking dos formantes . . . . . . . . . . . . . . . . . . . . . 3.11 Pormenor da possibilidade de erro por proximidade (3o e 4o formantes da vogal a de um Baixo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Diagrama de blocos do sintetizador utilizado [40] . . . . . . . . . . . . . . . . . Diferena dos resultados dos dois sintetizadores abordados . . . . . . . . . . . . Congurao de estimao de formantes do Praat . . . . . . . . . . . . . . . . . Grco representativo do erro mdio de estimao dos formantes da vogal sinttica i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grco representativo do erro mdio de estimao dos formantes da vogal sinttica a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimao de formantes da vogal a de um Baixo . . . . . . . . . . . . . . . . . Estimao de formantes da vogal i de um Baixo . . . . . . . . . . . . . . . . . Estimao de formantes da vogal a de um Tenor . . . . . . . . . . . . . . . . . Estimao de formantes da vogal i de um Tenor . . . . . . . . . . . . . . . . . xi

3.1 3.2

xii

LISTA DE FIGURAS

4.10 4.11 4.12 4.13 A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10

Estimao de formantes da vogal a de uma Contralto Estimao de formantes da vogal i de uma Contralto . Estimao de formantes da vogal a de uma Soprano . Estimao de formantes da vogal i de uma Soprano .

. . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

46 47 48 49 74 74 75 75 75 76 76 76 77 77 81 82

Estatsticas relativos do 1o formante da vogal sinttica i Estatsticas relativos do 2o formante da vogal sinttica i Estatsticas relativos do 3o formante da vogal sinttica i Estatsticas relativos do 4o formante da vogal sinttica i Estatsticas relativos do 5o formante da vogal sinttica i Estatsticas relativos do 1o formante da vogal sinttica i Estatsticas relativos do 2o formante da vogal sinttica i Estatsticas relativos do 3o formante da vogal sinttica i Estatsticas relativos do 4o formante da vogal sinttica i Estatsticas relativos do 5o formante da vogal sinttica i

B.1 Especicaes do microfone utilizado nas gravaes [41] . . . . . . . . . . . . . B.2 Especicaes do pr-amplicar utilizado nas gravaes [42] . . . . . . . . . . .

Verso 1.10 (30 de Janeiro de 2012)

Lista de Tabelas
2.1 2.2 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 A.11 A.12 A.13 A.14 Exemplos de cantores Claro/Escuro [22] . . . . . . . . . . . . . . . . . . . . . . Exemplos de cantores Voz leve/Voz pesada [22] . . . . . . . . . . . . . . . . . . Frequncias dos formantes das vogais sintetizadas . . . . . . . . . . . . . . . . Erros relativos das frequncias estimadas pelos vrios mtodos para a vogal i Erros relativos em relao aos harmnicos tericos, vogal i com F0 = 880 Hz Erros relativos das frequncias estimadas pelos vrios mtodos para a vogal a Erros relativos em relao aos harmnicos tericos, vogal a com F0 = 880 Hz Mdias dos formantes, vogal a de um Baixo . . . . . . . . . . . . . . . . . . Mdias dos formantes, vogal i de um Baixo . . . . . . . . . . . . . . . . . . Mdias dos formantes, vogal a de um Tenor . . . . . . . . . . . . . . . . . . Mdias dos formantes, vogal i de um Tenor . . . . . . . . . . . . . . . . . . Mdias dos formantes, vogal a de uma Contralto . . . . . . . . . . . . . . . . Mdias dos formantes, vogal i de uma Contralto . . . . . . . . . . . . . . . . Mdias dos formantes, vogal a de uma Soprano . . . . . . . . . . . . . . . . Mdias dos formantes, vogal i de um Soprano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 36 39 40 40 41 43 44 45 46 47 48 49 50 55 55 56 56 56 57 57 57 58 59 60 61 62 63

Descries estatsticas dos resultados do Praat da vogal a de um Baixo . . . . . Descries estatsticas dos resultados do Praat da vogal i de um Baixo . . . . . Descries estatsticas dos resultados do Praat da vogal a de um Tenor . . . . . Descries estatsticas dos resultados do Praat da vogal i de um Tenor . . . . . Descries estatsticas dos resultados do Praat da vogal a de uma Contralto . . Descries estatsticas dos resultados do Praat da vogal i de uma Contralto . . Descries estatsticas dos resultados do Praat da vogal a de uma Soprano . . . Descries estatsticas dos resultados do Praat da vogal i de uma Soprano . . . Descries estatsticas dos resultados dos mtodos implementados da vogal a de um Baixo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descries estatsticas dos resultados dos mtodos implementados da vogal i de um Baixo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descries estatsticas dos resultados dos mtodos implementados da vogal a de um Tenor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descries estatsticas dos resultados dos mtodos implementados da vogal i de um Tenor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descries estatsticas dos resultados dos mtodos implementados da vogal a de uma Contralto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descries estatsticas dos resultados dos mtodos implementados da vogal i de uma Contralto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii

xiv

LISTA DE TABELAS

A.15 Descries estatsticas dos resultados dos mtodos implementados da vogal a de uma Soprano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.16 Descries estatsticas dos resultados dos mtodos emplementados da vogal i de uma Soprano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.17 Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.18 Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.19 Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.20 Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.21 Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.22 Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.23 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . . A.24 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . A.25 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . . A.26 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . A.27 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . . A.28 Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . A.29 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . . . . . A.30 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 220 Hz . . . . . . . . . . . . . . . . . . . . A.31 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . . . . . A.32 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 440 Hz . . . . . . . . . . . . . . . . . . . . A.33 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . . . . . A.34 Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 880 Hz . . . . . . . . . . . . . . . . . . . .

64 65 66 66 66 67 67 67 68 69 70 71 72 73 78 78 78 79 79 79

Verso 1.10 (30 de Janeiro de 2012)

Abreviaturas e Smbolos
FEUP FCT ESMAE GIRBAS LPC HMM ODFT F0 Fn Hn Faculdade de Engenharia da Universidade do Porto Fundao para a Cincia e Tecnologia Escola Superior de Msica e Artes do Espetculo Grade, instability, roughness, breathiness, asthenia, and strain Linear Predictive Coding Hidden Markov Models Odd-Discrete Fourier Transform Frequncia fundamental Formante n Harmnico n

xv

xvi

ABREVIATURAS E SMBOLOS

Verso 1.10 (30 de Janeiro de 2012)

Captulo 1

Introduo

1.1

Motivao

De um modo geral, a voz humana, como importante rgo de comunicao, tem sido tema para estudos dentro de vrios mbitos, desde o foro mdico com estudos da qualidade e da correta utilizao da voz, ao foro forense como estudos para a criao de solues de identicao de orador. A voz seja ela falada ou cantada, o resultado da articulao dos rgos que compem o aparelho fonatrio humano, sendo assim um fenmeno sujeito a variaes recorrentes de vrios fatores, como condies fsicas, psicolgicas, mdicas ou de postura. Devido a estas caractersticas complexas do sistema de voz, surge a necessidade de estudar e relacionar entre vrias caractersticas, de forma a melhor poder compreender o seu mecanismo; podem, assim, ser criadas solues de reconhecimento de orador, de estudo das condies siolgicas e psicolgicas do orador, de medio da qualidade da voz e, no caso da voz cantada, de mensurao e avaliao tanto do ponto de vista de sade, como do ponto de vista artstico e esttico. Do ponto de vista de estudos da voz cantada e a relao entre as caractersticas acsticas da mesma e os princpios de avaliao percetiva dessa mesma voz do ponto de vista artstico e esttico, poucos so os estudos existentes. Salienta-se a ambiguidade nas relaes j estabelecidas entre as caractersticas acsticas e esses atributos de avaliao percetiva, faltando estabelecer um certo consenso e normalizao destas denies. neste contexto que se enquadra este projeto de dissertao, com o propsito do desenvolvimento de novas ferramentas de correspondncia entre as caractersticas objetivas e os atributos percetivos de avaliao e caracterizao; bem como ferramentas de feedback visual que fornea ao cantor e ao seu formador informao em tempo real das caractersticas acsticas da voz, relacionando-as com possveis atributos percetivos utilizados na avaliao do tipo e qualidade da voz de um cantor. 1

Introduo

1.2

Enquadramento

O projeto de dissertao Relao entre caractersticas objetivas da voz cantada e seu atributos artsticos e estticos enquadra-se num projeto nanciado pela Fundao para a Cincia e Tecnologia (FCT) que visa o desenvolvimento de tecnologias interativas de apoio ao ensino e aprendizagem de canto, bem como para a monitorizao preventiva da voz, seja na forma cantada ou falada. Este projeto FCT multidisciplinar, englobando especialistas nas reas de ensino de canto, engenharia e otorrinolaringologia. Tem como objetivo desenvolver solues que auxiliem e otimizem o ensino e treino de canto, bem como a sua execuo correta e segura prevenindo eventuais distrbios vocais. Assim esperado o desenvolvimento de um sistema de feedback visual em tempo real da qualidade de vrios parmetros da voz cantada de forma a ser aglutinado ao software SingingStudio R anteriormente desenvolvido pela spin-off da Faculdade de Engenharia da Universidade do Porto Seegnal. A tarefa de relacionamento entre caractersticas subjetivas e parmetros acsticos da voz cantada tem como objetivo identicar e caracterizar parmetros de avaliao percetiva da voz cantada, investigando que caractersticas acsticas melhor se correlacionam, e desenvolver algoritmos ecientes para estimar essas relaes. Estes algoritmos sero ento utilizados no desenvolvimento de uma plataforma interativa de apoio ao ensino de canto para implementao de uma representao visual e em tempo real dos parmetros percetivos associados. Para este efeito, este projeto desenvolvido em articulao com um cantor da Escola Superior de Msica e Artes do Espetculo (ESMAE) do Instituto Politcnico do Porto, na vertente da denio dos conceitos percetivos de caracterizao da voz cantada.

1.3

Estrutura

Esta dissertao encontra-se dividida em cinco captulos. Neste primeiro feita uma introduo ao tema do projeto bem como ao seu enquadramento. No segundo captulo feita uma descrio de conceitos fundamentais de caractersticas acsticas e percetivas da voz, em especial na forma cantada; bem como a reviso do estado de arte no mbito do tema desta dissertao. No terceiro captulo descrito o sistema de estimao e mapeamento de formantes que foi desenvolvido, sendo descritos os mtodos e as ferramentas utilizadas bem como as diculdades que foram encontradas durante o desenvolvimento. No quarto captulo so descritos todos os testes efetuados, bem como a elaborao da base de dados de canto utilizada para nesta dissertao. Para terminar, no quinto captulo, constam as concluses nais do trabalho realizado, tendo em conta os resultados conseguidos; e a descrio de trabalho futuro a realizar de forma a melhorar o desempenho do sistema desenvolvido bem como na construo e implementao de novos sistemas relacionados com o tema.

Verso 0.92 (30 de Janeiro de 2012)

Captulo 2

Caracterizao do estado da arte


2.1 Introduo

Neste captulo feita uma breve descrio da voz distinguindo a voz falada da voz cantada e enumeradas as caractersticas objetivas relevantes para o desenvolvimento desta dissertao. feito um estudo de parmetros de avaliao percetiva da voz cantada que foi levado a cabo por mim, bem como um resumo do levantamento efetuado pelo cantor da ESMAE que trabalhou em articulao comigo nesta vertente do projeto. tambm feito um levantamento de mtodos de anlise de caractersticas acsticas de sinal relevantes para o desenvolvimento desta dissertao, mais concretamente metodologias de estimao e mapeamento de formantes.

2.2

Voz

A produo de voz comea com o aumento da presso do ar nos pulmes originando assim um uxo de ar que ir passar pelas pregas vocais. Se as pregas vocais estiverem aduzidas haver ento resistncia sada do ar, causando assim a vibrao das pregas vocais a qual gera o chamado som larngeo que fonte sonora da voz, sendo a base da fala e do canto [1]. Este som composto pela frequncia fundamental que a frequncia de vibrao das pregas vocais e pelos seus parciais harmnicos [1] [2]. A frequncia fundamental depende das caractersticas morfolgicas das pregas vocais e da laringe. Assim, as diferenas na frequncia fundamental entre crianas, adultos do sexo feminino e adultos do sexo masculinos so devidos aos diferentes tamanhos da laringe e das pregas vocais [1]. O som larngeo passa ento pelo conjunto de cavidades supra-glticas constitudos pela laringe, faringe, boca e cavidade nasal normalmente designado de trato vocal [1], sendo este no mais do que uma caixa de ressonncia na qual a transmisso dos parciais do som larngeo vai ser dependente das frequncias de ressonncia sendo estes parciais modelados de forma diferente ao longo do espectro, uns mais atenuados que outros [2]. 3

Caracterizao do estado da arte

Figura 2.1: Trato Vocal [3]

O trato vocal, representado na Figura 2.1 responsvel por quatro ou cinco importantes ressonncias chamadas de formantes. A presena destes formantes impe picos ao espectro do som larngeo modicando a sua envolvente espectral. So estas perturbaes que permitem a produo de sons distintos [2] como a produo das vrias vogais. As frequncias destas ressonncias podem ser alterados por meio da modicao do trato vocal, sendo dependentes da forma do trato vocal [2]. Assim, uma constrio ou uma expanso de um ponto do trato vocal afeta a localizao das frequncias dos formantes, sendo que o trato vocal tem a caracterstica de poder ser modicado com relativa rapidez [1], facilitando assim modicaes acsticas ao som larngeo, de forma produo lingustica. Segundo Sundberg [2] existem trs importantes formas de modelao do trato vocal de forma a deslocar a frequncia de trs das importantes ressonncias, que originam os trs formantes de frequncia mais baixa. Assim, a abertura da mandbula decisiva na localizao da frequncia do formante de frequncia mais baixa, primeiro formante; quanto mais aberta a mandbula, mais alta a frequncia do primeiro formante. Quanto frequncia do segundo formante, esta sensvel variao da forma do tronco da lngua, enquanto que a posio da extremidade da lngua a maior responsvel pela variao de frequncia do terceiro formante. Com estes trs importantes formantes, a envolvente espectral pode ser modelada de forma a originar vrias conguraes associadas s vrias vogais. Verso 0.92 (30 de Janeiro de 2012)

2.3 Voz Cantada

2.3

Voz Cantada

Falar e cantar so dois modos de uso do mesmo sistema [4]; sendo que os dois tm muitas propriedades em comum por serem produtos do mesmo mecanismo, mas h importantes diferenas entre os dois, desde diferenas percetivas s diferentes caractersticas acsticas. Uma representao ilustrativa desta diferena entre a voz falada e cantada est na Figura 2.2 onde se pode vericar que a forma cantada normalmente mais sustentada, tendo tambm a energia mais distribuda pelo espectro ou a maior separao entre os harmnicos. Pelos resultados de estudos que mostram que um humano distingue a voz cantada da voz falada com 70% e 95% de exatido para amostras de trezentos milissegundos e um segundo respetivamente [5] podemos concluir que os dois modos so bem distinto.

Figura 2.2: Espectrogramas da mesma frase na forma cantada e falada [5] (adaptada) Segundo estudos de Johan Sundberg [6], os cantores utilizam a voz de uma forma bem diferente dos no cantores, mostrando uma grande independncia de parmetros fonatrios na produo de voz [1]. Existem vrias diferenas entre a voz falada e a cantada, por exemplo, as duraes dos fonemas das vogais no caso da voz cantada so superiores s da voz falada; sendo o loudness (intensidade), na voz cantada normalmente superior ao da voz falada. Quanto ao pitch (frequncia fundamental), geralmente superior na forma cantada em relao forma falada, sendo que na forma cantada poder existir uma variao de forma a introduzir uma certa perceo de musicalidade sua produo. Verso 0.92 (30 de Janeiro de 2012)

Caracterizao do estado da arte

2.3.1

Frequncia Fundamental

Como j referido, pela frequncia fundamental podemos distinguir a voz cantada da voz falada. Um cantor treinado quando canta utiliza uma gama de frequncias fundamentais superior s utilizadas na voz falada [7], estando compreendida entre os 80 e os 400 Hz na voz falada, enquanto na voz cantada a gama mais ampla podendo chegar ao 1400 Hz na voz de um soprano [8]; no geral, a frequncia fundamental superior na voz cantada em relao da voz falada. Para alm desta diferena, na voz cantada a energia da frequncia fundamental tambm ela superior da voz falada. Na voz falada a variao da frequncia fundamental est associada a estados emocionais [7] enquanto a variao no caso da voz cantada, controlada pelo cantor [9]. A nvel percetivo, e numa primeira instncia, correlaciona-se diretamente a frequncia fundamental com o Pitch ou altura do som.

2.3.2

Vibrato

Uma outra importante caracterstica acstica da voz cantada o vibrato, que do ponto de vista percetivo uma modicao peridica ou quase peridica da frequncia fundamental de uma determinada nota [10]. No existe na voz falada, sendo ento considerada uma especicao musical [11] que no se encontra presente somente na voz, mas em instrumentos musicais. De facto mais evidente percetivamente a sua presena nestes instrumentos musicais do que na voz [10]. Do ponto de vista acstico consiste numa variao de frequncia de um conjunto de parciais que compem a voz, como ilustrado na Figura 2.3, normalmente acompanhada tambm de uma variao de amplitude [11]. Esta condio acstica est relacionada com caractersticas percetivas tais como pitch, timbre e sonoridade; sendo que destas o pitch o mais estudado [12]. Embora seja uma das caractersticas mais abordadas no estudo do canto, muitos aspetos permanecem ainda pouco claros; como a razo das suas caractersticas acsticos mais relevantes ou a relao com aspetos psicolgicos [12]. O vibrato pode ser caracterizado pela sua frequncia, a sua regularidade, extenso e forma de onda [14]. A frequncia do vibrato considerada constante para cada cantor, sendo difcil de ser alterado at pelo treino [1] e normalmente encontra-se compreendida entre os 5 e 7 Hz [1] [10] [14]. O seu estudo tem sido levado a cabo seguindo abordagens diferentes, dependendo da relao ou caracterstica a estudar os investigadores tm escolhido a abordagem que acham mais pertinente para o caso. Estudos que contemplam s a variao da amplitude no vibrato foram levados a cabo recorrendo a uma abordagem de modelo sinusoidal [12] utilizando modelos de sinais puros sem dar grande importncia relao entre a variao da amplitude e a variao da frequncia, ignorando processos importantes presentes na produo de voz [12]. Devido complexidade na produo de voz, e sem descurar os processos que nas abordagens de modelo sinusoidal so ignorados, entres os quais a relao entre a cavidade sub-gltica Verso 0.92 (30 de Janeiro de 2012)

2.3 Voz Cantada

Figura 2.3: Exemplos de vibrato (adaptada) [13] e a supra-gltica, tm sido utilizadas abordagens de sistemas interativos fonte-ltro no estudo do vibrato [15]. Quanto a uma possvel correlao com caractersticas percetivas para alm da sentida variao da nota, as denies percetivas sobre o vibrato baseiam-se na sua qualidade, considerando o vibrato como uma caracterstica percetiva. Segundo Johan Sundberg [6], vibratos abaixo do 5.5 Hz so vibratos demasiado lentos e acima dos 7.5 Hz so demasiados nervosos [1].

2.3.3

Formantes e formante de cantor

Um possvel problema na voz cantada prende-se com o fato de a frequncia fundamental poder ser superior frequncia do primeiro ou at dos dois primeiros formantes de uma vogal, o que a acontecer torna o som fraco, sem que o cantor tire partido das ressonncias do trato vocal de forma a amplicar o som da sua voz. Assim, surge a necessidade de elevar a frequncia dos primeiros formantes, arrastando o primeiro formante para a frequncia fundamental ilustrada na Figura 2.4, utilizando assim todo o potencial das ressonncias do trato vocal de forma a amplicar a voz, diminuindo o esforo vocal [2]. Verso 0.92 (30 de Janeiro de 2012)

Caracterizao do estado da arte

Figura 2.4: Anao de formantes [2] (adaptada)

Devido importncia dos formantes na denio das vogais, ao ser efetuado este deslocamento dos formantes de esperar que se perca a capacidade de identicao das mesmas, mas isso no acontece assim; principalmente por estarmos largamente habituados a ouvir vogais produzidas com diversas frequncias fundamentais e com localizaes diferentes dos formantes que as originam [2]. Do ponto de vista acstico, uma das principais caractersticas que destaca a voz cantada da voz falada a existncia de um formante extra de elevada energia situado entre os 2000 e os 3500 Hz, vulgarmente designado de formante dos cantores [1] que facilita o perceo da voz do cantor quando o canto acompanhado por orquestra [6], estando o seu efeito ilustrado na Figura 2.5. De acordo com estudos anteriores, o formante de cantor um fenmeno de ressonncia de um conjunto formado pelos formantes trs, quatro e cinco, onde a separao entre estes trs formantes menor na voz cantada do que na voz falada. O nvel e a frequncia central deste formante extra relacionado com a frequncia fundamental, a vogal emitida, a intensidade, entre outros fatores acsticos [1] [7] [6]. O nvel do formante do cantor aumenta de entre 16 e 19 dB, dependendo do cantor ou da vogal por cada aumento do nvel de som global em 10 dB [6]. Quanto frequncia central deste formante, segundo Johan Sundberg [6], relaciona-se com a classicao da voz; sendo menor para cantores cuja voz classicada como baixos e maior para tenores; no mesmo estudo, tambm, Johan Sundberg mostrou que para a maioria dos sopranos observam-se dois picos no formante do cantor, o que sugere que os formantes que o constituem no se encontram muito prximos [6]. Sendo um fenmeno de ressonncia, normalmente associado a caractersticas percetivas tambm relacionadas com a ressonncia [16]. Verso 0.92 (30 de Janeiro de 2012)

2.4 Perceo

Figura 2.5: Espectro do formante de cantor e sua comparao com a orquestra [2] (adaptada)

2.3.4

Vozeamento

Outra caracterstica da voz cantada em relao voz falada o rcio de som vozeado e no vozeado que constitui esses dois modos. Enquanto, na voz falada teremos um rcio de 60% de sons vozeados, no caso da voz cantada esse rcio pode subir at aos 95% [7]. Para alm deste aumento do rcio de sons vozeados tambm possvel que algumas vogais, sejam modicadas propositadamente ou involuntariamente no caso da voz cantada [9].

2.4

Perceo

A qualidade da voz, seja do ponto de vista siolgico clnico ou artstico, tem sido um dos temas abordados por investigadores, mas denir a qualidade da voz problemtico, pois a qualidade de um som est normalmente associada sensao auditiva [17] que claramente multidimensional. Neste sentido aparece a necessidade de estudar a correlao entre caractersticas percetivas e caractersticas acsticas da voz, como uma alternativa, tanto para a medio da qualidade da voz falada como da voz cantada. Existem estudos com resultados contraditrios em relao correlao entre os parmetros de avaliao percetiva e as caractersticas acsticas; isto provavelmente acontece por existirem vrias normalizaes para a avaliao de voz, no havendo em certos casos consenso nas suas denies. Estudos sobre a correlao dos parmetros GIRBAS (Grade, instability, roughness, breathiness, asthenia, and strain) para avaliao de vozes patolgicas e caractersticas acsticas da voz chegam concluso que esta correlao, a existir, no obtida linearmente por nenhum dos conhecidos parmetros acsticos; havendo vrios motivos que dicultam este relacionamento [18]. Verso 0.92 (30 de Janeiro de 2012)

10

Caracterizao do estado da arte

Figura 2.6: Jitter, Shimmer, SNR e D2 para seis estilos de msica [19] No caso da perceo na voz cantada, para alm de em algumas das denies de parmetros percetivos j normalizados no haver correlao direta entre esses parmetros e as caractersticas acsticas mais conhecidas, temos tambm o problema da avaliao percetiva de uma voz depender fortemente do avaliador que a escuta e que tem de julgar se o som escutado similar ou no com um outro som de referncia [17]. Do ponto de vista da voz cantada, como para as vozes patolgicas, a avaliao percetiva subjetiva e pouco precisa. Pode-se ter a avaliao de uma voz baseada em parmetros j prdenidos ou uma descrio pessoal da voz. A nvel percetivo, existem vrios estudos referentes a estilos musicais, enquanto que os de classicao do tipo de voz, como o objetivo deste projeto, no abundam. Apesar desta discrepncia de objetivos, algumas caractersticas destes estudos so interessantes do ponto de vista da classicao do tipo de voz, visto que alguns estilos de canto so diretamente relacionados a certos tipos de voz e as caractersticas acsticas estudadas so prximas das que vo ser estudadas neste projeto. No estudo de Caitlin J. Butte intitulado Perturbation and Nonlinear Dynamic Analysis of Different Singing Styles, utilizando a anlise de perturbaes e de dinmica no linear, a autora estuda a correlao entre caractersticas acsticas e diversos estilos musicais [19]. Pode-se vericar que em estilos musicais diferentes vericam-se caractersticas acsticas tambm distintas como mostra a Figura 2.6. A nvel da avaliao e descrio de uma voz cantada, a terminologia para descrever esse som muito variada e, deste exerccio de avaliao podem aparecer termos como lrica, dramtica, soprosa, clara, pesada, nasal, trmula, focada, entre outros [20]. Verso 0.92 (30 de Janeiro de 2012)

2.4 Perceo

11

Do ponto de vista da correlao das classicaes do tipo de vozes com caractersticas acsticas, normalmente encontramos associaes com o pitch, frequncia fundamental e com o formante do cantor, no caso de caractersticas percetivas de ressonncia [16]. Para algumas denies tambm se encontra alguma correlao com o vibrato, mas como j mencionado, normalmente o vibrato no associado por si s a uma caracterstica percetiva, visto este derivar do pitch e da sua variao. A nvel de avaliao de vozes esto estabelecidos parmetros de avaliao quanto extenso vocal, que se refere ao grupo de notas que um cantor consegue produzir, mesmo com baixa qualidade tmbrica; estas avaliaes so j bastante estudadas no que toca frequncia fundamental do som. Algumas denies foram tomadas para certos termos de avaliao vocal. Por exemplo a caracterizao de uma voz brilhante ou escura demonstra a complexidade da voz, pois so muito poucas as vozes que so exclusivamente claras ou escuras, contendo normalmente elementos das duas classicaes [20]. Uma voz brilhante est relacionada com o brilho e o poder, a energia de execuo, normalmente tendo um pitch elevado, enquanto uma escura tem um baixo pitch estando associada a calor e plenitude. Sendo que este parmetro de classicao est associado distribuio espectral de energia. Tambm existem descries de sons consoante a perceo da sua origem; os posteriores, que do a sensao de serem produzidos na laringe ou na raiz da lngua, e que esto normalmente associados a tons escuros; e os frontais associados a sons mais brilhantes, e que do a sensao de serem produzidos na caixa de ressonncia bocal [20]. Podemos tambm denir as vozes consoante a quantidade de ar que expelido na sua produo, temos ento o caso de uma voz ser mais soprosa, sendo expelido maior quantidade de ar aquando esta produzida sendo acompanhada de um gnero de rudo, ou o caso de uma voz mais clara, livre, quando necessita de menor quantidade de ar a ser expelido para ser formada [20]. Existe uma descrio do tipo de voz que tambm coloca num extremo as vozes claras e limpas, com baixo rudo, e num outro o tipo de voz rouca, que se diferencia do tipo de voz soprosa no tipo de rudo por que acompanhada, sendo neste caso um rudo no branco. Normalmente, este tipo est associada a patologia vocal, mas alguns cantores incluem deliberadamente este efeito [20]. Uma das caractersticas percetivas mais estudadas em relao voz cantada, em particular em performances clssicas, a caracterstica de Ring. Acusticamente, esta uma amplicao nas altas frequncias [20], estando normalmente associada ao formante de cantor, que desta forma consegue que a sua voz sobressaia em relao a uma orquestra. Esta caracterstica est ilustrada na Figura 2.5. Outra descrio que se pode fazer de uma voz a existncia ou no de timbre nasal. Esta caracterstica acontece quando a comunicao entre a cavidade bocal e a cavidade nasal no se encontra totalmente fechada, ou at se encontra totalmente aberta, fazendo com que haja uma ressonncia extra. Alguns especialistas em msica dizem que ressonncia nasal no deveria existir em voz cantada, enquanto outros referem que esta importante para a correta utilizao da voz Verso 0.92 (30 de Janeiro de 2012)

12

Caracterizao do estado da arte

cantada [21]. Percetivamente, a existncia de mais ou menos ressonncia nasal acaba por ser uma questo subjetiva, esttica [21] ou cultural. De notar tambm que, embora as denies sejam feitas em termos de extremos, poucas so as vozes que realmente se encontram nos extremos destas denies, a maioria encontra-se em patamares intermdios das vrias denies. Ao longo do tempo, tempo este numa perspetiva longa, percetvel a evoluo das vozes, variando as suas caractersticas, consoante o treino o desgaste ou o envelhecimento do sistema fonatrio dos cantores; como por exemplo, para quem acompanhou a carreira de Frank Sinatra notou um aumento de rouquido na sua voz [20].

2.5

Parmetros qualitativos e percetivos

Como j referido, no decorrer deste projeto tive o auxlio de um cantor da ESMAE, Joo Ferreira, para a caracterizao da voz em termos de parmetros qualitativos e percetivos da voz cantada, sendo importante o ponto de vista de um cantor prossional e de grande relevncia e acrscimo o estudo de vrias denies de parmetros percetivos da voz levado a cabo por ele. Com autorizao do Joo Ferreira so aqui descritos os resultados do seu estudo.

2.5.1

Anao

Anao a capacidade de produo de um som, do ponto de vista de frequncia fundamental, igual a outro. de realar que no conceito de anao importante a referncia escala utilizada; sendo a mais comummente usada a escala igualmente temperada, sendo que nesta cada oitava igualmente dividida em doze semitons. A relao entre a frequncia de uma nota e um semitom acima de 12 2 [22].

2.5.2

Tessitura

Designa-se tessitura ao conjunto de notas que um cantor consegue produzir sem esforo mantendo todas as suas qualidades tmbricas. Pode ser representativa do tipo de voz consoante os limites graves e agudos para cada tipo de voz, como pode ser vericado na Figura 2.7 para o caso de voz masculina e na Figura 2.8 no caso de voz feminina, sendo que esta representao no rgida. Por exemplo, um Tenor Lrico com caractersticas especiais pode aspirar a alguns papis de Tenor Ligeiro, ou at mesmo a Tenor Spinto [22].

2.5.3

Timbre

O timbre a caracterstica que permite distinguir sons da mesma frequncia emitidos por fontes diferentes. Na voz cantada, o timbre est diretamente relacionado com a sionomia do cantor, tanto interna como externa [22]. Segundo Fant [23] e o seu modelo fonte-ltro, a fonao dividida em trs partes: fonte sonora,o ltro e a radiao, a vibrao das pregas vocais (fonte) produzindo o som larngeo que Verso 0.92 (30 de Janeiro de 2012)

2.5 Parmetros qualitativos e percetivos

13

Figura 2.7: Catalogao de tipos de voz masculinas consoante a tessitura (Fach) [22]

Figura 2.8: Catalogao de tipos de voz femininas consoante a tessitura (Fach) [22] ltrado pelo trato vocal (ltro) e projetado (radiao). Isto faz com que a sionomia do cantor seja um ponto preponderante do seu timbre [22]. O timbre tambm outra caracterstica de catalogao de voz entre os vrios tipos de voz masculina e feminina, por exemplo, diferenas tmbricas entre Soprano e Contralto; servindo tambm para diferenciar entre subclasses do mesmo tipo de voz, por exemplo, Tenor Lrico, Ligeiro, Spinto ou Dramtico [22]. O termo voz timbrada associado a vrios aspetos que podem existir ou no na mesma voz podendo ser denidos por pares de termos antagnicos. Temos, ento, os pares clara/escura, voz na frente/voz recuada, leve/pesada, limpidez/soprosidade e limpidez/aspereza. O facto de haver vozes que encaixam melhor numa classicao no impede que possuam caractersticas de outra, por exemplo uma voz pode ser recuada e ao mesmo tempo ter limpidez [22]. 2.5.3.1 Claro/Escuro

O termo vem do italiano chiaroscuro, expresso utilizada para descrever a tcnica de pintura de Leonardo da Vinci. Em termos de caratersticas acsticas uma voz clara possui um reforo nas frequncias agudas enquanto que uma voz escura possui um reforo nas graves. Assim uma voz clara possui brilho e energia sendo que a escura transmite uma sensao de calor, Verso 0.92 (30 de Janeiro de 2012)

14

Caracterizao do estado da arte

sendo redonda e cheia. Na Tabela 2.1 so representados exemplos de cantores classicados desta forma [22]. Tabela 2.1: Exemplos de cantores Claro/Escuro [22] Classicao Masculina clara Masculina escura Feminina clara Feminina escura Cantor Exemplo Luigi Alva Jonas Kaufmann Lucia Popp Jessye Norman

2.5.3.2

Voz na frente/Voz recuada

Uma voz na frente, sensao que os cantores descrevem como voz de mscara, possui mais brilho do que uma voz mais recuada. Estes parmetro possui uma grande relao com o anterior, pois uma voz mais frontal d origem a um timbre mais claro [22]. Uma voz demasiado recuada d a sensao de a faringe estar estrangulada explorando pouco os seios nasais, dando a sensao de a voz estar recuada e difusa [22]. Esta tcnica muitas vezes confundida com a voz nasalada que tem menos projeo em comparao com a voz na frente ou focada na mscara que colocada num s ponto tendo assim maior capacidade de ser ouvida por cima de uma orquestra [22].

2.5.3.3

Voz leve/Voz pesada

Uma voz pesada pouco malevel, sendo pouco propcia a utuaes de dinmica. resultado da no elevao do palato mole tornando-a menos rica em harmnicos, fazendo com que o dispndio de energia seja grande, causando cansao e dicultando a performance. Uma voz leve, pelo contrrio, mais brilhante e ressoante devido riqueza em harmnicos [22]. Vozes mais pesadas, geralmente, produzem mais som do que vozes mais leves. Isto faz com que o tipo de repertrio esteja intrinsecamente ligado ao tipo de voz de um determinado cantor. Faz mais sentido, portanto, falar em repertrio pesado e leve ao invs de uma voz leve ou pesada, visto se determinar o tipo de repertrio adequado ao cantor e no o contrrio. Na Tabela 2.2 so representados exemplos de cantores classicados desta forma [22]. Tabela 2.2: Exemplos de cantores Voz leve/Voz pesada [22] Classicao Voz pesada Masculina Voz leve Masculina Voz pesada Feminina Voz leve Feminina Cantor Exemplo James King Luigi Alva Birgit Nilsson Cecilia Bartoli

Verso 0.92 (30 de Janeiro de 2012)

2.5 Parmetros qualitativos e percetivos

15

2.5.3.4

Limpidez/Soprosidade/Aspereza

A soprosidade na voz resulta de uma fenda glotal que quando no associada a fenmenos patolgicos. Deve-se, por exemplo, a decincia de suporte respiratrio. Quando encontrada num cantor lrico considerado um dce de tcnica. Contudo pode ser encontrada noutros estilos como o jazz ou o Folk [22]. A aspereza denida pela quantidade de rudo na voz, podendo ser causada por fenmenos siolgicos ou patolgicos; pode tambm ser introduzida propositadamente, consoante a interpretao do tema [22].

2.5.4

Falsete

O falsete caracteriza-se pela produo no natural de tons de elevada frequncia fundamental atravs da vibrao parcial das pregas vocais. O resultado um registo mais leve e suave contrastando com o registo de peito [22]. Apresenta um dispndio superior de energia, visto que s parte das pregas vocais esto ativas na produo sonora, sendo a amplitude sonora baixa [22]. Acusticamente, a voz de falsete pouco timbrada tendo carncia de harmnicos, principalmente graves devido falta de vigor na utilizao das ressonncias do trato vocal [22]. Contm alguma soprosidade, devido existncia de uma fenda gltica, pela utilizao parcial das pregas vocais [22].

2.5.5

Ataque

Um bom ataque determinante para uma correta emisso vocal. Pode ser denido como o posicionamento de todos os constituintes do trato vocal no momento em que se inicia a produo da nota desejada. A qualidade do ataque relaciona-se diretamente com a qualidade da articulao do texto, mais precisamente das consoantes [22].

2.5.6

Vibrato

Como j referido, o vibrato uma quase peridica variao da frequncia fundamental, podendo este ser combinado com variaes de intensidade, enriquecendo o som produzido e o prprio timbre. Sendo tambm um parmetro de qualidade est naturalmente sujeito s condicionantes estticas da obra a interpretar. Enquanto que numa obra renascentista utilizado apenas como ornamento, numa obra romntica ou contempornea um atributo essencial em termos de expressividade [22].

2.5.7

Legato

Legato caracterizado pela continuidade da linha vocal sem perceo de hiatos, quer na mudana de notas mais graves para mais agudas quer no contrrio. A transio entre notas feita de Verso 0.92 (30 de Janeiro de 2012)

16

Caracterizao do estado da arte

forma contnua e progressiva, exigindo muita tcnica de forma a manter as caractersticas do som fundamental [22].

2.5.8

Staccato

Staccato deriva do italiano staccato que signica destacado, separado. , em oposio ao Legato, a introduo de pausas entre notas [22].

2.5.9

Micro-dinmicas e destreza vocal

Alm das indicaes na partitura, esto atribudas dinmicas inerentes prpria esttica da composio, quer pela prosdia do texto, pela construo musical ou pelas caractersticas estilistas do prprio compositor. Sendo que, conforme a pea, diferentes micro-dinmicas podem ser utilizadas, sendo muitas vezes relacionadas com a interpretao do executante [22]. Assim, manifestaes musicais como crescendos, diferentes formas de ataque e de articulao, mudanas de timbre e de intensidade vocal e, at mesmo caractersticas que no geral so consideradas indesejadas no canto como a soprosidade ou a aspereza, podem ser empregues na interpretao de peas que assim o exijam [22]. A realizao das micro-dinmicas requer sensibilidade e destreza vocal, de forma a no ser prejudicado o som emitido, bem como a compreenso do texto e do seu signicado, de forma boa execuo da pea [22].

2.5.9.1

Coloratura

A coloratura a realizao de vrias notas numa nica slaba, num tempo mais ou menos rpido e com saltos entre notas mais ou menos longos, consoante o indicado na partitura. Pode ser efetuado tanto em Legato como em Staccato. Sendo a diculdade a manuteno da estrutura do trato vocal que feita custa da sustentao pelo diafragma durante a execuo [22].

2.5.9.2

Melisma

Trata-se da realizao de uma slaba em vrias notas sucessivas. um termo muito utilizado na msica renascentista, nas passagens do canto Gregoriano [22].

2.5.9.3

Portamento

Portamento em italiano signica transporte. a ligao entre duas notas com efeito deslizante. A indicao da sua utilizao pode estar na partitura da pea, sendo que quando feita sem indicao considerada, muitas vezes, dce de tcnica [22]. Verso 0.92 (30 de Janeiro de 2012)

2.6 Aplicaes

17

2.6
2.6.1

Aplicaes
Estimao e mapeamento de formantes

So muitas as utilidades que se podem dar estimao da frequncia e das trajetrias de formantes, tais como o desenvolvimento de codicadores, de aplicaes de reconhecimento de discurso e/ou orador [24], aplicaes de modicao de caractersticas da voz, aplicaes de sntese de voz (text-to-speech) [25] ou aplicaes de feedback visual [26]. Embora a frequncia aproximada dos formantes no espectro geralmente seja de fcil deteo ao olho humano, o desenvolvimento de um sistema automtico para este efeito est longe de ser fcil [25]; assim, vrios mtodos de deteo de formantes tm sido propostos [24], sendo alguns baseados em deteo de picos espectrais e outros em extrao de razes [27]. Os mtodos baseados em extrao das razes requerem grande esforo computacional ao tentarem encontrar as razes do polinmio obtido, por exemplo, por predio linear (LPC) [27] sendo que para aplicaes em tempo real no so a melhor opo, devido complexidade computacional requerida. A maior vantagem desta abordagem a sua preciso [28], embora esteja condicionada pelas limitaes do mtodo de obteno dos polinmios utilizados para o efeito. Os mtodos baseados em deteo de picos espectrais tm sido os mais utilizados para estimao de formantes [27]; embora haja algumas abordagens feitas na deteo de picos diretamente do espectro do sinal, tradicionalmente emprega-se a deteo de picos a uma suavizao da envolvente espectral, obtida atravs de, por exemplo, predio linear (LPC) muito utilizada na anlise de voz falada, ou o cepstrum real do sinal, utilizado em aplicaes onde os autores abordam a ideia de separao da componente harmnica do sinal da sua envolvente espectral. O princpio baseia-se no facto de os coecientes (quefrencies) mais baixos do cepstrum serem mais afetados pela envolvente espectral do que os mais altos, sendo tambm menos afetados pela componente harmnica [24]. Para a deteo dos mximos da envolvente espectral tm sido aplicados vrios mtodos, desde a simples deteo direta dos picos no logaritmo do valor absoluto da envolvente espectral ou a deteo dos mnimos da segunda derivada do mesmo logaritmo ou, ainda, a deteo de picos na primeira derivada da fase da parte complexa do espectro [25] [28]. A deteo de picos no logaritmo do valor absoluto da envolvente espectral falha na deteo de formantes que, estando prximos de outros mais fortes, no causam a existncia de um pico bem denido na envolvente espectral, ao contrrio da abordagem de deteo dos mnimos da segunda derivada do mesmo logaritmo que obtm melhores resultados nessa situao, denindo bem dois picos que estejam muito prximos [26]. Para voz falada com baixa frequncia fundamental, no geral o mtodo de deteo de formantes pelos mximos da envolvente espectral referidos tem bons resultados na deteo dos primeiros dois ou trs formantes, porque os harmnicos esto prximos o suciente para o seu efeito no ser um fator limitador [24]. Com o aumento da frequncia fundamental, como acontece no caso da voz cantada, os mtodos por deteo de picos, devido ao aumento da distncia dos harmnicos, Verso 0.92 (30 de Janeiro de 2012)

18

Caracterizao do estado da arte

Figura 2.9: Erros tpicos de estimao de formantes [29] (adaptada) vo perdendo ecincia detetando as localizaes dos harmnicos e confundindo aqueles com estas [24]. O mapeamento dos formantes tambm importante em reas como o estudo de variaes das caractersticas do trato vocal, como por exemplo, as transies vogal-consoante [30] ou em aplicaes de feedback visual, entre outras; sendo um ltimo nvel de validao de candidatos a formantes detetados pelos mtodos j descritos, que geralmente contm alguns erros, como mostrado na Figura 2.9. Estes podem contudo ser minimizados com um algoritmo robusto de mapeamento temporal [29]. Assim, vrios mtodos podem ser utilizados para encontrar a trajetria dos formantes, desde aqueles que usam algum tipo de interpolao e/ou suavizao da localizao dos candidatos encontrados [29], que para aplicaes em tempo real no so apropriados, tendo tambm em conta que ao efetuar estas operaes poderemos perder informao relevante para o estudo em causa. Outros mtodos como a simples escolha dos candidatos mais prximos aos encontrados na janela anterior [26] ou mdia de um nmero determinado de janelas anteriores so mais apropriados a aplicaes em tempo real, mas tm o problema da possvel falha de deteo de um formante, o que compromete este, podendo ser atribudos candidatos a formantes aos quais no pertencem. Uma alternativa de forma a tentar evitar estes erros a utilizao de mapeamento baseado em regras como a limitao de mximo deslocamento de um formante de uma janela para outra e utilizando informao extra dos candidatos e dos formantes, como a amplitude ou a banda para regras mais elaboradas [29]. Estes mtodos tm a diculdade de mapeamento no caso de os formantes estarem muito prximos e podem causar alguns erros ao no considerar erradamente alguns candidatos que fujam s regras estabelecidas, para alm de serem de difcil implementao. Outros mtodos implementados para o mapeamento de formantes so os baseados em modelos escondidos de Markov Verso 0.92 (30 de Janeiro de 2012)

2.7 Concluses

19

(HMM), onde o resultado denido pelas combinaes de probabilidades de conjuntos sucessivos de janelas [29]. Geralmente este mapeamento feito sobreposto ao espectrograma, de forma a relacionar estas duas visualizaes como mostrado na Figura 3.10.

Figura 2.10: Espectograma com o tracking dos formantes encontrados (Vogal o de um Contralto), de notar que o padro de cores est inverso ao habitual.

2.6.2

Deteo e caracterizao de vibrato

Como j referido o vibrato uma importante caracterstica da voz cantada, sendo caracterizado por uma variao de frequncia fundamental de forma quase peridica. Embora as suas caractersticas sejam bastante estudadas, a sua deteo e um feedback visual um tema muito pouco abordado, tendo sido desenvolvido por Jos Ventura na sua dissertao intitulada Biofeedback da voz cantada [31] tambm no mbito do mesmo projeto FCT no qual esta dissertao se enquadra, um algoritmo de estimao de vibrato que o deteta bem como tambm estima a sua frequncia (em Hertz) e a extenso (em semi-tons) de forma a ser visualmente mostrado numa aplicao interativa.

2.7

Concluses

Do levantamento de atributos artsticos e estticos feito tanto por mim como pelo cantor da ESMAE, Joo Ferreira com o qual trabalhei, denota-se a maior parte dos atributos de avaliao e catalogao de voz cantada, tanto do ponto de vista tcnico como esttico, prendem-se com o efeito do trato vocal e suas ressonncias sobre o sinal produzido pelas pregas vocais. Temos, ento, a catalogao dos tipos de voz associados a timbres caractersticos e no s capacidade de produo de uma determinada nota. Foi visto o efeito que modicaes da dinmica do trato vocal tm tanto na interpretao de peas como na correta utilizao da voz, bem como o efeito que a distribuio de energia Verso 0.92 (30 de Janeiro de 2012)

20

Caracterizao do estado da arte

pelo espectro tem do ponto de vista da caracterizao esttica da voz cantada e a importncia da elevao dos harmnicos de mais alta frequncia e reposicionamento de formantes, para uma maior percetibilidade. Todas estas modelaes do sinal gltico so da responsabilidade do trato vocal. A caracterizao do vibrato, no ser tratada neste projeto, visto esta tarefa j ter sida realizada, por Jos Ventura, no mbito do mesmo projeto FCT, no qual esta dissertao se enquadra.

Verso 0.92 (30 de Janeiro de 2012)

Captulo 3

Estimao e mapeamento de formantes


3.1 Introduo

Neste captulo, depois de uma breve descrio dos mtodos utilizados, descrito o sistema de estimao da frequncia dos formantes e o seu mapeamento desenvolvido no decorrer desta dissertao. Os algoritmo desenvolvidos foram desenvolvidos em MatLab por esta ser uma ferramenta boa no processamento e anlise de sinal, e por ser fcil a visualizao de grasmos dos resultados do funcionamento do algoritmo. Foram desenvolvidos de forma a uma fcil aplicao em ambiente C/C++.

3.2

Modelo fonte-ltro

A mais comum abordagem de um modelo da produo de voz tem sido o modelo fonteltro [7] ilustrado na Figura 3.1. Basicamente, este modelo inclui uma fonte de sinal que modelada por um ltro para a sua forma nal [23]. Assim, a fonte o som larngeo (fonte gltica) produzido pela vibrao das pregas vocais no caso de voz vozeada e rudo resultante nomeadamente de turbulncia, no caso de voz no vozeada [7] [33]. O ltro o trato vocal que vai modelar a fonte quando o sinal desta passa pelas vrias cavidades e formas que o constituem, sendo assim denida a qualidade e o tipo de sonoridade a ser percebida [34]. Segundo Fant, o trato vocal responsvel pela maior parte da informao de um sinal de voz [23]. O trato vocal modelado por um ltro caracterizado por uma funo de transferncia H (z), assumindo-se tipicamente na literatura que se trata de um ltro all-pole.

21

22

Estimao e mapeamento de formantes

Figura 3.1: Modelo fonte-ltro [32] (adaptada)

3.3

Estimao de trato vocal

Como referido, usualmente o trato vocal modelado por um ltro all-pole. Assim, surge a necessidade de estimao dos seus coecientes de forma a poder ser analisado. Neste projeto foram utilizados dois mtodos reconhecidos de anlise de sinal, um baseado em predio linear e um outro baseado no cepstrum.

3.3.1

Linear Prediction Coding

Em anlise de sinal de voz muito utilizada a predio linear onde se assume que o sinal de voz a combinao linear dos seu valores passados e do valor atual [35] [33]. Muitos sinais, como a voz, so parte preditivos, parte aleatrios; estes sinais podem ser modelados pela sada de um sinal no relacionado aplicado a um determinado ltro [35]. Assim, segundo o modelo fonte-ltro, o trato vocal pode ser ento modelado por predio linear. A expresso 3.1 representa a sada atual. O valor da sada de ndice m obtido usando uma combinao linear dos P valores passados onde m o ndice do tempo discreto, x (m) a predio de x(m) e ak os coecientes de predio [35].
P

x (m) =

k=1

ak x(m k)

(3.1)

O erro de predio dado pela expresso 3.2, que a diferena entre o sinal x(m) e o sinal estimado x (m).
P

e(m) = x(m)

k=1

ak x(m k)

(3.2)

Verso 0.92 (30 de Janeiro de 2012)

3.3 Estimao de trato vocal

23

A ordem P de uma predio linear para modelao do trato vocal importante para as caractersticas do modelo do trato vocal a analisar, se for muito baixa, ressonncias importantes podem ser descartadas, se for muito alta ser modelada a fonte do sinal e no as caractersticas do trato vocal [32]. Na Figura 3.2 est demonstrada a envolvente espectral obtida por um mtodo baseado em predio linear.

Figura 3.2: Exemplo de envolvente obtida com modelo baseado em LPC (preto) do espectro de um sinal (azul) para modelao do trato vocal

3.3.2

Cepstrum

O termo cepstrum deriva da inverso da primeira slaba do termo spectrum dado que obtido pela transformada inversa de Fourier do espectro logaritmo do sinal. Foi desenvolvido por Bogert et al e denido o termo quefrency para representar a varivel independente n do valor do cepstrum c(n) [36]. O cepstrum uma transformao homomrca que permite a separao entre a fonte e o ltro de um sinal, convertendo uma convoluo numa soma [36], expresses 3.3 e 3.4. x(n) = s(n) h(n) (3.3)

(n) x (n) = s (n) + h

(3.4)

Nestas equaes h(n) representa a caracterstica do ltro, s(n) representa o sinal de entrada. Verso 0.92 (30 de Janeiro de 2012)

24

Estimao e mapeamento de formantes

Pode-se ento recuperar o sinal s(n) e h(n) do sinal x (n), pois assume-se que possvel en contrar um valor N de forma a que h(n) 0 para n N e s (n) 0 para n < N [36]. O cepstrum complexo denido pela expresso 3.5, sendo o real denido pela expresso 3.6. 1 x (n) = 2 1 c(n) = 2

ln X (e j )e j n d

(3.5)

ln |X (e j )|e j n d

(3.6)

Se o sinal a analisar tem informao fase mnima o cepstrum pode ento ser determinado s pelo cepstrum real [36]. Isto acontece no caso da anlise de voz, onde a informao cuja natureza de fase mnima no tem tanta importncia como a de magnitude. utilizao do cepstrum real acresce-se a vantagem do menor peso computacional, em comparao ao cepstrum complexo, tornando mais fcil a anlise [37]. Como j referido, o princpio de utilizao do cepstrum prende-se com a separao entre a fonte de sinal e do ltro. No caso da anlise de voz traduz-se na separao do trato vocal e do sinal glotal. Assim, os primeiros N valores do cepstrum so representativos do trato vocal, especicando a envolvente espectral, enquanto que os restantes so representativos da fonte gltica [37].

3.4

Estimao da frequncia dos formantes

Como j mencionado, para deteo e estimao de formantes tm sido utilizados maioritariamente duas abordagens, a deteo de picos espectrais e a extrao de razes do ltro que modela o trato vocal. No caso deste projeto foi escolhida a abordagem baseada em deteo de picos espectrais, que sendo menos pesada computacionalmente mais adaptada a anlise em tempo real o que uma das caractersticas pretendidas. Foi tambm decidido que o nmero de formantes a ser estimado seria de oito, de forma a poder serem localizados possveis formantes nas regies de mais alta frequncia, tendo sido desenvolvido este algoritmo baseado nesse princpio. O sinal analisado em janelas (obtidas pela raiz quadrada da janela de Hanning) de 1024 amostras s quais aplicada a transformada ODFT sendo calculadas a sua densidade espectral de potncia, energia e fase. Do ponto de vista do avano temporal de anlise, a janela a ser processada ter uma sobreposio de 75% da anterior, tendo a anlise um deslocamento de 256 amostras por ciclo de processamento. A ideia geral do sistema desenvolvido a utilizao de dois mtodos para extrao das caractersticas do trato vocal e estimados os seus formantes. Estes dois mtodos, um baseado em LPC e outro em cepstrum, so aplicados tanto sobre o espectro do sinal como sobre o espectro da estimao de rudo presente na voz, de forma a tirar partido do fato do rudo da voz tambm ser modelado pelo trato vocal. Esta estimao do rudo baseada no princpio da subtrao dos Verso 0.92 (30 de Janeiro de 2012)

3.4 Estimao da frequncia dos formantes

25

harmnicos de forma a extrair o som larngeo (fonte gltica) do sinal, deixando s a componente no vozeada do sinal, o rudo da voz. Desta forma para a sua estimao necessrio obtermos a localizao dos harmnicos no espectro sendo ento necessrio o recurso a um algoritmo de estimao de componente harmnica. Assim usado o algoritmo Searchtonal, que um detetor de pitch (frequncia fundamental) e da respetiva componente harmnica; que foi desenvolvido pelo professor Doutor Anbal Ferreira. Este detetor de pitch implementa anlise cepstral e um banco de regras heursticas de seleo dos candidatos frequncia fundamental e componentes harmnicas respetivas. Tem vindo a ser melhorado ao longo do tempo de forma a estimar de uma forma robusta e precisa a frequncia fundamental e os seus respetivos harmnicos [31]. Com as localizaes das componentes harmnicas no sinal, obtidas pelo detetor de pitch; bem como as suas caractersticas de fase e energia obtidas a partir da sua ODFT; vai ser sintetizada a estrutura harmnica para ser subtrada ODFT do sinal. De seguida calculada a energia deste resultado a qual passar por um sistema suavizao de trs nveis de forma a ser reduzido o efeito do processamento efetuado. possvel ver estes passos na Figura 3.4 e o diagrama de blocos deste primeiro nvel de processamento na Figura 3.3.

Figura 3.3: Primeiro nvel de processamento. So aplicados tanto sobre o espectro de energia do sinal, como do resduo, os mtodos j referidos, um baseado em LPC e outro em cepstrum, de forma a serem obtidas as respetivas envolventes espectrais para, como j mencionado, serem detetados os possveis formantes por anlise espectral. Estas envolventes esto exemplicadas na Figura 3.5. No caso da envolvente obtida por LPC, tanto do sinal como do resduo, a ordem do polinmio LPC foi denida como sendo de 16, duas vezes o nmero de formantes que se pretende estimar. No caso da envolvente do sinal obtida por cepstrum o nmero de coecientes quefrency a utilizar vai depender da frequncia fundamental de forma a s ser utilizados os coecientes que representam o trato vocal. E no caso da envolvente do resduo pelo cepstrum, e visto este teoricamente no Verso 0.92 (30 de Janeiro de 2012)

26

Estimao e mapeamento de formantes

(a) O espectro dos harmnicos sintetizados a vermelho e do sinal original a azul

(b) Representam-se a azul o sinal original e a verde o resultante da extrao dos harmnicos (i.e. o resduo)

(c) Representam-se a azul o sinal original e a preto o resultante da suavizao do resduo

Figura 3.4: Processo de estimao do resduo

conter componente harmnica, o nmero de coecientes quefrency foi denido como sendo de 35. Numa primeira abordagem foi utilizado um detetor de picos para a localizao dos picos espectrais que representam formantes, mas, o que se vericou que com uma localizao s de picos espectrais no se obtm a deteo de muitos formantes, isto por estes no terem a capacidade de se evidenciarem, tanto por no terem muita energia, ou por serem desvalorizados pela presena de Verso 0.92 (30 de Janeiro de 2012)

3.4 Estimao da frequncia dos formantes

27

(a) O espectro do sinal a azul, as sua envolventes LPC a preto e a cepstral a vermelho

(b) O espectro do resduo a azul, a sua envolventes LPC a preto e a cepstral a vermelho

Figura 3.5: As envolventes espectrais calculadas outros mais poderosos na sua vizinhana. Assim, em vez da deteo de picos espectrais, utilizada a localizao dos mnimos da segunda derivada da envolvente para localizar os possveis formantes. Na Figura 3.6 est ilustrado este processo. Obtidos os candidatos, estes sero validados por mtodos heursticos de forma a reduzir a possibilidade de estimao de falsos positivos. No caso da envolvente cepstral do resduo este processo tem maior importncia, pois, a aplicao deste mtodo sobre a estimao da componente no vozeada da voz funciona mais como um ltimo nvel de suavizao do que o princpio em que geralmente utilizado, para separao da fonte do ltro; dando normalmente e dependendo do grau que aplicado, um nmero de candidatos superior ao nmero de reais formantes existente. Obtidos e validados os candidatos dos quatro mtodos utilizados, a seleo de quais os candidatos da janela que est a ser analisada vo ser escolhidos como possveis formantes, depende da frequncia fundamental, obtida pelo detetor de pitch. Este segundo nvel de processamento est ilustrado no diagrama de blocos na Figura 3.7.

Verso 0.92 (30 de Janeiro de 2012)

28

Estimao e mapeamento de formantes

(a) O espectro do sinal a azul, a envolvente LPC do mesmo a vermelho e a verde as marcaes dos candidatos a formantes encontrados pelo processamento da segunda derivada

(b) A primeira derivada da envolvente representada na Figura 3.6(a)

(c) A segunda derivada da envolvente representada na Figura 3.6(a) e a marcao a vermelho dos candidatos encontrados

Figura 3.6: Processo de estimao de candidatos a formantes pela segunda derivada da envolvente espectral

Verso 0.92 (30 de Janeiro de 2012)

3.4 Estimao da frequncia dos formantes

29

Figura 3.7: Segundo nvel de processamento.

Verso 0.92 (30 de Janeiro de 2012)

30

Estimao e mapeamento de formantes

3.5

Mapeamento temporal dos formantes

Com a estimao de possveis formantes a nvel da janela j efetuada, queremos vericar o seu comportamento do ponto de vista temporal, como os deslocamentos e a interao entre eles. Assim foi pensado um algoritmo de catalogao dos formantes do ponto de vista da distribuio espectral e temporal com o intuito de poder serem representadas as trajetrias ao longo do espectro e do tempo. Como j mencionei, muitos problemas dicultam este tracking; sendo a possvel proximidade entre formantes um fator importante para a existncia de erros nesse processo. Esto ilustrados na Figura 3.8 dois possveis erros devido proximidade entre formantes; na Figura 3.8(a) um caso de cruzamento dos dois primeiros streams, enquanto que na Figura 3.8(b) um caso de sobreposio, isto por escolha dos mesmos candidatos descartando os outros.

(a) Possvel erro de tracking devido proximidade entre formantes

(b) Possvel erro de tracking devido proximidade entre formantes

Figura 3.8: Dois possiveis erros de tracking (Vogal o de um Contralto) Assim, o mtodo desenvolvido implementado medida que o processamento do sinal vai sendo efetuado, e os resultados da estimao de cada uma da janela j processadas for obtido, Verso 0.92 (30 de Janeiro de 2012)

3.5 Mapeamento temporal dos formantes

31

estando pensado para funcionar em tempo real. O princpio do algoritmo consiste na colocao dos possveis formantes num stream consoante a sua localizao espectral; esta colocao regida pela regra da proximidade, ou seja, os resultados mais recentes sero comparado s com os ltimos valores que foram colocados em cada stream de forma a ser encontrada a melhor relao de proximidade para a alocao. A ideia est ilustrada na Figura 3.9.

Figura 3.9: Exemplicao da alocao de formantes no stream Esta relao de proximidade calculada por uma matriz das diferenas entre os formantes da janela a ser analisada com os ltimos valores alocados em cada stream; sendo vericada a proximidade dos novos formantes aos j existentes pela ordem da diferena mais pequena para a maior. Essa informao de proximidade, bem como a informao de formantes que no esto prximos a nenhum formante j existente, ser ento utilizada para a alocao destes novos formantes nos respetivos streams e o preenchimento de algum que se encontra vazio com novos formantes. O diagrama de blocos deste algoritmo est representado na Figura 3.10.

Figura 3.10: Processamento do tracking dos formantes Est ilustrado na Figura 3.11 um possvel erro de alocao de formantes; a vermelho esto representados os candidatos que foram descartados e que deveriam ter sido alocados no stream azul enquanto que os superiores deveriam ter sido alocados no stream verde. O stream tem tamanho nito, dependendo do nmero de formantes que se quer estimar e seguir, sendo assim, s so colocados no stream os n formantes com maior amplitude por serem os mais relevantes. tambm utilizada uma regra de continuidade, ou seja, de uma janela para Verso 0.92 (30 de Janeiro de 2012)

32

Estimao e mapeamento de formantes

Figura 3.11: Pormenor da possibilidade de erro por proximidade (3o e 4o formantes da vogal a de um Baixo). outra, se houver um grande deslocamento do suposto formantes este no ser alocado no stream mais prximo havendo uma falha nesse stream.

Verso 0.92 (30 de Janeiro de 2012)

3.6 Concluses

33

3.6

Concluses

Neste captulo foram descritos os dois mtodos de caracterizao do trato vocal utilizados nos desenvolvimentos feitos, o LPC e o cepstrum e explicado o seu enquadramento neste projeto. Seguidamente foi explorado o algoritmo desenvolvido, sendo descrito e explicado o seu princpio de funcionamento, bem como as ideias gerais das abordagens, como a metodologia de estimao do rudo da voz, para a partir dele se extrair as caratersticas do trato vocal; e o mtodo empregue para diferenciar e seguir, do ponto de vista temporal, os formantes bem como so descritas as diculdades inerentes s abordagens tomadas, principalmente, o caso da possibilidade da existncia de formantes muitos prximos uns dos outros, sendo muito comum na voz cantada. No seguinte captulo, so explorados resultados obtidos pelo algoritmo desenvolvido.

Verso 0.92 (30 de Janeiro de 2012)

34

Estimao e mapeamento de formantes

Verso 0.92 (30 de Janeiro de 2012)

Captulo 4

Teste e resultados
4.1 Introduo

Neste captulo so descritas as base de dados de voz, tanto sintticas como naturais que foram criadas. So tambm descritos os testes efetuados e apresentados exemplos demostrativo dos resultados obtidos e a descrio das concluses a que cheguei e as diculdades que enfrentei.

4.2

Base de dados

Para o desenvolvimento deste projeto foi necessrio acesso a exemplos de voz, de preferencialmente cantada. Assim, e como a dissertao se engloba no j mencionado projeto FCT para o qual tambm necessrio o acesso a base de dados de voz, foi criada tanto uma base de voz natural cantada como tambm uma base de dados de voz sintetizada. Por questes de logstica e de disponibilidade de cantores treinados foi mais demorada do que o esperado a criao da base de dados de canto, tendo o desenvolvimento sido levado a cabo nos primeiros tempos s com a utilizao de vozes sintticas.

4.2.1

Voz sintetizada

Uma das primeiras tarefas a ser feita foi a criao de uma base de dados de voz sinttica, a qual foi criada de forma a representarem oito vogais cardinais, com frequncias fundamentais de 220 Hz, 440 Hz e 880 Hz. Para as frequncias das ressonncias das vogais representadas foram escolhidos os valores representados na Tabela 4.1. Os valores das primeiras quatro ressonncias foram retirados do artigo A two-formant model and the cardinal vowels de Fant e Bladon [38], enquanto que o valor da quinta ressonncia foi adicionada acrescentando 1 kHz quarta ressonncia. Foi primeiro utilizado o sintetizador Madde [39], mas este, sintetiza as vozes dando mais importncia componente harmnica do sinal e deixando em segundo plano a componente no vozeada, o rudo da voz, no sendo este modelado pelo trato vocal. 35

36

Teste e resultados

Tabela 4.1: Frequncias dos formantes das vogais sintetizadas Vogal i e a A o u F1 (Hz) 300 470 680 770 660 570 370 290 F2 (Hz) 2300 2180 1890 1400 1170 840 730 700 F3 (Hz) 3070 2720 2580 2460 2770 2640 2670 2550 F4 (Hz) 3590 3790 3940 3710 3650 3310 3240 3280 F5 (Hz) 4590 4790 4940 4710 4650 4310 4240 4280

1 2 3 4 5 6 7 8

Assim, e porque nos interessa estudar a utilizao da componente no vozeada da voz para estimao dos formantes, foi ento utilizado, com autorizao do autor, um sintetizador desenvolvido em MatLab por Ricardo Sousa para a sua tese de doutoramento intitulada de Metodologias de Avaliao Percetiva e Acstica do Sinal de Voz em Aplicaes de Ensino do Canto e Diagnstico/Reabilitao da Fala [40]. Este sintetizador tem a preocupao de, para alm da componente harmnica, modelar segundo o trato vocal, a componente no vozeada. Este sintetizador foi criado baseado na teoria fonte-ltro, e que permite a reproduo de eventos especcos no sinal, como o rudo de origem natural existente no sinal de voz, a frequncia fundamental, o Jitter, o Shimmer, a resposta impulsional do ltro representativo do trato vocal e ainda vrios parmetros do impulso gltico [40]. O diagrama de blocos est representado na Figura 4.1.

Figura 4.1: Diagrama de blocos do sintetizador utilizado [40] As diferenas entre a mesma vogal sintetizada pelos dois sintetizadores podem ser vistas na Figura 4.2. clara a diferena de abordagem em relao componente de rudo da voz. Ficou ento decidido a utilizao das vozes sintetizadas pelo sintetizador desenvolvido pelo Ricardo Sousa, por este modelar tambm a componente no vozeada da voz. Verso 0.92 (30 de Janeiro de 2012)

4.2 Base de dados

37

(a) O espectro da vogal sinttica e obtida pelo sintetizador Madde

(b) O espectro da vogal sinttica e obtida pelo sintetizador desenvolvido por Ricardo Sousa

Figura 4.2: Diferena dos resultados dos dois sintetizadores abordados

4.2.2

Voz natural

Como j mencionado houve algumas diculdades de logstica e de disponibilidade de cantores para a realizao das gravaes da base de dados de canto. Ultrapassadas estas diculdades foram feitas as gravaes com o intuito de criar no s uma base de dados para este projeto de dissertao, mas tambm para o projeto FCT ao qual esta dissertao reporta. Assim, as gravaes tiveram lugar num estdio da ESMAE (Escola Superior de Msica e Artes do Espetculo). Embora no tenham sido realizadas em cmara anecoca, teve-se o devido cuidado de utilizar uma sala com bom isolamento acstico, equipamento de qualidade prossional e de a distncia ao microfone ser sempre a mesma. O microfone utilizado foi um microfone de estdio Neumann, referencia TLM 103, as suas caratersticas encontram-se em anexo. O pr-amplicador foi o Onyx800R da Mackie, estando as suas especicaes tambm em anexo. O software utilizado foi o Digital Performer 5 da MOTU a correr numa mquina Apple, Mac Pro. Verso 0.92 (30 de Janeiro de 2012)

38

Teste e resultados

As gravaes foram feitas de forma a cobrir as necessidades do projeto FCT, assim, foram gravadas recorrendo a cantores treinados e de forma a serem obtidos registos de Baixo, Baritono e Tenor de vozes masculinas, e registos de Contralto, Mezzo e Soprano de vozes femininas. Os registos destes seis tipo de voz foram as cinco vogais; a, e, i, o e u, na forma sustentada; uma frase de um tema, sendo a mesma frase e o mesmo tema para todos. Foram feitos registos extra de Tenor e de Soprano, um exerccio de demonstrao de coloratura, de legato, portamento e staccato; demonstrao da existncia e do efeito de formante de cantor; de exemplicao da utilizao de voz na frente ou de voz recuada e do efeito da existncia de ar na voz, soprosidade.

4.3

Testes

Os testes efetuados foram utilizando tanto a base de dados sintticas como a de canto natural, e, mesmo tendo sido utilizadas todas as vozes pertencentes a estas duas bases de dados, os resultados aqui publicados esto centrados em vogais extremas no mapa de vogais cardinais; a vogal i e a vogal a, no caso das sintticas esta a vogal a aberta posterior. Assim, para os testes das vozes sintticas, e por ser sabido o valor terico dos formantes do trato vocal foram efetuados testes e preciso e comparados com os resultados obtidos por uma importante ferramenta de anlise de voz, o Praat. Quanto aos testes com canto natural, e por no se conhecer a localizao dos seus formantes, foram feitos testes e comparados com os resultados do Praat. Para a extrao das estimaes dos formantes do Praat, este foi ento congurado de forma a se aproximar do algoritmo desenvolvido. Assim, como mostra na Figura 4.3, foi congurado para deteo de oito formantes e com o tamanho da janela igual ao utilizado no algoritmo desenvolvido, sendo que, o Praat tambm utiliza sobreposio de 75% das janelas de anlise para deteo de formantes.

Figura 4.3: Congurao de estimao de formantes do Praat Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

39

4.3.1

Testes com vozes sintticas

Os teste realizados com as vozes sintticas, sendo conhecidos os formantes das vozes, foram feitos de forma a tentar vericar a boa estimao pelos quatro mtodos aplicados neste projeto, de forma a poder ser percebido qual o efeito que o aumento da frequncia fundamental traz capacidade de os mtodos localizarem os formantes. de conhecimento, que com o aumento da frequncia fundamental e respetivo aumento da separao entre os harmnicos, os mtodos de estimao de formantes tm tendncia a serem inuenciados pelos harmnicos estimando estes como possveis formantes, por isso foi vericada tambm a relao dos valores obtidos com os valores tericos dos harmnicos para se perceber a inuencia destes sobre os mtodos. Como referencia para comparao, foi utilizado a estimao de formantes pelo Praat. Os resultados obtidos para os erros relativos dos formantes individualizados esto representados nas Tabelas 4.2 e 4.4; e nas Figuras 4.4 e 4.5, esto representados os grcos das mdias dos erros. Os resultados dos testes para as vozes com frequncia fundamental mais elevada, de 880 Hz, esto representados nas Tabelas 4.3 e 4.5, os restantes resultados esto em anexo. As tabelas com a descrio estatstica dos valores obtidos encontra-se em anexo. Tabela 4.2: Erros relativos das frequncias estimadas pelos vrios mtodos para a vogal i F1 Erro rel. (%) 18.36 74.94 191.21 14.25 57.91 187.11 6.72 76.24 132.17 13.70 57.91 179.93 63.54 88.93 14.38 F2 Erro rel. (%) 59.60 5.50 24.09 1.94 3.57 23.23 12.92 11.27 11.51 1.29 3.57 22.48 7.48 7.39 1.45 F3 Erro rel. (%) 57.01 1.62 15.19 0.56 1.00 13.03 3.55 4.78 6.08 0.76 1.00 13.03 8.68 F4 Erro rel. (%) 50.77 3.74 3.40 2.35 1.50 1.63 2.83 1.41 1.63 6.65 25.18 6.51 F5 Erro rel. (%) 75.46 19.00 5.74 0.97 0.11 3.83 56.20 1.57 1.78 0.29 2.55 3.36 2.44 67.90 1.23

F0 (Hz) 220 440 880 220 440 880 220 440 880 220 440 880 220 440 880

Praat

LPC do sinal

Cepstrum do sinal

LPC do rudo

Cesptrum do rudo

Verso 0.92 (30 de Janeiro de 2012)

40

Teste e resultados

Figura 4.4: Grco representativo do erro mdio de estimao dos formantes da vogal sinttica i Tabela 4.3: Erros relativos em relao aos harmnicos tericos, vogal i com F0 = 880 Hz H1 (880 Hz) Erro rel. (%) 0.72 2.12 20.85 4.57 70.81 H2 (1760 Hz) Erro rel. (%) 0.80 0.33 15.65 1.31 32.58 H3 (2640 Hz) Erro rel. (%) 1.33 1.14 23.36 1.14 H4 (3520 Hz) Erro rel. (%) 1.47 0.33 32.72 0.33 4.65 H5 (4400 Hz) Erro rel. (%) 1.66 0.33 6.17 0.81 3.04

Praat LPC do sinal Cepstrum do sinal LPC do resduo Cepstrum do resduo

Tabela 4.4: Erros relativos das frequncias estimadas pelos vrios mtodos para a vogal a F1 Erro rel. (%) 2.18 20.72 31.31 1.14 23.98 33.77 19.88 33.09 41.53 1.14 24.29 33.77 10.77 27.84 40.64 F2 Erro rel. (%) 3.46 0.89 47.19 4.33 1.22 49.08 4.14 1.84 49.14 38.81 36.91 46.60 F3 Erro rel. (%) 7.27 27.38 6.03 0.60 4.71 4.38 5.87 6.62 11.19 1.22 4.28 3.97 2.02 2.10 0.95 F4 Erro rel. (%) 9.12 14.78 4.85 0.64 3.46 3.07 14.63 16.54 0.67 2.38 2.66 1.10 0.61 0.34 F5 Erro rel. (%) 8.97 12.75 5.43 0.45 0.04 3.22 0.70 0.42 1.13 1.59 2.09 3.58 1.15 1.41 1.37

F0 (Hz) 220 440 880 220 440 880 220 440 880 220 440 880 220 440 880

Praat

LPC do sinal

Cepstrum do sinal

LPC do rudo

Cesptrum do rudo

Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

41

Figura 4.5: Grco representativo do erro mdio de estimao dos formantes da vogal sinttica a

Tabela 4.5: Erros relativos em relao aos harmnicos tericos, vogal a com F0 = 880 Hz H1 (880 Hz) Erro rel. (%) 1.51 0.33 6.15 0.33 5.48 H2 (1760 Hz) Erro rel. (%) 2.15 0.90 0.85 2.54 H3 (2640 Hz) Erro rel. (%) 1.40 0.33 6.82 0.76 3.92 H4 (3520 Hz) Erro rel. (%) 1.34 0.51 13.46 0.93 3.34 H5 (4400 Hz) Erro rel. (%) 0.06 2.28 6.87 1.90 4.24

Praat LPC do sinal Cepstrum do sinal LPC do resduo Cepstrum do resduo

Verso 0.92 (30 de Janeiro de 2012)

42

Teste e resultados

4.3.2

Testes com vozes naturais

Os testes realizados com vozes naturais, baseou-se mais em visualizao dos resultados obtidos observando o espectro dos sinais e a sobreposio no espectrograma de forma a tentar perceber o comportamento dos mtodos utilizados. Foram utilizadas vozes de um Baixo e um Tenor do gnero masculino, e de uma Contralto e de uma Soprano do gnero feminino; como j referido, as vogais i e a Foi tambm utilizado o Praat para a obteno dos formantes para as mesmas vozes, de forma a serem comparados estes resultados com os mtodos aplicados no algoritmo desenvolvido. Esto ilustrados nas tabelas e guras seguintes, os resultados obtidos sobrepostos ao espectrograma, tanto dos mtodos utilizados no projeto como os resultados do Praat. De notar que o Praat no ordena e distingue os formantes detetados, sendo a representao monocromtica e sem agrupar os formantes pela sua ordem, ao contrrio do que se pretende neste projeto. As tabelas completas com a descrio estatstica dos valores obtidos detalhe encontra-se em anexo.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal a de um Baixo do resduo da vogal a de um Baixo

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal a de um Baixo strum do resduo da vogal a de um Baixo

Figura 4.6: Estimao de formantes da vogal a de um Baixo

Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

43

Tabela 4.6: Mdias dos formantes, vogal a de um Baixo F1 775.72 103.50 578.82 15.64 613.89 29.03 2611.45 30.97 863.77 123.46 F2 1947.74 564.62 1071.58 32.97 1135.24 44.00 7009.06 45.68 2794.28 253.85 F3 2779.25 337.94 2404.88 36.09 2434.15 42.24 5579.18 274.92 F4 3267.26 270.34 3086.98 42.95 3118.70 47.07 5951.33 157.12 F5 5939.76 1178.10 6957.68 86.13 6964.43 88.73 7109.60 48.98 F6 7716.68 663.80 8294.80 58.80 8297.37 58.45 8273.86 44.78 F7 9139.50 727.38 9748.72 140.52 9743.22 148.41 9504.78 31.86

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal i de um Baixo do resduo da vogal i de um Baixo

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal i de um Baixo strum do resduo da vogal i de um Baixo

Figura 4.7: Estimao de formantes da vogal i de um Baixo

Verso 0.92 (30 de Janeiro de 2012)

44

Teste e resultados

Tabela 4.7: Mdias dos formantes, vogal i de um Baixo F1 1819.80 36.94 303.79 13.58 311.01 13.50 774.06 81.70 F2 2787.71 37.05 1824.91 21.75 1837.03 20.32 2850.73 21.73 F3 3206.31 39.05 2783.59 37.40 2782.17 33.97 4852.90 57.83 F4 6421.47 383.34 3170.43 34.24 3178.22 35.16 6773.27 60.85 F5 7632.48 281.55 7538.67 149.33 6959.46 262.84 7892.99 46.63 F6 8259.75 113.79 8211.76 109.74 8239.85 141.68 8580.39 77.73 F7 10089.81 51.58 10071.34 67.71 10084.96 73.04 9973.99 65.65

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal a de um Tenor do resduo da vogal a de um Tenor

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal a de um Tenor strum do resduo da vogal a de um Tenor

Figura 4.8: Estimao de formantes da vogal a de um Tenor

Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

45

Tabela 4.8: Mdias dos formantes, vogal a de um Tenor F1 1064.14 105.97 689.53 67.11 702.94 54.33 961.60 110.69 970.93 45.76 F2 2727.13 269.66 1114.70 22.17 1105.67 23.75 3164.87 36.61 2793.13 33.85 F3 3413.21 143.22 2782.68 41.19 2787.84 40.17 6107.76 53.70 3693.92 71.23 F4 6104.04 527.05 3352.35 75.04 3411.12 69.08 6063.04 200.58 F5 6798.54 139.90 6386.86 158.79 6251.92 146.99 6740.88 153.98 F6 8433.97 328.43 8496.46 102.22 6759.21 184.38 8332.66 92.18 F7 10043.30 292.04 10155.06 94.65 8525.46 93.49 9125.51 127.73

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal i de um Tenor do resduo da vogal i de um Tenor

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal i de um Tenor strum do resduo da vogal i de um Tenor

Figura 4.9: Estimao de formantes da vogal i de um Tenor

Verso 0.92 (30 de Janeiro de 2012)

46

Teste e resultados

Tabela 4.9: Mdias dos formantes, vogal i de um Tenor F1 2122.70 228.57 294.50 17.89 290.38 22.53 483.42 137.34 522.18 73.34 F2 2913.87 66.69 2076.09 87.78 2128.22 72.11 3070.87 33.33 1810.55 43.92 F3 3420.26 70.69 2913.17 44.16 2923.74 41.78 6463.00 118.61 3012.82 50.07 F4 6151.54 309.20 3403.79 41.59 3413.59 41.06 3916.81 88.01 F5 7459.70 178.90 6301.17 145.52 6182.27 87.40 8649.00 106.67 F6 8502.70 130.87 7715.29 261.07 7569.78 134.02 9945.81 40.32 F7 10219.88 216.37 10240.15 153.73 8477.67 103.91 -

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal a de uma Contralto do resduo da vogal a de uma Contralto

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal a de uma Contralto strum do resduo da vogal a de uma Contralto

Figura 4.10: Estimao de formantes da vogal a de uma Contralto

Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

47

Tabela 4.10: Mdias dos formantes, vogal a de uma Contralto F1 1019.86 61.48 510.22 21.37 530.98 26.51 921.16 110.05 690.59 99.83 F2 3083.53 104.82 1179.04 85.86 1193 103.58 1602.37 79.43 1274.46 265.49 F3 3399.20 130.93 3170.41 57.55 31174.92 52.67 3232.30 34.17 2638.84 55.71 F4 4984.18 522.87 3517.45 42.12 3611.65 93.01 6465.12 65.68 3283.75 29.79 F5 6421.92 99.37 5436.24 103.17 6454.58 114.09 8115.48 93.32 6428.37 27.54 F6 8512.76 249.36 6405.63 94.92 8691.07 130.66 9034.69 91.45 8325.13 39.54 F7 9704.46 531.16 8846.18 188.31 9092.75 103.74 9292.73 32.47

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal i de uma Contralto do resduo da vogal i de uma Contralto

(c) Espectrograma e estimao de formantes do LPC (d) Espectrograma e estimao de formantes do Cepdo sinal da vogal i de uma Contralto strum do resduo da vogal i de uma Contralto

Figura 4.11: Estimao de formantes da vogal i de uma Contralto

Verso 0.92 (30 de Janeiro de 2012)

48

Teste e resultados

Tabela 4.11: Mdias dos formantes, vogal i de uma Contralto F1 626.59 455.41 462.00 13.52 463.80 14.71 500.95 133.90 525.69 40.96 F2 1924.90 429.07 1658.31 99.61 1676.37 93.28 1614.79 170.10 1634.09 54.50 F3 2914.38 283.14 2750.19 48.83 2779.74 57.41 3250.35 76.71 2806.39 58.15 F4 3897.34 790.59 3489.80 89.85 3509.14 92.51 7183.01 127.67 3526.23 111.39 F5 5848.27 642.78 5497.94 199.85 54.37 131.87 4747.70 38.44 F6 7356.52 643.55 7014.30 163.68 6991.64 139.05 5564.43 162.00 F7 9037.36 512.57 9306.95 125.59 9226.35 287.92 6804.23 127.48

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal a de uma Soprano do resduo da vogal a de uma Soprano

(c) Espectrograma e estimao de formantes do Cep- (d) Espectrograma e estimao de formantes do Cepstrum do sinal da vogal a de uma Soprano strum do resduo da vogal a de uma Contralto

Figura 4.12: Estimao de formantes da vogal a de uma Soprano

Verso 0.92 (30 de Janeiro de 2012)

4.3 Testes

49

Tabela 4.12: Mdias dos formantes, vogal a de uma Soprano F1 779.80 67.36 717.17 18.42 719.11 18.60 650.30 50.51 676.14 59.75 F2 1744.20 318.91 1441.95 24.44 1460.08 35.02 1422.58 247.50 1426.77 103.60 F3 3321.56 257.55 3521.52 115.30 3435.31 118.05 3348.07 69.29 3329.78 52.18 F4 3953.84 268.53 4348.01 186.38 3976.94 134.40 4202.03 117.92 4142.38 89.87 F5 5180.66 718.79 5049.54 45.68 4542.63 362.94 5271.65 103.45 5285.11 121.98 F6 7027.30 334.99 6947.70 113.92 6949.26 113.61 6951.12 88.83 6910.72 93.23 F7 8740.06 239.74 8959.25 214.93 8677.88 109.44 8839.99 75.85 8863.62 67.64

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

(a) Espectrograma e estimao de formantes do Praat (b) Espectrograma e estimao de formantes do LPC da vogal i de uma Soprano do resduo da vogal i de uma Soprano

(c) Espectrograma e estimao de formantes do Cep- (d) Espectrograma e estimao de formantes do Cepstrum do sinal da vogal i de uma Soprano strum do resduo da vogal i de uma Soprano

Figura 4.13: Estimao de formantes da vogal i de uma Soprano

Verso 0.92 (30 de Janeiro de 2012)

50

Teste e resultados

Tabela 4.13: Mdias dos formantes, vogal i de um Soprano F1 718.15 29.81 711.63 23.14 710.86 22.36 660.05 42.64 695.94 34.76 F2 2108.72 50.93 2059.88 47.04 2077.82 42.98 1997.91 53.80 1967.28 74.95 F3 2992.28 145.48 2903.54 143.48 2908.99 108.20 2867.83 84.59 2897.53 94.19 F4 4879.92 286.14 4021.33 104.57 4026.71 160.32 3678.19 141.58 3739.60 134.68 F5 5952.16 253.66 5618.31 319.05 5844.68 135.08 5025.33 91.61 5711.51 135.16 F6 7317.65 261.76 7304.52 162.64 7376.44 205.64 5889.03 255.50 5978.26 101.03 F7 9460.03 391.61 9883.48 252.16 9769.11 193.23 7480.99 143.62 7520.27 103.08

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P. Mdia D. P.

Verso 0.92 (30 de Janeiro de 2012)

4.4 Concluses

51

4.4

Concluses

Dos teste efetuados com as vozes sintticas, e utilizando as vogais i e a, denota-se bastante diculdade em estimar corretamente o primeiro formante; sendo que para a vogal i com frequncia fundamental de 440 Hz e 880 Hz, e para a vogal a com 880 Hz, este primeiro formante mais baixo que o seu harmnico fundamental, havendo assim um acrscimo de diculdade. Neste caso, o Cepstrum do resduo o que mais prximo se encontra da estimao desse formante, por menos depender da componente harmnica. Pde-se tambm vericar, que por exemplo no caso da vogal a que tem os primeiros trs formantes mais baixos do que a vogal i, que os mtodos testados encontram mais diculdade em deteta-los com preciso. Foi tambm realizado o teste de proximidade das estimaes em relao aos harmnicos tericos do sinal, para se vericar a tendncia dos mtodos serem afetados pelos harmnicos, especialmente em vozes com frequncia fundamental elevada. Assim, pde-se vericar, que no caso do Praat e para voz com frequncia fundamental de 880 Hz, existe tendncia da deteo ser afetada pelos harmnicos, bem como com o LPC do sinal e at mesmo o do resduo que foram implementados; sendo o Cepstrum do resduo o menos inuencivel pelos harmnicos. Embora se possam tirar algumas concluses com os testes sobre voz sintetizada, estas na minha opinio no so muito esclarecedoras, visto as vozes sintticas no terem caractersticas importantes que existem na voz natural, no tendo componente harmnica nas alta frequncia, sendo muito estvel e limpo; ao contrario do sinal de voz natural de canto, que pode ter componente harmnica bem denidas nas altas frequncias, podendo tambm ter mais rudo. Dos teste com vozes naturais de canto, pode-se vericar que para frequncias fundamentais baixas, o Cepstrum do sinal no tem bons resultados, devido dependncia que tm da frequncia fundamental para estimao do trato vocal; obtm contudo resultados interessantes para a voz de uma Soprano. O mtodo do Cepstrum do resduo, embora tenha resultados interessantes para todas as vozes testadas, este para frequncias fundamentais baixas pouco regular e preciso, melhorando os resultados medida que a frequncia fundamental seja elevada. Os mtodos de LPC do sinal e do resduo, tm comportamento bastante paralelo, similar, dando bons resultados na generalidade das vozes, inclusive para a voz de Soprano. Tm, em comparao com o Praat, uma maior denio nos formantes de baixa frequncia. De notar tambm que, o Praat, no faz qualquer tipo de alocao e diferenciao dos formantes a nvel temporal, de janela para janela, estando at representados como formantes picos espordicos sem qualquer tipo de continuidade. A obteno da listas dos formantes do Praat serviu para eu vericar isso. As principais diculdades, dando origem a resultados pouco estveis e precisos, prendem-se com a existncia de vibrato; e a proximidade entre formantes, especialmente pelas vozes estudadas serem de canto, havendo assim a formao do formantes de cantor.

Verso 0.92 (30 de Janeiro de 2012)

52

Teste e resultados

Verso 0.92 (30 de Janeiro de 2012)

Captulo 5

Concluso
O trabalho realizado no decorrer desta dissertao foi debruado sobre duas perspetivas. por outro lado, do ponto de vista da caracterizao de parmetros percetivos utilizados na avaliao da voz cantada, tanto a nvel de qualidade, como a nvel esttico. Por outro lado, do estudo e desenvolvimento de um mtodo de estimao de formantes da voz cantada. Vericou-se que os parmetros de qualidade e perceo usualmente utilizados no canto so subjetivos, no havendo uma denio bem denida dos fatos que tm importncia para que essa determinada caracterstica percetiva esteja presente na voz. Foi identicado, que o trato vocal tem grande importncia no canto, e nomeadamente devido inuncia dos seus formantes. Assim estabeleceu-se como ponto de partida para a objetivao dos referidos parmetros percetivos, o estudo dos formantes na voz cantada. Comeou-se tendo como objeto de estudo vozes sintticas, mas foram encontradas diculdades relacionadas com as diferenas entre as caractersticas morfolgicas das vozes sintticas e as vozes de canto naturais, existindo fatores nas vozes naturais que os sintetizadores ignoram, como o rudo da voz e as componentes nas altas frequncias. Outra diculdade com que me deparei, a proximidade entre dois ou mais formantes dicultando tanto a sua deteo como o seu seguimento e catalogao em tempo real, isto acontece muito na voz cantada com a existncia de aglomeraes de formantes, como o caso do formante de cantor. Do ponto de vista de vozes com frequncia fundamental alta, restringi-me s anlise de voz sinttica, devido base de dados de canto natural criada ter como voz com a fundamental mais alta, a duma Soprano. Neste caso em que a voz tem uma frequncia fundamental de aproximadamente 660 Hz, do ponto de vista de anlise de formantes, o simples mtodo baseado em LPC do sinal obtm bons resultados. Outra diculdades, do ponto de vista da deteo e estimao dos formantes prende-se com a existncia de vibrato, com uma frequncia assinalvel, causando instabilidade da componente harmnica de uma janela de anlise para outra, dicultando tanto a estimao por mtodos baseados no sinal, ou mesmo diculdade de estimao do resduo dicultado assim o estudo dos mtodos baseados no resduo. 53

54

Concluso

Penso que foi conclusivo, que para vozes com frequncia fundamental elevada a utilizao do rudo da voz uma boa abordagem para a estimao dos formantes do trato vocal, por si s, ou como o objetivo deste projeto, com a distribuio de esforo por outros mtodos. No cheguei porm a um algoritmo nal e funcional pois no consegui, ainda, identicar quais as caractersticas diferenciadoras de que mtodo utilizar e quando o utilizar.

5.1

Trabalho Futuro

Penso que um dos primeiros passo a ser feito a migrao dos algoritmos desenvolvidos em MatLab para ambiente C/C++ e seguir os desenvolvimentos a partir dessa plataforma, isto devido a certos problemas encontrados na plataforma MatLab no decorrer do desenvolvimento. O desenvolvimento do algoritmo de estimao de formantes ainda no cumpre os objetivos pretendidos, faltando determinar limites de utilizao dos mtodos, dependendo da frequncia e de outros possveis fatores, para cada um dos mtodos envolvidos. Para isso ser necessrio levar a cabo testes com vozes, de preferncia naturais, com elevada frequncia fundamental de forma a ser estudada a resposta dos mtodos e serem estabelecidas essas regras. O algoritmo de catalogao e seguimento de formantes em tempo real, pode tambm ainda ser melhorado, possivelmente com a utilizao de mtodos estatsticos, como por exemplo modelos de Markov (HMM), de forma a arranjar um mtodo robusto e resistente a erros devido a proximidade de formantes, erros esses que por vezes ainda acontecem. Partindo da estimao dos formantes, a ideia tambm identicar a existncia do formante de cantor, bem como as suas caractersticas morfolgicas, que esto largamente relacionadas a certos parmetros percetivos; podendo assim ser desenvolvida uma representao visual e em tempo real dessas caractersticas, relacionando as com os parmetros percetivos relevantes. Foram identicadas outras caractersticas acsticas relacionadas a parmetros percetivos, como o caso da distribuio harmnica no espectro; pode assim ser desenvolvido um mtodo de representao visual desta caracterstica de forma a ser relacionada com os respetivos parmetros percetivos, visto essa informao da componente harmnica j ser obtida pelo algoritmo de deteo de pitch, o Searchtonal.

Verso 0.92 (30 de Janeiro de 2012)

Anexo A

Anexo A - Descries estatsticas dos testes


A.1 Descries estatsticas dos testes com vozes naturais

A.1.1 Praat
Tabela A.1: Descries estatsticas dos resultados do Praat da vogal a de um Baixo N Estatstica 165 165 165 165 165 165 165 69 Gama Estatstica 791,30 1773,72 845,44 2002,69 3925,29 1653,98 2152,53 529,58 Mdia Estatstica Erro 775,72 8,06 1947,74 43,96 2779,25 26,31 3267,26 21,05 5939,76 91,71 7716,68 51,68 9139,50 56,63 9757,92 15,08 Desvio P. Estatstica 103,50 564,62 337,94 270,34 1178,10 663,80 727,38 125,27 Varincia Estatstica 10712,47 318792,38 114200,92 73084,61 1387911,96 440631,06 529076,80 15692,89

F1 F2 F3 F4 F5 F6 F7 F8

Tabela A.2: Descries estatsticas dos resultados do Praat da vogal i de um Baixo N Estatstica 165 165 165 165 165 165 165 0 Gama Estatstica 262,71 158,30 241,11 2173,19 1491,48 491,58 305,68 Mdia Estatstica Erro 1819,80 2,88 2787,71 2,88 3206,31 3,04 6421,47 29,84 7632,48 21,92 8259,75 8,86 10089,81 4,02 Desvio P. Estatstica 36,94 37,05 39,05 383,34 281,55 113,79 51,58 Varincia Estatstica 1364,80 1372,57 1524,95 146951,68 79268,51 12948,68 2660,78 -

F1 F2 F3 F4 F5 F6 F7 F8

55

56

Anexo A - Descries estatsticas dos testes

Tabela A.3: Descries estatsticas dos resultados do Praat da vogal a de um Tenor N Estatstica 165 165 165 165 165 165 165 6 Gama Estatstica 819,73 1771,00 842,22 3135,84 863,07 2125,19 1829,00 194,94 Mdia Estatstica Erro 1064,14 8,25 2727,13 20,99 3413,21 11,15 6104,04 41,03 6798,54 10,89 8433,97 25,57 10043,30 22,74 10169,69 34,30 Desvio P. Estatstica 105,97 269,66 143,22 527,05 139,90 328,43 292,04 84,01 Varincia Estatstica 11229,52 72717,91 20511,24 277779,98 19571,70 107864,36 85289,53 7057,15

F1 F2 F3 F4 F5 F6 F7 F8

Tabela A.4: Descries estatsticas dos resultados do Praat da vogal i de um Tenor N Estatstica 165 165 165 165 165 165 165 2 Gama Estatstica 2371,31 630,90 651,30 3181,54 1645,65 1158,19 2213,42 109,21 Mdia Estatstica Erro 2122,70 17,79 2913,87 5,19 3420,26 5,50 6151,54 24,07 7459,70 13,93 8502,70 10,19 10219,88 16,84 10174,64 54,60 Desvio P. Estatstica 228,57 66,63 70,69 309,20 178,90 130,87 216,37 77,22 Varincia Estatstica 52243,51 4439,60 4996,59 95602,10 32005,06 17127,66 46814,18 5963,30

F1 F2 F3 F4 F5 F6 F7 F8

Tabela A.5: Descries estatsticas dos resultados do Praat da vogal a de uma Contralto N Estatstica 165 165 165 165 165 165 163 0 Gama Estatstica 350,63 430,28 435,12 2113,68 609,12 1165,25 1889,76 Mdia Estatstica Erro 1019,86 4,79 3083,53 8,16 3399,20 10,19 4984,18 40,71 6421,92 7,74 8512,76 19,41 9704,46 41,60 Desvio P. Estatstica 61,48 104,82 130,93 522,87 99,37 249,36 531,16 Varincia Estatstica 3780,01 10988,02 17142,78 273391,94 9873,59 62180,00 282136,13 -

F1 F2 F3 F4 F5 F6 F7 F8

Verso 0.92 (30 de Janeiro de 2012)

A.1 Descries estatsticas dos testes com vozes naturais

57

Tabela A.6: Descries estatsticas dos resultados do Praat da vogal i de uma Contralto N Estatstica 165 165 165 165 165 165 160 124 Gama Estatstica 1641,34 1501,83 982,68 2429,55 2036,99 2654,23 3224,03 1536,64 Mdia Estatstica Erro 626,59 35,45 1924,90 33,40 2914,38 22,04 3897,34 61,55 5848,27 50,04 7356,52 50,10 9037,36 40,52 9613,92 28,20 Desvio P. Estatstica 455,41 429,07 283,14 790,59 642,78 643,55 512,57 314,05 Varincia Estatstica 207398,85 184105,00 80169,22 625038,85 413170,14 414155,31 262726,35 98629,54

F1 F2 F3 F4 F5 F6 F7 F8

Tabela A.7: Descries estatsticas dos resultados do Praat da vogal a de uma Soprano N Estatstica 165 165 165 165 165 165 165 153 Gama Estatstica 527,22 1854,82 1351,35 925,41 3075,73 2008,97 1684,26 1123,01 Mdia Estatstica Erro 779,80 5,24 1744,20 24,83 3321,56 20,05 3953,84 20,90 5180,66 55,96 7027,30 26,08 8740,06 18,66 9434,63 21,85 Desvio P. Estatstica 67,36 318,91 257,55 268,53 718,79 334,99 239,74 270,23 Varincia Estatstica 4536,72 101706,44 66331,87 72106,57 516656,72 112219,67 57475,28 73026,51

F1 F2 F3 F4 F5 F6 F7 F8

Tabela A.8: Descries estatsticas dos resultados do Praat da vogal i de uma Soprano N Estatstica 165 165 165 165 165 165 165 78 Gama Estatstica 134,23 343,44 578,21 1595,72 1277,82 1901,53 1790,20 1332,58 Mdia Estatstica Erro 718,15 2,32 2108,72 3,96 2992,28 11,33 4879,92 22,28 5952,16 19,75 7317,65 20,38 9460,03 30,49 10289,10 26,32 Desvio P. Estatstica 29,81 50,93 145,48 286,14 253,66 261,76 391,61 232,48 Varincia Estatstica 888,80 2593,44 21164,20 81874,88 64341,50 68519,57 153356,44 54047,08

F1 F2 F3 F4 F5 F6 F7 F8

Verso 0.92 (30 de Janeiro de 2012)

58

Anexo A - Descries estatsticas dos testes

A.1.2

Mtodos implementados

Tabela A.9: Descries estatsticas dos resultados dos mtodos implementados da vogal a de um Baixo N Estatstica 167 167 161 167 167 158 167 74 167 2 0 0 0 0 0 167 68 167 167 159 167 78 97 77 62 29 65 156 152 Gama Estatstica 8,38 86,13 150,73 150,73 258,40 495,26 344,53 559,86 172,27 64,60 172,27 172,27 193,80 279,93 602,93 366,06 602,93 559,86 968,99 1098,19 646,00 236,87 215,33 150,73 Mdia Estatstica Erro 110,88 0,14 578,82 1,21 1071,58 2,60 2404,88 2,79 3086,98 3,32 6957,68 6,85 8294,80 4,55 9748,72 16,33 2611,45 2,40 7009,06 32,30 613,89 2,25 1135,24 5,34 2434,15 3,27 3118,70 3,64 6964,43 7,04 8297,37 4,52 9743,22 16,80 863,77 12,54 2794,28 28,93 5579,18 34,92 5951,33 29,18 7109,60 6,08 8273,86 3,59 9504,78 2,58 Desvio P. Estatstica 1,77 15,64 32,97 36,09 42,95 86,13 58,80 140,52 30,97 45,68 29,03 44,00 42,24 47,07 88,73 58,45 148,41 123,46 253,85 274,92 157,12 48,98 44,78 31,86 Varincia Estatstica 0,14 11,36 50,47 60,47 85,67 344,52 160,55 916,96 44,54 96,90 39,14 89,89 82,85 102,91 365,64 158,63 1022,81 707,85 2992,49 3510,06 1146,51 111,41 93,11 47,13

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

A.1 Descries estatsticas dos testes com vozes naturais

59

Tabela A.10: Descries estatsticas dos resultados dos mtodos implementados da vogal i de um Baixo N Estatstica 167 167 167 167 162 21 133 139 167 1 0 0 0 0 0 167 167 167 166 61 114 145 152 160 38 160 151 127 115 Gama Estatstica 5,89 43,07 107,67 193,80 193,80 559,86 581,40 366,06 150,73 0,00 43,07 64,60 172,27 215,33 1119,73 839,79 430,66 430,66 129,20 215,33 301,46 301,46 387,60 323,00 Mdia Estatstica Erro 109,38 0,10 303,79 1,05 1824,91 1,68 2783,59 2,89 3170,43 2,69 7538,67 32,59 8211,76 9,52 10071,34 5,74 2771,34 2,29 6309,23 311,01 1,04 1837,03 1,57 2782,17 2,63 3178,22 2,73 6959,46 33,65 8239,85 13,27 10084,96 6,07 774,06 6,63 2850,73 1,72 4852,90 9,38 6773,27 4,81 7892,99 3,79 8580,39 6,90 9973,99 6,12 Desvio P. Estatstica 1,31 13,58 21,75 37,40 34,24 149,33 109,74 67,71 29,57 13,50 20,32 33,97 35,16 262,84 141,68 73,04 81,70 21,73 57,83 60,85 46,63 77,73 65,65 Varincia Estatstica 0,08 8,57 21,98 64,97 54,45 1035,54 559,27 212,91 40,61 8,46 19,17 53,58 57,42 3208,32 932,15 247,75 309,96 21,94 155,30 171,94 100,97 280,56 200,18

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

60

Anexo A - Descries estatsticas dos testes

Tabela A.11: Descries estatsticas dos resultados dos mtodos implementados da vogal a de um Tenor N Estatstica 167 137 167 167 167 119 167 90 134 167 160 1 0 0 0 135 167 167 165 124 107 166 167 167 154 67 87 157 66 Gama Estatstica 21,23 366,06 86,13 172,27 366,06 839,79 452,20 452,20 495,26 193,80 236,87 0,00 344,53 86,13 172,27 344,53 689,06 882,86 387,60 215,33 193,80 323,00 882,86 689,06 344,53 559,86 Mdia Estatstica Erro 278,61 0,42 689,53 5,73 1114,70 1,72 2782,68 3,19 3352,35 5,81 6386,86 14,56 8496,46 7,91 10155,06 9,98 961,60 9,56 3164,87 2,83 6107,76 4,25 8096,48 702,94 4,68 1105,67 1,84 2787,84 3,11 3411,12 5,38 6251,92 13,20 6759,21 17,82 8525,46 7,26 970,93 3,54 2793,13 2,62 3693,92 5,74 6063,04 24,50 6740,88 16,51 8332,66 7,36 9125,51 15,72 Desvio P. Estatstica 5,45 67,11 22,17 41,19 75,04 158,79 102,22 94,65 110,69 36,61 53,70 54,33 23,75 40,17 69,08 146,99 184,38 93,49 45,76 33,85 71,23 200,58 153,98 92,18 127,73 Varincia Estatstica 1,38 209,15 22,82 78,78 261,53 1170,90 485,25 416,05 568,96 62,25 133,90 137,06 26,18 74,92 221,63 1003,44 1578,80 405,87 97,24 53,21 235,62 1868,31 1101,15 394,62 757,65

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

A.1 Descries estatsticas dos testes com vozes naturais

61

Tabela A.12: Descries estatsticas dos resultados dos mtodos implementados da vogal i de um Tenor N Estatstica 167 167 162 167 167 131 37 29 20 167 92 0 0 0 0 167 163 167 167 154 63 131 144 49 165 106 167 51 0 Gama Estatstica 23,86 129,20 430,66 236,87 215,33 775,20 1033,59 667,53 516,80 193,80 559,86 129,20 323,00 215,33 215,33 473,73 732,13 624,46 409,13 172,27 323,00 473,73 430,66 193,80 0,00 Mdia Estatstica Erro 280,50 0,47 294,50 1,38 2076,09 6,90 2913,17 3,42 3403,79 3,22 6301,17 12,71 7715,29 42,92 10240,15 28,55 483,42 30,71 3070,87 2,58 6463,00 12,37 290,38 1,74 2128,22 5,65 2923,74 3,23 3413,59 3,18 6182,27 7,04 7569,78 16,88 8477,67 9,08 522,18 6,11 1810,55 6,27 3012,82 3,90 3916,81 8,55 8649,00 8,25 9945,81 5,65 0,00 0,00 Desvio P. Estatstica 6,08 17,89 87,78 44,16 41,59 145,52 261,07 153,73 137,34 33,33 118,61 22,53 72,11 41,78 41,06 87,40 134,02 103,91 73,34 43,92 50,07 88,01 106,67 40,32 0,00 Varincia Estatstica 1,71 14,86 357,81 90,57 80,31 983,35 3165,22 1097,56 876,00 51,59 653,37 23,57 241,45 81,05 78,30 354,71 834,12 501,46 249,82 89,58 116,44 359,68 528,41 75,49 0,00

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

62

Anexo A - Descries estatsticas dos testes

Tabela A.13: Descries estatsticas dos resultados dos mtodos implementados da vogal a de uma Contralto N Estatstica 167 167 167 167 80 24 130 38 113 29 167 167 119 114 0 167 147 167 98 104 111 15 127 70 42 167 167 165 159 Gama Estatstica 28,09 86,13 452,20 215,33 193,80 366,06 473,73 710,60 387,60 344,53 150,73 279,93 452,20 430,66 129,20 473,73 172,27 366,06 667,53 646,00 301,46 452,20 882,86 258,40 150,73 172,27 236,87 150,73 Mdia Estatstica Erro 453,37 0,59 510,22 1,65 1179,04 6,64 3170,41 4,45 3517,45 4,71 5436,24 21,06 6405,63 8,32 8846,18 30,55 921,16 10,35 1602,37 14,75 3232,30 2,64 6465,12 5,08 8115,48 8,55 9034,69 8,56 530,98 2,05 1193,55 8,54 3174,92 4,08 3611,65 9,39 6454,58 11,19 8691,07 12,40 9092,75 26,79 690,59 8,86 1274,46 31,73 2638,84 8,60 3283,75 2,31 6428,37 2,13 8325,13 3,08 9292,73 2,58 Desvio P. Estatstica 7,63 21,37 85,86 57,55 42,12 103,17 94,92 188,31 110,05 79,43 34,17 65,68 93,32 91,45 26,51 103,58 52,67 93,01 114,09 130,66 103,74 99,83 265,49 55,71 29,79 27,54 39,54 32,47 Varincia Estatstica 2,70 21,20 342,32 153,83 82,37 494,29 418,38 1646,83 562,45 293,03 54,23 200,34 404,45 388,35 32,63 498,21 128,84 401,71 604,50 792,88 499,78 462,85 3273,23 144,12 41,22 35,23 72,60 48,97

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

A.1 Descries estatsticas dos testes com vozes naturais

63

Tabela A.14: Descries estatsticas dos resultados dos mtodos implementados da vogal i de uma Contralto N Estatstica 167 167 167 167 167 71 78 131 26 108 167 166 1 0 0 167 167 165 167 132 110 121 167 159 143 157 29 85 82 Gama Estatstica 31,27 43,07 366,06 258,40 344,53 882,86 646,00 646,00 516,80 689,06 279,93 581,40 0,00 43,07 366,06 279,93 387,60 646,00 559,86 1141,26 215,33 215,33 344,53 452,20 172,27 667,53 667,53 Mdia Estatstica Erro 445,84 0,65 462,00 1,05 1658,31 7,71 2750,19 3,78 3489,80 6,95 5497,94 23,72 7014,30 18,53 9306,95 10,97 500,23 26,26 1614,79 16,37 3250,35 5,94 7183,01 9,91 7579,69 463,80 1,14 1676,37 7,22 2779,74 4,47 3509,14 7,16 5437,30 11,48 6991,64 13,26 9226,35 26,17 525,69 3,17 1634,09 4,32 2806,39 4,86 3526,23 8,89 4747,70 7,14 5564,43 17,57 6804,23 14,08 Desvio P. Estatstica 8,37 13,52 99,61 48,83 89,85 199,85 163,68 125,59 133,90 170,10 76,71 127,67 14,71 93,28 57,41 92,51 131,87 139,05 287,92 40,96 54,50 58,15 111,39 38,44 162,00 127,48 Varincia Estatstica 3,25 8,49 460,76 110,75 374,92 1854,79 1244,14 732,46 832,57 1343,71 273,25 756,99 10,05 404,11 153,05 397,43 807,58 897,97 3849,80 77,89 137,92 157,03 576,26 68,63 1218,83 754,72

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

64

Anexo A - Descries estatsticas dos testes

Tabela A.15: Descries estatsticas dos resultados dos mtodos implementados da vogal a de uma Soprano N Estatstica 167 167 167 167 89 2 166 75 165 93 157 120 27 152 142 167 165 155 90 49 166 60 160 108 167 148 25 165 147 Gama Estatstica 50,78 43,07 86,13 387,60 818,26 64,60 430,66 882,86 323,00 1076,66 495,26 495,26 409,13 409,13 387,60 64,60 150,73 646,00 559,86 1335,06 452,20 538,33 387,60 624,46 366,06 495,26 559,86 430,66 344,53 Mdia Estatstica Erro 701,94 1,15 717,17 1,43 1441,95 1,89 3521,52 8,92 4348,01 19,76 5049,54 32,30 6947,70 8,84 8959,25 24,82 650,30 3,93 1422,58 25,66 3348,07 5,53 4202,03 10,76 5271,65 19,91 6951,12 7,20 8839,99 6,36 719,11 1,44 1460,08 2,73 3435,31 9,48 3976,94 14,17 4542,63 51,85 6949,26 8,82 8677,88 14,13 676,14 4,72 1426,77 9,97 3329,78 4,04 4142,38 7,39 5285,11 24,40 6910,72 7,26 8863,62 5,58 Desvio P. Estatstica 14,91 18,42 24,44 115,30 186,38 45,68 113,92 214,93 50,51 247,50 69,29 117,92 103,45 88,83 75,85 18,60 35,02 118,05 134,40 362,94 113,61 109,44 59,75 103,60 52,18 89,87 121,98 93,23 67,64 Varincia Estatstica 10,32 15,75 27,73 617,39 1613,14 96,90 602,63 2145,37 118,49 2844,63 222,95 645,74 496,98 366,42 267,16 16,07 56,96 647,19 838,90 6117,19 599,44 556,21 165,82 498,43 126,44 375,08 691,00 403,65 212,44

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

A.1 Descries estatsticas dos testes com vozes naturais

65

Tabela A.16: Descries estatsticas dos resultados dos mtodos emplementados da vogal i de uma Soprano N Estatstica 166 167 162 100 4 81 95 83 164 115 132 81 117 72 84 166 166 118 8 68 41 99 166 86 148 57 62 27 108 Gama Estatstica 61,09 86,13 301,46 753,66 236,87 968,99 710,60 968,99 279,93 366,06 430,66 624,46 495,26 861,33 581,40 86,13 301,46 581,40 495,26 559,86 839,79 818,26 193,80 559,86 473,73 581,40 646,00 409,13 581,40 Mdia Estatstica Erro 697,30 1,28 711,63 1,79 2059,88 3,70 2903,54 14,35 4021,33 52,29 5618,31 35,45 7304,52 16,69 9883,48 27,68 660,05 3,33 1997,91 5,02 2867,83 7,36 3678,19 15,73 5025,33 8,47 5889,03 30,11 7480,99 15,67 710,86 1,74 2077,82 3,34 2908,99 9,96 4026,71 56,68 5844,68 16,38 7376,44 32,12 9769,11 19,42 695,94 2,70 1967,28 8,08 2897,53 7,74 3739,60 17,84 5711,51 17,17 5978,26 19,44 7520,27 9,92 Desvio P. Estatstica 16,46 23,14 47,04 143,48 104,57 319,05 162,64 252,16 42,64 53,80 84,59 141,58 91,61 255,50 143,62 22,36 42,98 108,20 160,32 135,08 205,64 193,23 34,76 74,95 94,19 134,68 135,16 101,03 103,08 Varincia Estatstica 12,58 24,86 102,76 956,04 507,82 4727,18 1228,39 2952,93 84,44 134,41 332,31 930,83 389,72 3031,63 957,95 23,23 85,81 543,66 1193,55 847,39 1963,88 1734,01 56,13 260,89 411,98 842,36 848,40 473,98 493,40

LPC Sinal

Cepstrum do sinal

LPC do resduo

Cepstrum do resduo

F0 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7 F1 F2 F3 F4 F5 F6 F7

Verso 0.92 (30 de Janeiro de 2012)

66

Anexo A - Descries estatsticas dos testes

A.2
A.2.1

Descries estatsticas dos testes com vozes sintticas


Praat

Tabela A.17: Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 220 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 323,00 1732,61 2321,71 3084,92 3589,45 Mdia Estatstica Erro 355,0833 3,27858 929,1932 62,03089 1319,8688 87,96920 1767,2969 117,78983 2044,3286 136,20462 Desvio P. Estatstica 42,49529 804,01221 1140,21115 1526,73071 1765,41370 Varincia Estatstica 1805,849 646435,632 1300081,466 2330906,661 3116685,517

F1 F2 F3 F4 F5

Tabela A.18: Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 440 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 501,92 2133,76 2960,23 3375,13 3851,95 Mdia Estatstica Erro 524,8324 5,05584 2173,3971 21,83274 3020,2810 30,65341 3455,6324 34,95574 3718,0293 37,91553 Desvio P. Estatstica 65,53118 282,98462 397,31364 453,07816 491,44138 Varincia Estatstica 4294,336 80080,295 157858,131 205279,816 241514,626

F1 F2 F3 F4 F5

Tabela A.19: Descries estatsticas dos resultados do Praat da vogal sinttica i com frequncia fundamental de 880 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 851,46 1702,05 2530,17 3364,49 4195,74 Mdia Estatstica Erro 873,6268 8,68800 1745,9404 17,37267 2604,8221 25,89595 3468,1111 34,47238 4326,7431 42,96551 Desvio P. Estatstica 112,60929 225,17548 335,64981 446,81311 556,89661 Varincia Estatstica 12680,852 50703,997 112660,796 199641,952 310133,838

F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

67

Tabela A.20: Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 220 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 624,30 1106,45 2703,34 3532,01 4462,74 Mdia Estatstica Erro 645,6236 7,38431 1129,5053 11,96135 2568,5369 37,82228 3317,2387 44,48303 4232,9157 55,13897 Desvio P. Estatstica 95,71165 155,03688 490,23280 576,56598 714,68273 Varincia Estatstica 9160,719 24036,434 240328,203 332428,332 510771,411

F1 F2 F3 F4 F5

Tabela A.21: Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 440 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 808,68 1241,29 2590,26 3448,53 4461,54 Mdia Estatstica Erro 796,7400 11,54894 1159,5973 17,43855 2011,5240 56,58612 3110,6282 45,41554 4057,0331 56,25184 Desvio P. Estatstica 149,69141 226,02945 733,43988 588,65262 729,10723 Varincia Estatstica 22407,520 51089,311 537934,064 346511,907 531597,350

F1 F2 F3 F4 F5

Tabela A.22: Descries estatsticas dos resultados do Praat da vogal sinttica a com frequncia fundamental de 880 Hz N Estatstica 168 168 168 168 168 Gama Estatstica 840,81 1674,77 2531,39 3379,16 4311,67 Mdia Estatstica Erro 866,6777 8,61531 1722,1209 17,12402 2603,0208 25,87743 3472,9903 34,52386 4397,4639 43,73263 Desvio P. Estatstica 111,66720 221,95263 335,40984 447,48043 566,83970 Varincia Estatstica 12469,564 49262,971 112499,758 200238,734 321307,245

F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

68

Anexo A - Descries estatsticas dos testes

A.2.2

Mtodos implementados

Tabela A.23: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 220 Hz N Estatstica 168 168 168 168 168 168 168 168 166 168 53 108 153 168 26 148 28 149 168 159 Gama Estatstica 21,53 43,07 21,53 107,67 215,33 21,53 43,07 43,07 193,80 193,80 409,13 279,93 150,73 172,27 301,46 301,46 301,46 323,00 193,80 279,93 Mdia Estatstica Erro 342,7368 ,46054 2255,4749 ,79242 3087,3230 ,80669 3505,5542 1,58036 4634,5093 2,13345 258,9111 ,25403 2329,6875 ,83220 3093,2190 ,83591 3488,5086 2,61193 4603,2349 2,80303 320,1540 13,11326 440,4338 5,10997 2002,8694 2,05581 3179,0955 2,98975 7169,7284 12,38318 490,6078 4,34811 1446,5698 15,58670 2472,1273 4,54716 3351,3611 2,81904 4477,8228 3,82720 Desvio P. Estatstica 5,96926 10,27089 10,45588 20,48378 27,65261 3,29267 10,78654 10,83469 33,65239 36,33140 95,46594 53,10434 25,42892 38,75157 63,14210 52,89707 82,47704 55,50513 36,53892 48,25921 Varincia Estatstica 1,655 4,899 5,077 19,485 35,511 ,503 5,403 5,452 52,592 61,299 423,242 130,964 30,029 69,738 185,152 129,944 315,906 143,073 62,002 108,156

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

69

Tabela A.24: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 220 Hz N Estatstica 168 168 168 159 79 168 168 168 149 154 168 32 101 61 159 168 131 68 167 168 Gama Estatstica ,00 21,53 279,93 409,13 193,80 ,00 21,53 193,80 344,53 581,40 107,67 538,33 689,06 538,33 409,13 193,80 236,87 107,67 258,40 172,27 Mdia Estatstica Erro 667,5293 ,00000 1119,3420 ,22067 2753,4302 3,81171 3626,6519 5,12446 4671,0696 4,93418 667,5293 ,00000 1121,5210 ,46054 2803,8025 2,68345 3674,5183 4,68560 4724,0212 6,90724 791,2170 1,56393 2499,8703 27,96174 2932,5664 13,09187 3115,9604 11,72251 4682,4560 5,47723 731,1035 2,73201 1624,0309 4,13475 2714,1336 3,64950 3609,7127 3,56704 4596,4417 2,41094 Desvio P. Estatstica ,00000 2,86021 49,40538 64,61704 43,85592 ,00000 5,96926 34,78150 57,19509 85,71656 20,27088 158,17551 131,57167 91,55573 69,06527 35,41086 47,32440 30,09452 46,09636 31,24940 Varincia Estatstica ,000 ,380 113,355 193,903 89,320 ,000 1,655 56,181 151,918 341,209 19,083 1161,903 803,926 389,280 221,519 58,232 104,007 42,060 98,679 45,350

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

70

Anexo A - Descries estatsticas dos testes

Tabela A.25: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 440 Hz N Estatstica 168 168 168 168 168 168 168 168 168 168 168 141 2 168 147 168 162 168 167 53 Gama Estatstica ,00 ,00 ,00 21,53 86,13 ,00 ,00 ,00 21,53 64,60 215,33 64,60 21,53 129,20 64,60 172,27 430,66 129,20 323,00 258,40 Mdia Estatstica Erro 473,7305 ,00000 2217,9199 ,00000 3100,7813 ,00000 3536,0596 ,68372 4585,1624 1,19413 473,7305 ,00000 2217,9199 ,00000 3100,7813 ,00000 3539,3921 ,80406 4707,0557 1,26272 528,7170 3,42917 2040,7673 1,39408 2293,2861 10,76660 3216,7786 1,54189 4662,0117 1,25367 566,7847 2,07548 2469,9382 5,77777 3336,4929 2,02663 4493,9924 4,07136 7706,4490 8,00966 Desvio P. Estatstica ,00000 ,00000 ,00000 8,86205 15,47764 ,00000 ,00000 ,00000 10,42184 16,36668 44,44709 16,55374 15,22627 19,98514 15,20000 26,90130 73,53901 26,26813 52,61360 58,31123 Varincia Estatstica ,000 ,000 ,000 3,647 11,125 ,000 ,000 ,000 5,044 12,440 91,744 12,726 10,767 18,548 10,729 33,608 251,146 32,044 128,555 157,905

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

71

Tabela A.26: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 440 Hz N Estatstica 168 168 168 168 167 168 168 168 168 168 168 165 2 167 8 168 162 168 167 168 Gama Estatstica ,00 ,00 64,60 129,20 279,93 21,53 86,13 129,20 193,80 236,87 64,60 323,00 172,27 344,53 193,80 236,87 236,87 150,73 215,33 172,27 Mdia Estatstica Erro 818,2617 ,00000 1184,3262 ,00000 2639,4836 ,88129 3523,6267 1,63045 4647,9483 3,59167 820,3125 ,48913 1191,5039 1,73115 2651,4038 1,31806 3563,1042 2,81611 4552,8625 3,05111 878,3752 1,08863 2953,3114 4,86843 3660,6445 86,13281 4669,3526 4,24222 7649,6704 23,64104 843,7683 3,02391 1601,8311 3,36914 2711,7737 2,02566 3627,7645 3,48860 4584,3933 1,65274 Desvio P. Estatstica ,00000 ,00000 11,42278 21,13307 46,41457 6,33983 22,43826 17,08406 36,50091 39,54690 14,11027 62,53615 121,81019 54,82152 66,86695 39,19429 42,88211 26,25555 45,08266 21,42201 Varincia Estatstica ,000 ,000 6,059 20,740 100,046 1,867 23,381 13,554 61,873 72,630 9,246 181,616 689,063 139,570 207,642 71,341 85,397 32,014 94,387 21,311

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

72

Anexo A - Descries estatsticas dos testes

Tabela A.27: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica i com frequncia fundamental de 880 Hz N Estatstica 168 168 168 168 168 168 168 168 168 168 168 153 168 168 33 168 70 77 163 153 Gama Estatstica ,00 ,00 ,00 ,00 ,00 ,00 21,53 ,00 ,00 ,00 86,13 86,13 64,60 86,13 172,27 301,46 430,66 516,80 495,26 279,93 Mdia Estatstica Erro 861,3281 ,00000 1765,7227 ,00000 2670,1172 ,00000 3531,4453 ,00000 4414,3066 ,00000 839,7949 ,00000 1783,0261 ,66201 2670,1172 ,00000 3531,4453 ,00000 4435,8398 ,00000 696,4966 1,32343 2035,3803 1,11335 3256,6406 1,28863 4671,6797 1,35820 7135,9730 7,89288 256,8604 3,89327 2100,1025 10,18912 2333,4162 11,86862 3356,4055 5,57860 4533,6541 3,80977 Desvio P. Estatstica ,00000 ,00000 ,00000 ,00000 ,00000 ,00000 8,58064 ,00000 ,00000 ,00000 17,15357 13,77137 16,70252 17,60433 45,34113 50,46252 85,24833 104,14670 71,22280 47,12428 Varincia Estatstica ,000 ,000 ,000 ,000 ,000 ,000 3,419 ,000 ,000 ,000 13,665 8,807 12,956 14,392 95,472 118,258 337,492 503,712 235,575 103,129

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

73

Tabela A.28: Descries estatsticas dos resultados dos mtodos implementados da vogal sinttica a com frequncia fundamental de 880 Hz N Estatstica 168 168 168 168 168 168 168 168 168 168 168 104 167 168 11 167 70 92 168 168 Gama Estatstica ,00 ,00 ,00 21,53 64,60 ,00 43,07 21,53 43,07 64,60 64,60 366,06 301,46 193,80 323,00 323,00 452,20 172,27 236,87 193,80 Mdia Estatstica Erro 882,8613 ,00000 1744,1895 ,00000 2648,5840 ,00000 3537,9822 ,76616 4500,4395 1,13538 882,8613 ,00000 1744,9585 ,65281 2659,9915 ,83167 3552,8503 ,56028 4483,5205 1,16616 934,1309 ,90557 2459,9614 7,77625 3046,1101 4,48289 4702,4414 3,05744 7483,7669 36,30740 928,2487 4,02390 1715,2734 11,88653 2743,6109 3,63295 3637,5732 3,35517 4586,4441 2,26711 Desvio P. Estatstica ,00000 ,00000 ,00000 9,93056 14,71627 ,00000 8,46136 10,77964 7,26205 15,11516 11,73747 79,30247 57,93166 39,62894 120,41803 52,00028 99,44988 34,84608 43,48801 29,38505 Varincia Estatstica ,000 ,000 ,000 4,580 10,057 ,000 3,325 5,396 2,449 10,610 6,398 292,055 155,856 72,932 673,402 125,575 459,304 56,390 87,827 40,100

LPC do sinal

LPC do resduo

Cepstrum do sinal

Cepstrum do resduo

F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5 F1 F2 F3 F4 F5

Verso 0.92 (30 de Janeiro de 2012)

74

Anexo A - Descries estatsticas dos testes

A.2.3

Grcos

Figura A.1: Estatsticas relativos do 1o formante da vogal sinttica i

Figura A.2: Estatsticas relativos do 2o formante da vogal sinttica i

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

75

Figura A.3: Estatsticas relativos do 3o formante da vogal sinttica i

Figura A.4: Estatsticas relativos do 4o formante da vogal sinttica i

Figura A.5: Estatsticas relativos do 5o formante da vogal sinttica i

Verso 0.92 (30 de Janeiro de 2012)

76

Anexo A - Descries estatsticas dos testes

Figura A.6: Estatsticas relativos do 1o formante da vogal sinttica i

Figura A.7: Estatsticas relativos do 2o formante da vogal sinttica i

Figura A.8: Estatsticas relativos do 3o formante da vogal sinttica i

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

77

Figura A.9: Estatsticas relativos do 4o formante da vogal sinttica i

Figura A.10: Estatsticas relativos do 5o formante da vogal sinttica i

Verso 0.92 (30 de Janeiro de 2012)

78

Anexo A - Descries estatsticas dos testes

A.2.4

Relao de proximidade aos harmnicos

Tabela A.29: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 220 Hz Vogal sinttica i com F0 = 220 Hz H1 H2 H3 H4 H5 59,65% 47,20% 50,00% 49,79% 53,54% 60,21% 27,74% 15,63% 0,73% 4,99% 70,58% 32,37% 17,17% 0,89% 4,62% 63,62% 74,98% 24,13% 9,68% 62,95% 44,25% 17,81% 6,36% 4,79% 1,77%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Tabela A.30: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 220 Hz Vogal sinttica a com F0 =220 Hz H1 H2 H3 H4 H5 26,63% 35,82% 2,71% 5,76% 3,80% 24,14% 36,40% 4,30% 3,03% 6,16% 24,14% 36,28% 6,20% 4,39% 0,07364 10,09% 42,04% 11,08% 11,48% 6,42% 16,92% 7,73% 2,81% 2,55% 4,46%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Tabela A.31: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 440 Hz Vogal sinttica i com F0 = 440 Hz H1 H2 H3 H4 H5 40,36% 23,49% 14,40% 1,83% 15,50% 60,21% 27,74% 15,63% 0,73% 4,99% 46,17% 26,02% 17,45% 0,55% 6,98% 39,92% 15,95% 13,13% 8,61% 5,95% 35,59% 40,34% 26,38% 27,67% 75,15%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Verso 0.92 (30 de Janeiro de 2012)

A.2 Descries estatsticas dos testes com vozes sintticas

79

Tabela A.32: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 440 Hz Vogal sinttica a com F0 = 440 Hz H1 H2 H3 H4 H5 9,46% 34,11% 23,81% 11,63% 7,79% 7,02% 32,71% 0,02% 0,10% 5,64% 6,78% 32,30% 0,43% 1,22% 3,47% 0,18% 67,80% 38,66% 32,65% 73,86% 4,12% 8,99% 2,72% 3,06% 4,19%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Tabela A.33: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica i com frequncia fundamental de 880 Hz Vogal sinttica i com F0 = 880 Hz H1 H2 H3 H4 H5 2,58% 1,76% 0,49% 0,24% 0,33% 60,21% 27,74% 15,63% 0,73% 4,99% 4,57% 1,46% 1,14% 0,33% 0,81% 65,48% 46,94% 33,31% 0,59% 0,93% 68,85% 27,44% 25,23% 100,00% 2,50%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Tabela A.34: Relaes dos resultados estimados com os harmnicos tericos da vogal sinttica a com frequncia fundamental de 880 Hz Vogal sinttica a com F0 = 880 Hz H1 H2 H3 H4 H5 0,21% 0,47% 0,59% 0,59% 2,56% 0,33% 0,90% 0,33% 0,51% 2,28% 0,33% 0,61% 0,48% 0,59% 2,77% 1,18% 100,00% 3,50% 1,99% 2,95% 5,66% 5,76% 100,00% 2,85% 4,68%

Praat LPC do sinal LPC do resduo Cepstrum do sinal Cepstrum do resduo

Verso 0.92 (30 de Janeiro de 2012)

80

Anexo A - Descries estatsticas dos testes

Verso 0.92 (30 de Janeiro de 2012)

Anexo B

Anexo B - Equipamentos utilizados nas gravaes


B.1 Microfone

Figura B.1: Especicaes do microfone utilizado nas gravaes [41]

81

82

Anexo B - Equipamentos utilizados nas gravaes

B.2

Pr-amplicador

Figura B.2: Especicaes do pr-amplicar utilizado nas gravaes [42]

Verso 0.92 (30 de Janeiro de 2012)

Referncias
[1] The voice tablet. Blue Tree Publishing. [2] Yasunori Ohishi, Masataka Goto, Katunobu Itou, e Kazuya Takeda. Discrimination between singing and speaking voices. Em INTERSPEECH 2005, pginas 11411144, 2005. [3] Helen F. Mitchell e Dianna T. Kenny. Em Proceedings of the third Conference on Interdisciplinary Musicology, tallinn, Estonia, pginas 1519, 2007. [4] Johan Sundberg. The acoustics of the singing voice. Scientic American, pginas 104114, March 1977. [5] Caitlin J. Butte, Yu Zhang, Huangqiang Song, e Jack J. Jiang. Perturbation and nonlinear dynamic analysis of different singing styles. Journal of Voice, 2008. [6] Joo Filipe Terleira de S Ferreira. Tecnologia de apoio em tempo-real ao canto; abordagem acerca de parmetros qualitativos e percetivos. Relatrio tcnico, Escola Superior de Msica e Artes do Espetculo, December 2011. [7] Franois Thibault. Formant trajectory detection using hidden markov models. Relatrio tcnico, Sound Processing and Control Lab, McGill University, Montreal, Canada, December 2003. [8] Alan Cinnide. Linear prediction - the technique, its solution and application to speech. Relatrio tcnico, Dublin Institute of Technology, August 2008. [9] Ricardo Sousa. Metodologias de Avaliao Perceptiva e Acstica do Sinal de Voz em Aplicaes de Ensino do Canto e Diagnstico/Reabilitao da Fala. Tese de doutoramento, Faculdade de Engenharia da Universidade do Porto, 2011. [10] Microfone Neumann TLM 103. http://www.neumann.com/. [11] Pr-amplicador Mackie ONYX - 800R. http://www.mackie.com/products/800r/. [12] Lus L. Henrique. Acstica Musical. Fundao Calouste Gulbenkian, fundao calouste gulbenkian edio, 2002. [13] Evan Bradley. An investigation of the acoustic vowel space of singing. Em Proceedings of the 11 th International Conference on Music Perception and Cognition, Seattle, W. Department of Linguistics and Cognitive Science, University of Delaware, 2010. [14] Johan Sundberg. Level and center frequency of the singers formant. Quarterly Progress and Status Report, vol. 40, pginas 087094, 1999. 83

84

REFERNCIAS

[15] Alex Loscos. Spectral Processing of the Singing Voice. Tese de doutoramento, Universitat Pompeu Fabra, 2007. [16] Martn Rocamora e Perfecto Herrera. Comparing audio descriptors for singing voice detection in music audio les. Facultad de Ingeniera de la Universidad de la Repblica and Universitat Pompeu Fabra. [17] Preeti Rao. Musical information extraction from the singing voice. Em National Conference on Signal and Image Processing Applications, IET Mumbai, 2007. [18] Ixone Arroabarren, Miroslav Zivanovic, Jos Bretos, Amaya Ezcurra, e Afonso Carlosena. Measurement of vibrato in lyric singers. IEEE Transactions on Instrumentation and Measurement, VOL. 51, NO.4, pginas 660665, August 2002. [19] Ixone Arroabarren, Xavier Rodet, e Afonso Carlosena. On the measurement of the instantaneous frequency and amplitude of partials in vocal vibrato. IEEE Transactions on Audio, Speech, and Language Processing, VOL. 14, NO.4, pginas 14131421, July 2006. [20] Ixone Arroabarren e Afonso Carlosena. Voice production mechanisms of vocal vibrato in male singers. IEEE Transactions on Audio, Speech, and Language Processing, VOL. 15, NO.1, pginas 320332, January 2007. [21] Dirk Mrbe, Thomas Zahnert, Eberhard Kuhlisch, e Johan Sundberg. Effects of professional singing education on vocal vibrato - a longitudinal study. Journal of Voice, Vol.21, No. 6, pginas 683688, 2007. [22] Ixone Arroabarren e Afonso Carlosena. Vibrato in singing voice: The link between sourcelter and sinusoidal models. Eurasip Journal on Applied Signal Processing, vol. 2004, pginas 10071020, 2004. [23] T. J. Millhouse e F. Clermont. Perceptual characterisation of the singers formant region: A preliminary study. [24] Jody Kreiman, Diana Vanlancker-Sidtis, e Bruce Gerratt. Dening and measuring voice quality. Em Sound to Sence, MIT, June 2004. [25] Jan W. M. A. F. Martens, Huib Versnel, e Philippe H. Dejonchere. The effect of visible speech in the perceptual rating of pathological voices. [26] S. McCoy. Chapter 1: Listening to singers. in Your Voice: An Inside View. [27] Barbara Patricia Burke. Electronic Detection of nasality in the Singing Voice Using Waveshape Analysis. Tese de doutoramento, The Florida State University, 1982. [28] G. Fant. The source lter concept in voice production. Quarterly Progress and Status Report, Vol.22, No.1, pginas 021037. [29] C. Zarras, K. Pastiadis, G. Papadelis, e G. Papanikolaou. Cepstrum-based estimation of resonance frequencies (formants) in high-pitch singing signals. Em Proceedings DAGA, Berlin, 2010. [30] Tams Bhm e Gza Nmeth. Algorithm for formant tracking, modication and synthesis. Hradstechnika, pginas 1116, 2006. Verso 0.92 (30 de Janeiro de 2012)

REFERNCIAS

85

[31] Adam P. Kestian e Tamara Smyth. Real-time estimation of the vocal tract shape for musical control. 2010. [32] Chanwoo Kim, Kwang-deok Seo, e Wonyong Sung. A robust formant extraction algorithm combining spectral peak picking and root polishing. EURASIP Journal on Applied Signal Processing, pginas 116, 2006. [33] Gza Nmeth, Gza Kiss, Toms Bhm, e Jzsef Kiss. An algorithm for formant analysis, tracking and modication. [34] B. Yegnanarayana e Raymond N. J. Veldhuis. Extraction of vocal-tract system characteristics from speech signals. IEEE Transctions on speech and audio processing, Vol.6, No.4, pginas 313327, July 1998. [35] Jos Ventura. Biofeedback da voz cantada. Tese de mestrado, Faculdade de Engenharia da Universidade do Porto, 2011. [36] Diana Rocha Mendes. Reconhecimento de orador em dois segundos. Tese de mestrado, Faculdade de Engenharia da Universidade do Porto, 2011. [37] Katharine Murphy. Digital signal processing techniques for application in the analysis of pathological voice and normaphonic singing voice. Tese de doutoramento, Universidad Politcnica de Madrid, 2008. [38] Saeed V. Vaseghi. Advanced Digital signal Processing and Noise Reduction. John Wiley & Sons Ltd, second edition edio. Chapter 8: Linear Prediction Models. [39] Xuedong Huang, Alex Acero, e Hsiao-Wuen Hon. Spoken Language Processing. PrenticeHall PTR, 2001. [40] G. Ravindran, S. Shenbagadevi, e V. Salai Selvam. Cepstral and linear prediction techniques for improving intelligibility and audibility of impaired speech. J. Biomedical Science and Engineering, pginas 8594, 2010. [41] G Fant e A. Bladon. A two-formant model and the cardinal vowels. Quarterly Progress and Status Report, KTH, pginas 0108, 1978. [42] Madde, an additive, real-time, singing synthesiser. http://www.speech.kth.se/smptool/.

Verso 0.92 (30 de Janeiro de 2012)

You might also like