Metodologias para Projeto e Aquisio de uma Base de
Dados Lingsticos Visando ao Treinamento e Avaliao de
Sistemas de Reconhecimento de Fala
Edmilson Morais 1 , Jussara M. Viera 2 , Pablo Arantes 2 , Ana Cristina F. Matte 3
1 FEEC - Faculdade de Engenharia Eltrica e Computao, UNICAMP 2 IEL - Instituto de Estudos da Linguagem, UNICAMP 3 FALE - POSLIN - Estrutura Sonora da Linguagem, UFMG
{emorais}@decom.fee.unicamp.br Abstract. The aim of this work is to describe a methodology for designing and recording linguistic databases for training and evaluation of speech recognition systems. All the methods presented on this paper were specifically developed for Hidden Markov Model based speech recognition systems. Moreover, the techniques and recommendations for database design and recording presented here are specific for speech recognition applications such as embedded systems for mobile phones, Palm-Top, Toys, audio and video equipments and information kiosks. Resumo. O objetivo deste trabalho descrever uma metodologia para projeto e aquisio de bases de dados lingsticos, voltadas ao treinamento e avaliao de sistemas de reconhecimento automtico de fala. Todas as tcnicas para projeto de bases de fala descritas neste artigo sero voltadas para sistemas de reconhecimento de fala baseados na tecnologia de Modelos Ocultos de Markov e para tarefas especficas de reconhecimento de fala, tais como: sistemas embarcados para telefonia mvel, Palm-Top, brinquedos, produtos eletroeletrnicos (udio e vdeo), portais de voz e quiosques para informaes. 1. Introduo
Todos os sistemas modernos de reconhecimento automtico de fala so baseados em mtodos estatsticos tais como HMM (Hidden Markov Models) e ANN (Artificial Neural Networks). Todos estes mtodos demandam, em geral, uma grande massa de dados lingsticos para que sejam treinados e avaliados adequadamente. Alm disso, muitos dos algoritmos utilizados nos sistemas de reconhecimento de fala so dependentes de aspectos lingsticos e, portanto, requerem pesquisas e desenvolvimentos especificamente direcionados para a lngua abordada. Conscientes deste fato, alguns projetos e associaes foram criados na Europa e nos Estados Unidos com o objetivo de projetar, coletar e distribuir bases de dados lingsticos para vrias das lnguas faladas no mundo [1, 8, 9].
Apesar de algumas iniciativas Europias e Norte Americanas para construo de bases de dados lingsticos datarem do incio da dcada de 90, at o presente momento, os autores deste projeto desconhecem a existncia de uma base de dados lingsticos III TIL 2118 sobre o portugus brasileiro, doravante PB, que tenha sido especificamente projetada para motivar pesquisas e desenvolvimentos na rea de reconhecimento automtico de fala no Brasil e que seja de domnio pblico. Em outras palavras, os autores deste projeto desconhecem a existncia de uma base de dados voltada para o reconhecimento de fala do PB, que seja de larga extenso, que tenha sido devidamente projetada, adquirida e rotulada, e que esteja disponvel gratuitamente para Universidades e empresas de base tecnolgica.
A soluo at ento adotada por muitos grupos de pesquisa no Brasil tem sido a construo de bases de dados locais e de uso particular. Alunos de Mestrado e Doutorado que trabalham com reconhecimento de fala tm despendido um tempo enorme no desenvolvimento de bases que, em geral, no so construdas de maneira apropriada e que, alm disso, no possuem a extenso suficiente para validar os novos mtodos, tcnicas ou algoritmos propostos 1 . Outro ponto extremamente importante associado ausncia de uma base de dados lingsticos, comum a vrios grupos de pesquisa, a impossibilidade de uma comparao fidedigna dos resultados experimentais obtidos entre os grupos.
Nos ltimos dez anos, inmeros grupos de pesquisa e empresas de base tecnolgica tm sido criados na Europa, Estados Unidos e Japo [3] visando ao desenvolvimento de sistema para reconhecimento automtico de fala. As seis reas mais focadas para possveis aplicaes so: (1) Telefonia mvel, (2) Sistemas de informao Portais de voz ou quiosques de informao, (3) Dispositivos de udio e vdeo, (4) Dispositivos automotivos, (5) Brinquedos e (6) Palm-Top. A existncia de bases de dados lingsticos para o Ingls, para o Japons e para vrias outras lnguas Europias, tm sido de fundamental importncia para o sucesso de tais grupos e empresas.
Motivados pela enorme importncia que uma base de dados lingsticos, de alta qualidade e de domnio pblico ter no desenvolvimento da rea de reconhecimento de fala no Brasil, os autores deste trabalho vm por meio deste propor uma metodologia para a construo de tal base de dados.
A Seo 2 deste artigo descreve em detalhes a metodologia proposta para projeto e aquisio da base de dados. Nesta seo so apresentados detalhes sobre a escolha das aplicaes-alvo, seleo dos locutores, projeto do corpus, gravao e etiquetagem das sentenas, anlise das gravaes, licena de uso, documentao e disponibilizao do material. A Seo 3 conclui este trabalho apresentando algumas consideraes finais. 2. Metodologia
Algumas das principais etapas na criao de uma base de dados lingsticos, voltada ao treinamento e avaliao de sistemas de reconhecimento de fala, so: Definio das provveis aplicaes-alvo Seleo dos locutores Seleo das sentenas a serem gravadas Aquisio Segmentao e etiquetagem
1 Infelizmente, muitas defesas de Tese na rea de Reconhecimento Automtico de Fala sobre o portugus brasileiro, defendidas no Brasil, terminam com a velha retrica: No havia dados suficientes para validar o algoritmo proposto. III TIL 2119 Anlise da qualidade acstica das gravaes Avaliao da qualidade vocal dos locutores Licena de uso Documentao e disponibilizao da base de dados
2.1. Definio das Provveis Aplicaes-Alvo
Treinar e avaliar sistemas de reconhecimento de fala capazes de operar com alto desempenho em qualquer tarefa e/ou ambiente acstico um desafio que o estado-da- arte da tecnologia de fala ainda no capaz de atingir. A maneira mais simples e comumente utilizada para contornar este problema desenvolver sistemas especficos para determinadas aplicaes e/ou condies acsticas. O desenvolvimento de tais sistemas dependentes de tarefa demanda tecnologias especficas e bases de dados lingsticos especialmente projetadas para tais fins. Partindo-se de tal premissa, toda a metodologia apresentada neste artigo foi desenvolvida visando a aplicaes de reconhecimento de fala especificamente voltadas para um nmero reduzido de aplicaes-alvo: Sistemas embarcados para telefonia mvel Palm-Tops Brinquedos Produtos eletroeletrnicos (eletrodomsticos, sistemas de udio e vdeo...) Portais de voz Quiosques para informaes
A motivao para a escolha de tais aplicaes-alvo foi a realizao de alguns estudos europeus indicando o potencial econmico de tais reas [2].
2.2. Seleo dos locutores
Recomenda-se que todos os candidatos a locutores sejam submetidos a um protocolo de entrevista e avaliao. Este protocolo deve ser aplicado por especialistas em Lingstica e Fonoaudiologia e deve possuir os seguintes itens: Identificao. Aqui sero registradas informaes, tais como: nome, idade, data de nascimento, sexo, cidade em que viveu na maior parte da infncia e da adolescncia e a naturalidade dos pais. Outro item importante a ser registrado o uso ou no de algum tipo de aparelho ortodntico ou prtese dentria. Caracterizao da sade vocal: Aqui ser realizada uma caracterizao de hbitos como fumo e ingesto de bebida alcolica. Uso de medicamentos (o que inclui, por exemplo, anticoncepcional ou qualquer outro hormnio para mulheres). Estado das vias areas superiores (laringe, faringe, nariz, especialmente). Queixas vocais e auditivas. Possveis alteraes vocais (em mulheres) associadas ao ciclo menstrual. Avaliao de aspectos vocais e de produo da fala. Aqui sero avaliados aspectos tais como: Ritmo, intensidade, qualidade vocal, nveis de inteligibilidade, ressonncia e articulao.
No sero aceitos locutores que apresentarem as seguintes caractersticas: Omisses, substituies, adies e transposies articulatrias, mesmo que se constituam por razes sociolingsticas III TIL 2120 Movimentos de mandbula que confiram uma articulao naturalmente travada ou exagerada Excesso de presso area na produo de fonemas plosivos (que possam levar a variaes demasiadamente bruscas de amplitude) Uso profissional da voz, por exemplo, locutores de rdio (por apresentarem uma fala significativamente diferente da fala de um locutor padro)
As seguintes caractersticas sero toleradas nos locutores: Protruso de lngua nos fonemas /t/, /d/, /n/, /s/ e /z/ Regionalismos quanto aos fonemas /r/, /t/, /d/, /s/ /j/ Graus leves de ressonncia vocal nasal, rouquido e soprosidade Uso de aparelhos ortodnticos e prteses dentrias desde que a produo de fala e voz satisfaa o nvel de qualidade desejado
O treinamento de sistemas de reconhecimento estatstico de fala demanda bases de dados lingsticos ricas em variabilidades acsticas. A forma mais usual de se obter tais variabilidades por meio de um nmero elevado de locutores, com caractersticas dialetais diversas e com idades variadas. As Tabelas 1 e 2 a seguir apresentam sugestes quanto ao nmero total de locutores e suas respectivas faixas etrias e distribuies geogrficas e dialetais. A Tabela 2 leva em considerao tanto a diversidade de dialetos quanto a importncia econmica da regio.
Tabela 1: Faixa etria dos locutores
Faixa etria N de locutores N de homens N de mulheres De 18 a 30 anos 550 225 225 De 31 a 45 anos 300 150 150 De 46 a 60 anos 150 75 75 Total 1000 500 500
Tabela 2: Distribuio dialetal dos locutores
Regio/Estado Dialetos Populao nacional Nmero de locutores Sul Paranaense, Catarinense, Gacho 15% 200 So Paulo Regio metropolitana, Litonarneo, Centro paulista, Oeste paulista 23% 225 Sudeste Carioca, Mineiro, Capixaba 21% 225 Nordeste Baiano, Pernambucano, Cearense 25% 275 Norte e Centro Oeste Centro Oeste, Amazonense 16% 75 Total 100% 1000
2.3. Seleo das sentenas a serem gravadas
As sentenas a serem gravadas devem ser definidas em funo das aplicaes-alvo. Aspectos importantes a serem considerados durante o processo de construo ou seleo destas sentenas so: As sentenas devem ser lidas ou pronunciadas espontaneamente? Sentenas lidas so adequadas ao treinamento de sistemas de reconhecimento de fala bem articulada e pronunciada sem hesitaes. Sistemas visando ao reconhecimento de fala espontnea devem ser treinados com o uso de bases de fala espontnea. Quais as variabilidades fontico-acsticas que realmente so importantes no treinamento e avaliao dos sistemas? As variabilidades espectrais limitadas aos III TIL 2121 segmentos fonticos da fala (fones, difones e trifones nos mais variados contextos) so as caractersticas mais relevantes para o bom treinamento de sistemas de reconhecimento baseados em HMMs. Aspectos prosdicos ou supra- segmentais no so, em geral, bem explorados pelos sistemas baseados em HMMs e, portanto, sua presena na base de dados no muito relevante. ou no importante incluir sentenas ou palavras especficas para as aplicaes-alvo? Como os sistemas baseados em HMMs empregram mtodos estatsticos que aprendem a partir dos exemplos de treinamento, de se esperar que treinar o sistema com palavras que apresentem uma alta probabilidade de ocorrncia durante o uso do sistema, ir provavelmente aumentar o desempenho do mesmo. Entretanto, esta incluso de palavras especficas deve ser realizada com cuidado para evitar grandes alteraes no balanceamento fontico-acstico do corpus. Como construir ou selecionar um conjunto timo de sentenas? Uma das tcnicas mais usuais a de selecionar, a partir de um grande corpus (por exemplo, sentenas extradas do Jornal Folha de So Paulo), um subconjunto de sentenas que satisfaa as especificaes fontico-acsticas consideradas mais relevantes. Alm das sentenas selecionadas, prtica comum, como citado acima, a incluso de sentenas e/ou palavras especficas para as aplicaes-alvo que se deseja contemplar.
A Tabela 3 apresenta uma sugesto para as sentenas, palavras e comandos a serem gravados. importante enfatizar mais uma vez que os itens da Tabela 3 foram definidos em funo das aplicaes-alvo citadas na Seo 2.1.
Tabela 3: Itens a serem gravados
Num. Itens Quantidade 1 Sentenas lidas 85 2 Sentenas foneticamente compactas 5 3 Palavras foneticamente ricas 5 4 Palavras/frases especficas p/ as aplicaes-alvo 150 5 Dgitos conectados 5 6 Dgitos contnuos 5 7 Nmeros telefnicos 5 8 Horas do dia 5 9 E-mail e endereos html 5 10 Dinheiro 5 11 Nomes de cidades 5 12 Nomes prprios 5 13 Dias da semana, ms, ano e datas importantes 5 14 Caracteres especiais de computador 5 15 Palavras soletradas 5 Total 300
A seguir so traadas algumas consideraes sobre os itens da Tabela 3
2.3.1 Sentenas lidas Sugere-se a gravao de 85 sentenas foneticamente ricas para cada um dos 1000 locutores. O objetivo obter uma cobertura de todos os fones, bem como uma boa cobertura dos difones e trifones mais freqentes do PB. O termo sentenas foneticamente ricas no ser utilizado no sentido de uma distribuio de fonemas similar distribuio tpica do PB. O termo sentenas foneticamente ricas ser utilizado neste artigo para expressar: III TIL 2122 Exemplos de treinamento suficientes para todos os fones, incluindo os fones mais raros. Boa cobertura dos difones e trifones mais freqentes. importante ressaltar a necessidade de se respeitar um bom balanceamento dialetal. Nmero mnimo de exemplos de um determinado fone, para toda a base de dados, igual a 1000. Esta imposio somente deve ser relaxada para o caso de fones considerados muito raros. Apenas 5% do total dos fones podem ser considerados muito raros.
Para que seja alcanada uma boa diversidade acstica no conjunto de sentenas lidas, recomenda-se: No deve existir mais do que 5 exemplares idnticos de cada sentena em todo o corpus. Cada fonema deve ser pronunciado por pelo menos 95% dos locutores.
Um bom mtodo para a seleo das sentenas pode ser encontrado no site, http://gps-tsc.upc.es/veu/personal/sesma/index.html
Com o objetivo de obter uma boa variabilidade de pronncias e de contornos prosdicos recomenda-se: Sentenas de tamanho variados, entre 8 e 12 palavras 90% de frases declarativas, 5% de frases exclamativas, 5% de frases interrogativas
Todas as sentenas devem ser individualmente conferidas para verificar se no h nada semanticamente ofensivo ou inapropriado.
2.3.2 Sentenas foneticamente compactas Devem ser gravadas 5 sentenas foneticamente compactas. Estas sentenas devem apresentar as seguintes propriedades: Larga variabilidade fontico-acstica Ser de fcil leitura, isto , devem minimizar possveis hesitaes ou dificuldades de leitura por parte dos locutores
Estas sentenas foneticamente compactas devem ser comuns a todos os 1000 locutores. Estas sentenas devem ser segmentadas manualmente e utilizadas para o treinamento inicial do sistema.
2.3.3 Palavras foneticamente ricas Devem ser gravadas 5 palavras com contextos fonticos relativamente pouco freqentes, raros, na lngua Portuguesa. Estas palavras devem ser utilizadas para tentar satisfazer a condio de 1000 exemplares de cada fone em todo o corpus.
2.3.4 Palavras e frases especficas para as aplicaes-alvo 150 palavras/comandos e frases especficas para as aplicaes-alvo. A Tabela 4 apresenta alguns possveis exemplos para palavras/sentenas especficas:
Tabela 4: Exemplo de alguns comandos especficos para as aplicaes-alvo
Classes de comandos Exemplos de comandos especficos para aplicao Comandos para ativar e desativar sistemas Ligar, desligar, cancelar, senha, ok, sair... Dispositivos CD, DVD, PDA, MP3, microfone, vdeo cassete... Conectividade Bluetooth, rede, servidor, cliente, sincronizar... III TIL 2123 Navegao em diretrios Menu, diretrio, lista, opes, detalhes... Edio de texto Copiar, colar, corrigir, ditar, adicionar, inserir... Dispositivos de vdeo Maximizar, limpar, zoom, brilho, contraste, cor... Dispositivos de udio Volume, aumentar volume, grave, agudo... Navegao na Internet Internet, hyperlink, conectar, responder, enviar, urgente... Funes para agendas eletrnicas Calendrio, agenda, apontamentos, contatos... Lazer e diverso Cinema, teatro, arte, cultura, moda, comdia...
2.3.5 Sequncia de dgitos 5 dgitos isolados: Dgitos devem ser pronunciados com uma pausa entre eles. Por exemplo - Dois, trs, nove, sete, um, zero... 5 dgitos conectados: Os dgitos devem ser pronunciados de forma contnua, sem pausas entre eles. Por exemplo - Cinco - quatro - dez - um - dois - seis... 5 dgitos contnuos: Por exemplo - Dois mil quinhentos e cinqenta e dois
2.3.6 Nmeros telefnicos 5 nmeros de telefones. Escolher nmeros que representem discagens locais, estaduais e internacionais.
2.3.7 Horas do dia 5 expresses de horas do dia. Por exemplo: Cinco horas da tarde. Dezessete horas...
2.3.8 E-mail e endereos html 5 descries de e-mails e endereos html.
2.3.9 Expresses descrevendo quantidade de dinheiro 5 sentenas descrevendo dinheiro. Por exemplo: oito mil trezentos e quarenta reais
2.3.10 Nomes de cidades 5 nomes de ruas. Por exemplo: Rua Treze de Maio, Avenida Brasil... Contemplar nomes freqentes.
2.3.11 Nomes prprios de pessoas 5 nomes prprios (incluindo nomes e sobrenomes). Por exemplo: Joo Pedro da Silva. Deve-se contemplar nomes prprios freqentes no Brasil.
2.3.12 Dias da semana, meses, datas importantes e feriados 5 expresses de datas. Por exemplo: Segunda-feira, Maro, 21 de Abril, Natal...
2.3.13 Caracteres especiais do teclado do computador 5 caracteres especiais de teclado de computador. Por exemplo: Arroba, Cifro...
2.3.14 Palavras soletradas Soletrar palavras no uma prtica muito usual no PB (por se tratar de uma lngua quase fontica) Entretanto, nos casos de alguns sobrenomes e nomes de cidades, o soletrado pode s vezes ser importante. So recomendadas 5 palavras soletradas: 2 nomes de pessoas, 2 nomes de cidades e 1 seqncia aleatria de letras.
2.4. Aquisio
2.4.1 Software para aquisio Recomenda-se que as sentenas e/ou palavras/comandos sejam lidas da tela de um computador. O ideal seria a utilizao um software para aquisio com as seguintes funcionalidades: III TIL 2124 Cadastro das informaes do protocolo de entrevista e avaliao dos locutores, ver Seo 3.2. Conduo do processo de gravao, indicando aos locutores o que deve ser pronunciado. Visualizao grfica do sinal de voz gravado e aviso sobre possveis problemas de saturao ou nvel muito baixo de sinal.
2.4.2 Cenrio de gravao Sugere-se uma gravao em ambiente silencioso, sujeito apenas a rudos semelhantes ao de um escritrio. A relao sinal/rudo (RSR) deve ser controlada na faixa entre 30 e 60dB, aproximadamente. Os autores deste artigo esto conscientes que algumas das aplicaes-alvo sugeridas na Seo 3.1 estaro, muito provavelmente, sujeitas a RSR acima de 60dB. Portanto, talvez fosse mais adequado a realizaes de gravaes em diferentes cenrios, sujeitos a RSR na faixa entre 30 e 90dB. Entretanto, a aquisio de uma base de dados em diferentes cenrios e sujeita a elevados nveis de rudo uma tarefa deveras complexa. Outra tarefa no menos complexa a segmentao fontico- acstica de uma base de dados que tenha sido adquirida em ambientes com elevado nvel rudo. O que os autores deste artigo sugerem uma aquisio em ambiente de escritrio e uma posterior mistura, aditiva ou convolutiva, do sinal gravado com rudos diversos [6].
Com o objetivo de se obter diferentes relaes sinal-rudo, para o sinal gravado, sugere-se a gravao, simultnea, de trs canais: Gravao a curta distncia: entre 3 a 5 cm dos lbios do locutor. Gravao a mdia distncia: entre 30 e 40 cm dos lbios do locutor. Gravao a longa distncia: entre 100 e 110 cm dos lbios do locutor.
2.4.3 Equipamentos de gravao LapTops providos de placa de som digital externa de alta qualidade. Microfones do tipo headset de alta qualidade para realizao das gravaes a curta distncia. Microfone de mesa localizado entre 30 e 40 cm do locutor para realizao das gravaes a mdia distncia. Microfone de mesa localizado entre 100 e 110 cm do locutor para realizao das gravaes a longa distncia.
2.4.4 Condies de gravao Os trs canais devem ser gravados, simultaneamente, com taxa de amostragem de 22kHz e quantizados com 16 bits.
2.5. Segmentao e etiquetagem
Depois de gravadas, todas as sentenas devem ser transcritas ortograficamente. Esta transcrio consiste na verificao do que realmente foi falado pelo locutor. Se houver alguma diferena entre as sentenas originais e o que foi falado pelo locutor ento as devidas correes devem ser efetuadas.
Deve ser realizada a transcrio ortogrfico-fontica de todas as palavras presentes no corpus. Para que isto seja feito, torna-se necessrio a definio de um alfabeto fontico e tambm a construo de um transcritor ortogrfico-fontico. A Tabela 5 apresenta uma proposta para o alfabeto fontico a ser utilizado.
III TIL 2125 Tabela 5: Proposta para o alfabeto fontico a ser utilizado: SAMPA-PB
l I galo oj oj pois U6 on contnua Consoante de ataque
L t galho Oj 5j di Alofonias importantes p p pata
Fones em coda uj uj fui T tj time t t tata
N n, santo aw aw mau D d dica k k cata
5 s casca Ew cw cu
b b bata
4 ,x, r carta ew cw meu
Deve ser realizada uma transcrio fontica larga (no muito detalhada) de todas as sentenas. Esta transcrio pode ser obtida atravs do uso de regras automticas para a insero de possveis efeitos de co-articulao entre palavras. [5]
O ltimo passo a segmentao fontico-acstica das sentenas. A segmentao manual de todas as sentenas a serem gravadas seria uma tarefa extremamente tediosa e economicamente invivel. Por esta razo, a soluo proposta pelos autores deste projeto a construo de segmentador fontico-acstico semi-automtico para o PB, baseado em HMM [7].
2.6. Anlises
Avaliao acstica das gravaes: Realizao de algumas anlises acsticas para verificar a qualidade sonora das gravaes (Relao sinal rudo, nvel de amplitude das gravaes...).
Avaliao da qualidade vocal dos locutores: Realizao de algumas anlises para caracterizar a qualidade vocal dos locutores (Qualidade acstica das vogais, Jitter, Shimmer, taxa de locuo de cada locutor...).
2.7. Licena de uso
Deve-se preparar um termo de licena de uso a ser assinado pelos locutores, disponibilizando os sinais gravados para os fins devidamente especificados.
2.8. Documentao e disponibilizao da base de dados
Documentao descrevendo todos os tens importantes relacionados com a definio das III TIL 2126 aplicaes-alvo, seleo dos locutores, seleo das sentenas, aquisio, anlise, avaliao da base de dados, licenas e disponibilizao do material.
Sugere-se a disponibilizao da base de dados por meio do uso de CD, DVD ou de servios de ftp ou http.
3. Consideraes Finais
Neste trabalho foi apresentada uma metodologia para projeto e aquisio de bases de dados lingsticos visando aos treinamentos e avaliaes de sistemas de reconhecimento de fala. A metodologia foi desenvolvida tendo como nfase algumas aplicaes-alvo consideradas comercialmente interessantes. No que diz respeito seleo dos locutores a serem gravados, foi proposto um protocolo de entrevista e avaliao, bem como distribuies dialetais e de faixa etria dos locutores. Foram discutidos aspectos fontico-acsticos considerados importantes no projeto das sentenas a serem gravadas. Uma descrio detalhada de um conjunto de itens a serem gravados (sentenas, palavras, comandos, soletrado, dgitos...) foi apresentada. Consideraes sobre cenrios, equipamentos e condies de gravao foram traadas. Discusses sobre transcries ortogrficas, converses ortogrfico-fontica e segmentao fontica, semi-automtica, foram apresentadas. Um alfabeto fontico foi proposto. Algumas anlises acsticas e fontico-acsticas a serem realizadas aps a aquisio da base de dados foram mencionadas. Finalmente, foram feitos alguns comentrios sobre licena de uso, disponibilizao da base de dados e documentao.
Os autores deste trabalho acreditam que uma base de dados lingsticos para o PB, de alta qualidade e de domnio pblico, ser de extrema importncia para o desenvolvimento da rea de reconhecimento de fala no Brasil. Esperamos que este trabalho possa, de alguma forma, contribuir para o projeto e aquisio de tal base de dados.
Referncias
[1] LCD, Linguistic Data Consortium, http://www.ldc.upenn.edu/ . ELRA, European Language Resources Association, http:/www.elra.info/. ELDA, Evaluations and Language Resources Distribution Agency, http://www.elda.fr/sommaire.php [2] SpeechDat projects., http://www.speechdat.org/. Speecon project., http://www.speechdat.org/speecon/index.html [3] Empresas na rea de Tecnologia da Fala., http://www.scansoft.com, http://www.nuance.com, http://www.research.att.com/programs/VES.html, http://www.research.att.com/programs/VES.html. [4] Ynoguti C., A., Barbosa, P., A., and Violaro, F., A Large Speech Database for Brazilian Portuguese Spoken Language Research, Proceedings of the VI Encontro para o Proc. Comp. da Lngua Portuguesa, PROPOR2003, Junho de 2003, Faro, Portugal. pp. 193-196, ISBN 3-540-40436-8. [5] Albano, E. and A. Moreira, Archisegment-based letter-to-phone conversion for concatenative speech synthesis in Portuguese, Proceeding of the ICSLP 96, vol 3, pp. 1708-1711, 1996. [6] Couvreur, L., et al, On the use of artificial reverberations for ASR in highly reverberant environments. 2 IEEE Benelux Signal Proc. Symposium, Hilvarenbeek, Holanda, Maro, 2000. [7] Wightman, C., W., Talkin, T. D., The Aligner: Text-to-Speech Alignment Using Markov Models , Progress in Speech Synthesis, Jan P. H. van Sante [et al], editors, chapter 25, pp. 313, Spring-Verlang, New York, USA, 1996. [8] Listerri, J., et al, Corpus Orales para el Desarrollo de las Tecnologas Hable en Espaol , Oralia Anlisis del Discurso Oral 8, 2005 (em prensa). http://liceu.uab.es/~joaquim/publicacions/Oralia_04.pdf [9] Listerri, J., Transcripicn, Etiquetado y Codificacin de Corpus Orales , In Gmez Guinovart, J., et al (Eds.) Panorama de la Investigacin en lingstica informtica. RESLA, Revista Espaola de Lingstica Aplicada, Volumen Monogrfico. p. 53-82. III TIL 2127