You are on page 1of 9

ENTRENAMIENTODISCRIMINATIVOPORDISTANCIADE MAHALANOBIS PARADETECCINDEPATOLOGASDE VOZ DISCRIMINATIVETRAININGBASEDONMAHALANOBIS DISTANCEFOR PATHOLOGICVOICEDETECTION

M.SARRIAPAJA
UniversidadNacionaldeColombia SedeManizales,mosarriap@unal.edu.co

G.CASTELLANOSDOMNGUEZ
UniversidadNacionaldeColombia SedeManizales,cgcastellanosd@unal.edu.co
Recibidopararevisar Marzo 17de2009,aceptadoSeptiembre8de2009,versinfinalOctubre13 de2009

RESUMEN:EsteartculopresentaunatcnicadeentrenamientodiscriminativoparaModelosOcultosdeMarkov, orientado a identificacin de patologas de voz. Esta tcnica busca maximizar el rea que encierra la Curva ROC (ReceiverOperatingCharacteristic)ajustandolosparmetrosdelmodelo,empleandocomofuncinobjetivoladis tanciadeMahalanobis.Losresultadosmuestranquelatcnicapropuestamejorasignificativamentelaprecisin en unsistemadeclasificacincomparadoconotroscriteriosdeentrenamiento.Losresultadossonobtenidosempleando labasededatosdepatologasdevozMEEIVL. PALABRASCLAVE: HMM,MLE,Entrenamientodiscriminativo,patologasdevoz,curvaROC. ABSTRACT:Thispaper presents anapproach thatimproves discriminative training criterion for Hidden Markov Models,andorientedtovoicepathologicalidentification.ThistechniqueaimsatmaximizingtheAreaunderCurve ofaReceiverOperatingCharacteristiccurvebyadjustingthemodelparametersusingasobjectivefunctiontheMa halanobisdistance.Theresultsshowthattheproposedtechniqueoutperformssignificantlytheaccuracyinaclassifi cationsystemcomparingwithothertrainingcriteria.ResultsareprovidedusingtheMEEIVLvoicedisordersdata base. KEYWORDS:HMM,MLE,Discriminativetraining, voicepathology,ROCcurve.

1. INTRODUCCIN Los Modelos Ocultos de Markov (Hidden Mar kovModelsHMM)hansidoampliamenteutili zados en sistemas de reconocimiento de voz, especialmenteenlasolucin deproblemas tales como identificacin o verificacin de hablante, ubicndosecomounaherramientaestndarpara modelarlasvariacionesestocsticaspresentesen estetipodeseales[1].Unproblemadeespecial inters en aplicaciones biomdicas es la detec cin de patologas en seales de voz, donde el principal objetivo es generar herramientas de diagnstico asistido mediantetcnicasnoinvasi

vas[2].El procesoautomticodevozparadetec cin de patologas tiene sus ventajas: el anlisis escuantitativoynoinvasivo,permitiendoidenti ficarymonitorearenfermedadesdeltractovocal, yadicionalmentereducircostos. Durantelafonacinsostenidadevocales,lavoz normal esunaseal regularycuasiperidica,y cambiosabruptosensuformadeondasepueden percibir como posibles trastornos. Emplear me didasdedistorsinclsicascomplementadascon otrotipodecaractersticasdinmicas,comoseha sealado en algunos estudios [3], es una de las formas ms eficientes de capturarlamayor

Dyna,Ao77,Nro.164,pp. 220228.Medelln, Diciembre de2010.ISSN00127353

Dyna164,2010

221

cantidad de informacin disponible en las sea les acsticas,considerandotambinlos cambios en su estructura temporal, permitiendo modelar deformaadecuadaestosfenmenos.Estetipode caractersticas combinadas con clasificadores dinmicos,(porejemploHMM),sehanemplea doenladeteccindepatologasdevozdeforma satisfactoria[4]. El entrenamiento de los HMM implica el ajuste de los parmetros de un modelo, tal que se ex traiga la mxima informacin de las secuencias de observacin. Entre los mtodos conocidos estn el criteriobasado en la estimacin de m xima verosimilitud (Maximum Likelihood Esti mation MLE) [5], donde se optimiza la des cripcindelrespectivomodeloparaunconjunto dado de observaciones (funcin de verosimili tud), sin tener relacin explcita con el rendi miento del clasificador, por lo cual este es un criterio de entrenamiento generativo. Por otro lado estnlos mtodos de entrenamiento discri minativo, por ejemplo, la tcnica de Mxima InformacinMutua(MaximumMutualInforma tion MMI) [6], donde se busca optimizar la probabilidad a posteriori de los datos de entre namiento y, por lo tanto la separabilidad entre clases,o elcriterio deMnimoErrordeClasifi cacin (Minimum Classification Error MCE) [7] donde se minimiza el error de clasificacin mediantelaformulacindeunafuncindeerror emprica. En cuanto a las medidas de desempeo, en el caso de los sistemas de diagnstico asistido, se hasugeridoelempleodemedidasdedesempeo muchomsrobustasqueelerrordeclasificacin olaprecisin,porejemplo,elempleodelacur va ROC (Receiver Operating Characteristic curve)[8],quetienelacapacidadderepresentar el desempeo global del sistema en diferentes puntos de operacin, un indicador muy impor tanteeseldelreabajolacurvaROCABC,lo cualhallevadoalaformulacindenuevoscrite rios de entrenamiento discriminativos que em plean la maximizacin del ABC como funcin objetivo. Unejemploconcretodeentrenamientodiscrimi nativo, que optimiza el ABC ajustando los pa rmetrosdelmodelo,sepresentaen[9],conoci

docomoFOMtrainingypropuestoparaajustar losparmetros demodelos demezclasdeGaus sianas,mostrandoquelacapacidaddiscriminati va del sistema mejora significativamente. Sin embargo, no se presenta una funcin analtica directamente asociada a la misma ABC. Otroenfoquepropone integraralaetapade en trenamiento algunas mtricas de inters adems delerrordeclasificacin(especificidad,sensibi lidad)[10]. Criterio conocido como MfoM (Ma ximal Figure of Merit), y aunque trabaja sobre medidas muy relacionadas a la curva ROC, no optimiza una funcin relacionada directamente con la curva o construccin de la misma. En estos dos trabajos el principal inconveniente eslaausenciadeunafuncinqueestrelaciona da directamente con la curva ROC o el ABC. Esta dificultad esla queno hapermitido que el enfoque hayasidoformalizado,restringiendosu uso. Enestesentidoyparasuperaresteinconvenien te, se propone emplear como criterio de entre namiento discriminativo la optimizacin de una medidadedistancia,queestemasrelacionadaal rea que encierra la curva ROC, esto debido a que el ABC, es directamente proporcional a la separacin que tienen las distribuciones de pro babilidadparacadaunadelasclases,generadas apartirdelosHMM.Porloqueseempleacomo criterio de entrenamiento la optimizacin de la distancia de Mahalanobis, mediante una tcnica basada en el clculo de gradientes para ajustar losparmetrosdelmodelo. Lacomparacindelos mtodosdeentrenamien toempleados(MLE,MMI,MCEyMFoM),con el mtodopropuesto,serealizasobrelabase de datos de patologas de voz desarrollada por The

Massachusetts Eye and Ear Infirmary Voice Laboratory (MEEIVL). Y los resultados obteni
dos muestran que la tcnica de entrenamiento propuestamejorasustancialmentelastcnicasde entrenamientoconocidas tantogenerativas como discriminativas. Estemanuscritoestaestructuradodelasiguiente manera:Enlaseccin2sehaceunarevisindel estadodelartesobrelastcnicasdeentrenamien

222

SarriayCastellanos

to generativo y discriminativo, aplicables a HMM. Enlaseccin3sedescribeelajusteex perimental, como la parametrizacin de la base de datos, la metodologa de validacin y la ar quitecturadel modelo. Lasdosultimasseccio nes presentan los resultados y conclusiones del trabajo.

estado sj , quepor simplicidad se asume diago


( nal, es decir,S m) jk = [s 2( m)jkl ]lp1 , y p la dimen =

sin del vector de observacin j ,t , adems, r

p( m) corresponde al vector de probabilidad de


estadoinicial [15]. Acontinuacin,seexplicacadaunodeloscrite rios de entrenamiento y las funciones que se emplean para ajustar los parmetros de los HMM, la mtrica de desempeo, y el mtodo propuesto. 2.1 Cr iter iosdeentr enamiento

2. MATERIALESYMTODOS Sea un conjunto de R observaciones de entre namiento Y= {j njr : r =1,K ,R}, con sus co r rrespondientes
r

categoras o etiquetas, , donde cr {cm : m =1,K,M }, C = {c : r =1,K R} c ,

siendo M elnmerototaldeclases.Cadaregis tro jr njr serepresentaporunasecuenciadelon gitud nj de vectores de caractersticas r

CriterioMLE.Seasume quelaformafuncional r de P jrnjr c esconocida,ypuedeestimarseal

jr njr = {j r ,t : t = 1,K ,nj r}.


Los modelosocultosdeMarkovdescriben pro cesos estocsticosdoblemente anidados, com puestos de una capa oculta que controlala evo lucintemporaldelascaractersticasespectrales deunacapaobservable. Elconjuntototal deparmetros de los HMMse denotapor Q ysecomponepor M modelos,es decir, Q= {lm },donde lm denotalosparmetros delHMM querepresentalacategoraoclase c . m UnModeloOcultodeMarkovparaunaclaseen particular estadefinidopor el conjunto depar metros lm = {A (m) , B (m) , (m)} ,donde A( m) esla p matrizdetransicindeestados,yestacompuesta porlasprobabilidades discretas a ij( m) querepre senta la probabilidad de pasar del estado s al i estado sj , B( m) correspondealafuncindensi daddeprobabilidaddeobservacin,queeneste caso corresponde a un modelo de mezclas de Gaussianasporestado,definido como:
K

ajustar el conjunto de parmetros del modelo para de esta forma optimizar la descripcin del respectivo modelo para un conjunto dado de observaciones.LafuncinobjetivoMLsedefine como:
R r=1

fML (Q) = P j rnjr cr log

( (

))

(2)

Cuya optimizacin se alcanza ajustando los pa rmetros de cada modelo, por separado, con los datos deentrenamientodecadaclase,detalfor ma,que el valorde(2)alcanceunmximo[5].

Criterio MMI. Dada una secuencia de observa cin, se debe escoger la clase c que tenga el m
mnimo de incertidumbre. sta condicin puede alcanzarse minimizando la entropa condicio nal, H ( C Y ) = H ( C ) -I ( CY), cuya optimiza cin implica minimizar la entropa H( C), o bien maximizar la informacin mutua I( CY). Laprimeratareacorrespondeahallarel modelo conelmnimodeentropa,queanalticamentees complejo e intratable. En la segunda aproxima cin,se maximiza la informacin mutua [6]: M 1 R r fMMI ( Q) = log P (j r nj c ) - log (j r nj ci ) P ( c ) (3) P i
R r =1
r r

i=1

b j ( m) (j r ,t ) = c ( m ) jk N j r ,t , m ( m) jk ,S( m)jk (1)


k=1

Criterio MCE. Incluye una funcin de prdida,


proporcional al error de clasificacin, fMCE ( Q ) = li (j rnjr Q), y que se asocia al costo de asignar la secuencia jr njr alaclase ci ,se

Donde m

( m)

jk

es elvectordemediasy S

( m)

jk

la

matriz de covarianzas de la ksima mezcla del

Dyna164,2010

223

Define como:
l (j i
n r j r

0, j r njr asignadocorrectamenteac i Q = nj 1, j r r asignadoincorrectamenteaci

comouna versindiscretadelas funciones den sidaddeprobabilidaddelasclases. Unamayorprecisindiagnsticadelapruebase traduce en el desplazamiento hacia arriba y a la izquierda de la curva ROC (figura 1), lo que sugiere que el ABC se puede emplear como un ndice conveniente de la exactitud global de la prueba el mejor indicador correspondera a un valor de 1 y el mnimo a uno de 0.5 (si fuera menor de 0.5 debera invertirse el criterio de decisin de la prueba). En este sentido, se ha propuestoemplearcomocriteriodeentrenamien tolaoptimizacindelreaqueencierralaROC, teniendocomorestriccinlanoexistenciadeuna funcin analtica que represente el ABC.

Debido a que sta no es una funcin derivable, sehapropuestoencambiolasiguientefuncin: 1 li ( d (j ) ) = (4) i 1 + exp( -g d (j) + a ) Donde d (j) esdelaforma: i
1

1 h di ( j ) = - gi (j li ) + log iexp gj (jl j )h M - 1j ,j

(5)

con g (j li ) definidocomolafuncindevero i similitudcondicionalparalaclase ci y h esuna constantepositiva[7]. 2.2 Cur vaROC La toma de decisiones clnicas exige la valora cindelautilidaddecualquierpruebadiagnsti ca,es decir,su capacidadparaclasificarcorrec tamente a los pacientes en categoras o estados enrelacinconlaenfermedad(tpicamentedos: estar o no estar enfermo, respuesta positiva o negativa).Lacurvamsutilizadaenlaliteratura mdica para la toma de decisiones es la ROC, que representa la tasa de falso acierto o falsa aceptacin(FP)enfuncindelatasadeaciertoo aceptacinverdadera(VP),paradiferentesvalo res delumbralde decisin.Ladisposicinde la ROC (figura 1)depende de laformay delsola pamiento de las distribuciones subyacentes de lasclases (patolgica,normalpositiva,negati va)[8]. EnelcasodeHMM,elclculodelacurvaROC sehacemedianteloscocientesoscoresdevero similitudestimadosdecadaregistroconlosmo delos para cada clase. Con los scores obtenidos secreaunhistograma,queparalosregistrosque pertenecen a la clase positiva (clase 0) debera estar situado en su mayor parte a la derecha y paralosquepertenecenalaclasenegativa(clase 1)ensu mayorpartealaizquierda.As,lapun tuacin para la secuencia jr njr estdadapor:

Figur a.1.CurvaROC Figur e.1. ROCCurve

CriterioMFoM
Una primera aproximacin de solucin propone utilizar medidas indirectas, de tal forma que al optimizarlasseaposiblemaximizarelABCdela curvaROC[10]. Debido a que el ABC de la curva ROC est di rectamente relacionado con el rendimiento del sistemadeclasificacin,es posible emplearme didasdedesempeodeformasimilaracomose

sr = log P (j r njr l0 ) - log P (jrnjr l1)

(6)

Donde li estasociadoalaclase ci, i =0,1.El histograma normalizado se puede interpretar

224

SarriayCastellanos

plantea el criterio MCE, pero con medidas ms complejasyglobales. Dada una clase cj , teniendo en cuenta que VP j sonlasaceptacionescorrectas, FPj sonlasfalsas aceptaciones y FNj son los falsos rechazos, se pueden definir las siguientes medidas de preci sin: Pj = VPj /(VPj + FPj) (a ) (7) Rj = VPj /(VPj + FN j) (b ) F j = 2VPj /( FPj + FN j +2VPj) (c ) Generalmente,laexactituddiagnsticaseexpre sa como sensibilidad y especificidad diagnsti cas. Cuando se utiliza una prueba dicotmica (una cuyos resultados se puedan interpretar di rectamente comopositivos o negativos), la sen sibilidad (7b) es la probabilidad de clasificar correctamente a un individuo, cuyo estado real seaeldefinidocomopositivorespectoalacon dicinqueestudialaprueba.El valor pr edictivo positivo (7a) Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse,portanto,apartirdelaproporcinde pacientesconunresultadopositivoenlaprueba que finalmente resultaron estar enfermos. Debidoaquelas medidas de(7)nosonfuncio nesderivables,esnecesarioaproximarlaclasifi cacin correcta o incorrecta de un registro me dianteunafuncinsigmoidal igualaladefinida anteriormenteparaelcriterioMCE:

zos), y recordando la funcin de prdida (4), se tienelasiguienteexpresin: fMCE ' ( Q ) = Yli (jrnjr Q )/R (9) j Para este caso la optimizacin no se realiza en lnea(online)sinoporlotes(batch),ylaactuali zacin de los parmetros se realiza en direccin contrariaal gradienteacumulado [11]. 2.3 MtodoPr opuesto Cuando las distribuciones de probabilidad estn separadas, tanto como es posible (figura 1) se puede asumir que el ABC alcanzara un valor mximo, por lo tanto, se propone utilizar una medidadedistanciaentrelasdistribuciones,cuya optimizacin indirectamente debe mejorar el ABC. La distancia de Mahalanobis es la opcin ms clara,yladistanciaentredistribucionesqueme jorseajustaalosrequerimientos:

D 2 = ( m0 - m1 ) S -1 ( m 0 -m1) (10) Donde mi y S son las medias y varianzas res i pectivamente,delasdistribucionesdecadaclase (i =0,1), S se calculadelasiguienteforma: S = ( ( n0 - 1) S0 + ( n1 -1) S1)/N
(11)

TPj jY(1 - l j ( d i (j ) ) )1 j c j ) ( FN j Yl j ( d i (j ) )1(j c j ) j

( a)
(8)

FPj jY(1 - l j ( d i (j ) ) )1(j c j ) (b )

( c )

Donde n0 eselnmeroderegistrosdelaclase0, n1 los registros delaclase1,yN = n0 + n1 -2. Analizando (10) es claro que existen al menos tres formas de hacer que la distancia D2 sea mxima, bien maximizando la distancia entre medias (m ) de cada distribucin, minimizando i S de(11)porltimo,maximizandodirectamen te la distancia D2 ,tal comoestdefinida(10). En este trabajo se implementan dos formas: mi nimizar (11), FOM1 y maximizar (10), FOM2, enlascualesla mediayvarianzaparalaclasei esima estndefinidasdelasiguienteforma:
mi = Si =

Donde j correspondeaunasecuenciadeobser vaciones en particular, 1( es una funcin de ) indicacinyes1si ( esverdaderoy0deotra ) forma. El criterio MFoM emplea la aproxima cinde (8)en(7c). Por medio de estas medidas tambin se puede llegaraunaformadelcriterioMCE,tomandola expresinparalosfalsosnegativos(falsosrecha

s 1(j n
r i r=1

n i

n r j r

ci )

( a )

1 ni 2 ( sr - mi ) 1(jr njr ci ) (b) n i - 1r=1

(12)

Dyna164,2010

225

Optimizacin:
Paraactualizarlosparmetrosdecadaunodelos modelosseempleaelalgoritmoGPD(Generali zed Probabilistic Descend) [12], es una tcnica deoptimizacinbasadaenelclculodegradien tes, donde se definen las siguientes transforma ciones sobre los parmetros a actualizar, que permiten mantenerlas restricciones probabilsti casde los HMM durante la adaptacin:
p j p j dondep j =

e ep
k

p j

a )
(13)

frecuencia de muestreo de 25 kHz y con una resolucinde16bits.Correspondenapronuncia ciones de la vocal sostenida /ah/. Se utilizaron 173 muestras de pacientes patolgicos (con una amplia gama de patologas vocales orgnicas, neurolgicas, traumticas y psquicas) y 53 muestras de pacientes normales, de acuerdo con los registros enumerados en [13] y como se su giere en [14]. Los registros de pacientes patol gicos tienen una duracin aproximada de 1 s, mientrasqueenlosregistrosdepacientesnorma lesladuracinesalrededorde3s. Cadaregistrofueventaneadouniformementecon una ventana Hanning de 40 ms, conun traslape del 50%. A cada ventana se le extrae un vector de p= 16 caractersticas, 12 MFCC (Mel FrequencyCepstrumCoefficients),laenerga de la ventana (En), la relacin armnico ruido (HarmonictoNoise Ratio HNR) [15], la ener ga de ruido normalizada (Normalized Noise EnergyNNE)[16]ylarelacinexcitacinglot tal ruido (Glottal to Noise Excitation Ratio GNE)[17]. Los MFCCsonderivados delclculo de laFFT (Fast Fourier Transform) [18]. Esta aproxima cin noparamtricapermite modelarlos efectos delaspatologasenlaexcitacin(plieguesvoca les) y en el sistema (tracto vocal), mientras que un enfoque paramtrico comoLinear Predictive Coefficients (LPC) presenta problemas debido a que las patologas introducen no linealidades en elmodelo [19]. Los parmetros relacionados con mediciones de ruido (HNR, NNE, GNE), estn diseados para medir la componente de ruido relativo en las sealesdevoz. Debidoaqueestasmedidasdan unaideadelacalidadygradodenormalidadde lavoz[20].

a ij a ij dondea ij =

e a e
k

a ij

kj

b )

Lastransformacionesque sehacensobrelascompo nentesGaussianasdelmodelo,sedefinencomo:

c jk c jk dondec jk =

eij c ekj
k

a)
(14)

m jkl m jkl =

m jkl s jkl

b ) c )

s jkl s jkl = log s jkl

Laactualizacin deunparmetro q enparticu lar, serealizadelasiguienteforma: f ( Q) q( n + 1) = q n)+ e ( q (15) Donde e es la tasa de aprendizaje, n indica la iteracin actual y f ( Q)/q es la derivada parcial de la funcin objetivo con respecto al parmetro q. Finalmente para calcular el par metro q seemplean en (13)y (14).

3. MARCOEXPERIMENTAL Los experimentos son llevados a cabo sobre la basededatosMEEIVL.Debidoalaheterogenei dad delabase de datos (diferente frecuenciade muestreo en la adquisicin de los registros), los registros utilizados fueronremuestreados auna

Para determinar la capacidad de generalizacin delossistemasseempleaunesquemadevalida cin cruzada, con diferentes conjuntos de entre namientovalidacin(kfold),escogidosdeforma aleatoriadelconjuntocompletodedatos.Eneste trabajoseemplean 9conjuntos,utilizandoparael entrenamiento el 70% de los ficheros y para la validacinel 30%restante.

226

SarriayCastellanos

HNR NNE GNE En 12 MFCC


Figur a2. Vectordecaractersticasextradasdecada ventana Figur e2. Feature vectorextractedfromeachwindow

Tabla 2. ABCyprecisin(Conjuntodevalidacin) Table 2. AUCandaccuracy (validationset)

Cr iter iodeentr e namiento MLE MMI MCE FOM1(11) FOM2(10) MFoM

ABC

Pr ecisin

0.9460.020 93.32.3 0.9660.002 95.72.1 0.9600.020 94.62.5 0.9670.020 95.62.9 0.9780.020 97.01.6 0.9510.020 94.03.0

ParaelentrenamientodelosHMMseempleala arquitecturadeunmodeloergdico(fullconnec ted)con3mezclasGaussianasy2estados,pues toquefuelaarquitecturaquemostrlosmejores resultadosalentrenarelsistemamedianteMLE. El algoritmo de optimizacin empleado es el GPD[7]paratodosloscriteriosdeentrenamien to analizados, con excepcin del criterio MLE, queusa elalgoritmo deBaumWelch [5]. Adi cionalmente para el criterio MCE se emplea la configuracin batch, que representa un menor coste computacional y rendimiento similar a la configuracin online[11]. 4. RESULTADOSYDISCUSION Las pruebas iniciales se realizan con la tcnica de entrenamiento estndar (MLE) que ser la basedecomparacinparalosdemscriteriosde entrenamiento. En la Tabla 1, se muestran los resultados obtenidos con el conjunto de entre namiento. En este caso se observa que no hay una diferencia sustancial entre los diferentes mtodos de entrenamiento. En la Tabla 2, se muestranlosresultadosobtenidosconelconjun todevalidacin.Dondeseobservaqueengene raltodaslastcnicas deentrenamientodiscrimi nativosuperanlatcnicadeentrenamientogene rativo y adicionalmente que la tcnica de entre namiento propuesta, basada en optimizar direc tamenteladistanciadeMahalanobis(FOM2)es superior a todas las dems tcnicas, mostrando que el ABC ylaprecisinsonlos mas grandes, mostrando una clara superioridad en cuanto a capacidaddegeneralizacin.
Tabla 1. ABCyprecisin(Conjuntode entrenamiento) Table1. AUCandaccuracy(Trainingset)
Cr iter iodeentr enamiento MLE MMI MCE FOM1(11) FOM2(10) MFoM ABC 0.9990.0007 0.9990.0016 0.9990.0003 0.9980.0020 0.9990.0009 0.9990.0002 Pr ecisin 99.60.44 98.90.63 99.50.69 99.00.84 99.30.66 99.60.64

Debidoaqueestoscriterios deentrenamientose basan en algoritmos de optimizacin iterativos, elcostecomputacionalesligeramentemayorque el delcriterioMLE,aexcepcin delcriterioba sado en las mtricas de desempeo (MFoM) el cual logra el desempeo mostrado en slo una iteracin, no obstante el costo computacional es justificable al obtenerseuna ganancia en el des empeodelsistemadeclasificacin. De igual forma en las Tablas 1y2se muestran los porcentajes de acierto (precisin), que se calculan empleando la regla MAP (Maximum A Posteriori).Sinembargoestamedidanoessufi cienteparaestablecerclarasdiferenciasentrelos criterios de entrenamiento, y tampoco para esti mar de forma adecuada el rendimiento de un sistema de clasificacin, esto debido a que es posible obtener una tasa de acierto errnea al emplearunumbraldedecisinmalseleccionado, por esta razn los resultados se complementan conlacurvaROC(figura3)yelABC(tabla2). Otroaspectoaresaltaresque laotraestrategiade aprendizaje propuesta (FOM1), que consiste en minimizar (11), presenta buenos resultados, in cluso superando la tcnica de entrenamiento estndaryporunmargenmuymnimolastcni cas de entrenamiento discriminativo. De esta forma se sustentan las suposiciones hechas con respecto a asociar una medida de distancia al readelacurvaROC.

Dyna164,2010

227

nen en cuenta.Estodemuestraqueparamejorar eldesempeodeunsistemadedeteccin depa tologas de voz, adems de ser muy necesario contar con un buen conjunto de caractersticas, tambin sedebeteneruncriteriodeentrenamien toadecuado quese enfoque en lageneracin de unafronteradedecisinptima,paraquedeesta formanoseanecesarioincrementarlacompleji dad del modelo, y esto permita que la etapa de entrenamientoseamseficiente
Figur a3. CurvaROCparalosdiferentescriteriosde entrenamiento Figur e3. ROCCurveforalldifferent trainingcriteria

Los resultados obtenidos son concluyentes de mostrando de forma clara que las tcnicas de entrenamiento discriminativo son superiores y puedenlograrunamayorcapacidaddegenerali zacin enunsistema declasificacinbasado en HMM,quelatcnicadeentrenamientoestndar, y adems que el desempeo de un sistema de clasificacinpuedemejorarsesignificativamente al emplear como criterio de entrenamiento la maximizacin de una medida de distancia entre las distribuciones de las clases, con el fin de incrementar el rea queencierralacurvaROC.

Como trabajo futuro se propone emplear una etapadereduccindeespaciosdecaractersticas mediante transformaciones lineales que tengan encuentalainformacincambianteeneltiempo como DPCA,parareducirelcostecomputacional enlaetapadeentrenamiento.Ademsllevaresta comparacin a otro tipo de seales biomdicas como PCG, EEG y ECG. Adicionalmente, se proponeemplearcomomedidadedesempeola curvaDET(DetectionErrorTradeoff)paratener unmarcodecomparacinmsamplio. 6. AGRADECIMIENTOS Este trabajo se enmarca dentro del proyecto 112740520232 Identificacion de posturas la bialesenpacientesconlabioy/opaladarhendido corregido, financiado por Colciencias y el pro gramaJvenesInvestigadores.

5. CONCLUSIONES Se mejora el desempeo de clasificacin del mtodobsicodeentrenamientoMLE,mediante el uso de un criterio de entrenamiento discrimi nativo,paraelcualsesugiere el empleo deuna funcindecostoquerelacionaindirectamenteel rea que encierra una curva de desempeo, en particular se propone la curva ROC, con una distanciaentremodelosdeclases. Lafuncindecostoempleadaes ladistanciade Mahalanobis,sin embargoseabordan dos apro ximaciones para lograr su optimizacin. Mos trandoenlos doscasos deformasatisfactoriala estrecha relacin que existe entre la medida de distancia empleadayel readelacurvaROC. Laspruebasrealizadaspresentancomoresultado un desempeo satisfactorio empleando una ar quitecturaHMMrelativamentesimple,mejoran do no solo el desempeo del mtodo de entre namientoestndar,sinotambin,losotroscrite rios de entrenamiento discriminativo que se tie

REFERENCIAS [1] RABINER, L. ATUTORIAL ON HIDDEN MARKOV Models and selected applications in speech recognition. PROCEEDINGS OF THE IEEE,vol.77(2),257286(1989). [2]JIANGLINWANG,CHEOLWOOJO.Vocal FoldsDisorderDetectionusingPatternRecogni tion Methods. EMBS07 29th Annual Interna tional Conference of the IEEE. 3253 3256 (2007). [3] P.GMEZ,J.I.GODINO,F.RODRGUEZ, F. DAZ, V. NIETO, A. LVAREZ, V. RODELLAR.EvidenceofVocalCordPathology From the Mucosal Wave Cepstral Contents. Acoustics,Speech,andSignalProcessing,vol5, pp437 440.(2004).

228

SarriayCastellanos

[4] GENARO DAZASANTACOLOMA, Ju lin DavidAriasLondoo,Juan IgnacioGodino Llorente, Nicols SenzLechn, Vctor Osma Ruz, and CsarGermn Castellanos Domnguez. Dynamic feature extraction: an applicationto voicepathology detection.Intelli gent AutomationandSoftComputing,2009.To appear. [5]BLIMES,J.A gentletutorialoftheEMalgo rithm and its applications to parameter estima tion for Gaussian mixture and Hidden Markov Models. International Computer Science Insti tute,Bekerly CA,USA.(1998). [6] BAHL L.R., BROWN, P.F.,SOUZA, P. V. andMERCER,R.L.Maximum mutualinforma tion estimation of Hidden Markov Models pa rameters for speech recognition. Proceedings ICASSP,vol.11, 4952 (1986). [7] JUANG, B.H., CHOU W. and LEE, C.H. Minimum classification error rate methods for speechrecognition.IEEEtransaction onSpeech and Audio Processing, vol. 5 (3), 257265, (1997). [8] HANLEY, J.A. and MCNEIL, B.J. The meaning and use of the area under a receiver operatingcharacteristic(ROC)curve.Radiology, vol.143(1),2936, (1982). [9]LI,X.,CHANG,E.andDAI,B..Improving speaker verification with figure of Merit train ing. Acoustics, Speech, and Signal Processing, Proceedings. (ICASSP'02), vol. 1, 693 696, (2002). [10]GAO,S.,WU.,W.,LEE,C.H.andCHUA, T.S. A Maximal FigureofMerit Learning Ap proach to Text Categorization. Annual ACM Conference on Research and Development in InformationRetrieval.174181,(2003). [11] JONATHAN L. ROUX AND ERIK MCDERMOTT, Optimization methods for dis criminativetraining,Interspeech,septiembre4 5,lisboaportugal(2005). [12] B.H. JUANG AND S. KATAGIRI, Dis criminativelearningfor minimum errorclassifi

cation,IEEETransactions onSignalProcessing, vol.40(12),3043 3053,(1992). [13] V.PARSAandD.G.JAMIESON,Identifi cation of pathological voices using glottal noise measures, Journal of Speech, Language and HearingResearch,vol 43(2),469485,(2000) [14] N. SENZLECHN, J. I. GODINO LLORENTE,V.OSMARUIZandP.GMEZ VILDA, Methodological issues in the develop ment of automatic systems for voice pathology detection, Biomedical Signal Processing and Control,vol.1(2),120128. (2006). [15]G.DEKROM,Acepstrumbasedtechnique for determining a harmonicstonoise ratio in speech signals, Journal of Speech and Hearing Res.,vol 36(2),254266, (1993). [16]H.KASUYA,S.OGAWA,K.MASHIMA, and S. EBIHARA, Normalized noise energy as an acousticmeasuretoevaluatepathologicvoice, Journal of the Acoustical Society of America, vol.80(5),13291334,(1986). [17]D.MICHAELIS,T.GRAMMS,andH.W. Strube, Glottaltonoise excitation ratio a new measure for describing pathological voices, Acustica/Actaacustica,vol.83,700706,(1997). [18]L.RABINERANDB.JUANG,Fundamen tals of Speech Recognition. PTR Prentice Hall, (1993). [19] J. I. GODINOLLORENTE, P. GMEZ VILDA, N. SENZLECHN, M. BLANCO VELASCO, F. CRUZROLDN, and M. A. FERRERBALLESTER, Discriminative meth odsforthedetectionofvoicedisorders.Proceed ingsofthe3thInternationalConferenceonNon Linear speech processing, Barcelona, Spain, (2005). [20]SanzLechon,N.,OsmaRuiz,V.,Godino Llorente,J.I.,BlancoVelasco,M.,CruzRoldn, F. and AriasLondoo, J.D., Effects of Audio Compression in Automatic Detection of Voice Pathologies, IEEE Transactions on Biomedical Engineering,vol.55(12),23812385,(2008).

You might also like