Aprendizado de Redes MLP Atrav Es Da Otimiza C Ao Da Area Abaixo

XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS
APRENDIZADO DE REDES MLP ATRAVES DA OTIMIZACAO DA AREA ABAIXO

DA CURVA ROC
Cristiano Leite de Castro, Antonio de Padua Braga

Universidade Federal de Minas Gerais

Departamento de Engenharia Eletronica

Belo Horizonte, MG, Brasil
Emails: crislcastro@ufmg.br, apbraga@ufmg.br
Abstract This paper presents an algorithm (AUC-MLP ) for Multi-Layer Perceptron (MLP) neural network
learning that directly optimizes AUC (Area Under the ROC Curve). The cost function for AUC-MLP is a
differentiable approximation of AUC original expression. The weight updating rule is based on the Gradient
Descent method. In experiments conducted on binary classification problems, our method was compared with
traditional learning algorithms for MLP topology: Levenberg-Marquadt and Resilient-Backpropagation. The
results achieved on real (from UCI repository) data sets point out that our approach was effective, especially for
data sets with higher imbalance degree.
Keywords Multi-Layer Perceptron, Area Under the ROC Curve, Classification, Imbalanced Data Sets.
Resumo Esse trabalho apresenta um algoritmo de aprendizado (AUC-MLP) para redes MLP (Multi-Layer
Perceptron) que diretamente otimiza a AUC (Area Abaixo da Curva ROC ). O algoritmo AUC-MLP e baseado
em uma funcao custo que corresponde a uma aproximacao diferenciavel da AUC. O metodo do Gradiente e usado
para a atualizacao dos pesos da rede. Nos experimentos conduzidos com problemas binarios de classificacao, nosso
metodo foi comparado com algoritmos comumente usados para o aprendizado de redes MLP: Levenberg-Marquadt
e Resilient-Backpropagation. Resultados obtidos com bases de dados reais (do repositorio UCI) mostram que
nossa abordagem foi efetiva, principalmente para problemas com nveis elevados de desbalanceamento entre as
classes.
Keywords Multi-Layer Perceptron, Area Abaixo da Curva ROC, Classificacao, Conjuntos Desbalanceados.
1 Introducao problemas reais, conjuntos de dados pequenos, es-

parsos e altamente desbalanceados sao muito co-
muns.
Classificadores binarios baseados em Redes Neu-
rais Artificiais (RNAs) comumente usam funcao Uma maneira alternativa de se avaliar um
de ativacao do tipo sigmoide nas unidades de classificador, que distingue os erros cometidos por
sada. Com base nas sadas contnuas (scores) cada classe, e dada pelas Curvas ROC (Receiver
obtidas para os exemplos de entrada, um thresh- Operating Characteristic) (Egan, 1975), que orig-
old e selecionado para definir a pertinencia de inalmente foram desenvolvidas na Teoria de De-
um exemplo a uma dada classe. Essa abordagem teccao de Sinais e que, nos ultimos anos, tem
permite a contabilizacao do numero medio de er- sido usadas pelas comunidades de Aprendizado
ros/acertos, metricas comumente usadas para se de Maquina e Mineracao de Dados para selecao
determinar o desempenho do classificador. e avaliacao de modelos (Fawcett, 2006). Para um
Para muitas aplicacoes reais, no entanto, a classificador binario, a Curva ROC mostra grafi-
taxa de Erro nao e a metrica mais pertinente para camente a taxa de verdadeiro positivos (TPrate)
se avaliar um classificador. Criterios como or- em funcao da taxa de falso positivos (FPrate), a
denacao ou ranking sao mais apropriados. Con- partir da variacao do threshold de decisao sobre
sidere, por exemplo, uma lista de documentos toda a faixa de scores produzida pelo classificador.
retornada por uma maquina de busca a partir Quanto mais inclinada a curva se encontra em re-
de uma consulta especfica. A lista pode con- lacao ao canto superior esquerdo, melhor e capaci-
ter muitos documentos mas, na pratica, somente dade discriminativa do classificador. A Figura 1
aqueles que estao no topo devem ser examina- mostra um exemplo de Curva ROC.
dos pelo usuario. Alem disso, a taxa de Erro A AUC, definida como a Area Abaixo da
pode produzir um falso sentimento sobre o de- Curva ROC, e uma metrica robusta que avalia
sempenho de um classificador quando as classes o desempenho geral do classificador sem consid-
apresentam probabilidades a priori muito difer- erar um threshold de decisao especfico. Como
entes (Provost et al., 1998). Por exemplo, para sera mostrado mais formalmente na Secao 2, a
um conjunto de dados em que a classe majoritaria AUC possui uma importante propriedade estats-
possui cerca de 98% das observacoes, um classifi- tica, sendo frequentemente usada para medir a
cador com taxa de Erro de apenas 2% pode ser qualidade do ranking de classificacao (Hanley and
diretamente obtido, por simplesmente classificar Mcneil, 1982). Alem disso, por ser independente
todo exemplo como pertencente a essa classe. Em do threshold, e consequentemente das probabili-
4445
dades a priori das classes, obtem vantagem em re- mento de redes MLP a partir da otimizacao da
lacao a taxa de Erro quando aplicada a problemas AUC e apresentada. Na Secao 4, sao descritos a
desbalanceados (Bradley, 1997). metodologia adotada na conducao dos experimen-
tos e os resultados obtidos. Finalmente, a Secao 5
traz as discussoes e as conclusoes.
1
0.9
0.8 2 Area Abaixo da Curva ROC

0.7 Curva ROC
0.6 Considere um conjunto de dados (iid) T =
TPrate
N
0.5 {x(i), t(i)}i=1 consistindo de N exemplos per-
0.4 tencentes a duas classes, onde t(i) {+1, 1}
0.3
denota o rotulo (sada desejada) para cada ve-
0.2
tor x(i) Rn . Existem N1 exemplos da classe
0.1
minoritaria ou positiva, {x(p), p = 1, . . . , N1 }, e
N2 exemplos da classe majoritaria ou negativa,
0
0 0.2 0.4 0.6 0.8 1 {x(q), q = 1, . . . , N2 }.
FPrate
A AUC de um classificador f avaliado so-
bre o conjunto T , pode ser expressa como a
Figura 1: Exemplo de Curva ROC para um clas-
probabilidade P (f (X+ ) > f (X )), onde f (X+ )
sificador binario.
e f (X ) correspondem, respectivamente, as den-
sidades (pdfs) das sadas (scores) estimadas pelo
Em geral, a funcao custo otimizada pela maio-
classificador para os exemplos positivos e neg-
ria dos algoritmos de aprendizado e a taxa de
ativos. A expressao dessa probabilidade para
Erro e nao a AUC. Entretanto, como observado
o caso discreto e equivalente a Wilcoxon-Mann-
em (Cortes and Mohri, 2004), otimizar o Erro em
Whitney Statistic (Wilcoxon, 1945; Mann and
determinados casos, nao garante a maximizacao
Whitney, 1947) ilustrada pela Equacao 1, a seguir,
da AUC. Dessa forma, e necessario um algoritmo
que diretamente otimize a AUC. Alguns trabalhos
na literatura visam ao tratamento desse problema: N1 N2
!
1 X X
um metodo para otimizar a AUC localmente foi AU C(f ) = g(f (x(p)) f (x(q))) (1)
N1 N2 p=1 q=1
proposto no contexto de Arvores de Decisao (Ferri
et al., 2002). Outros algoritmos foram desen-
volvidos para maximizar aproximacoes globais da onde o funcional g(x) e definido por,
AUC (Herschtal and Raskutti, 2004) e (Herschtal
et al., 2006), mas, em geral eles nao tem obtido 0 se x < 0,
valores de AUC significativamente melhores que g(x) = 0.5 se x = 0, (2)
metodos desenvolvidos para minimizar o Erro. 1 se x > 0.

(Joachims, 2005) chama a atencao para a dificul-
dade computacional na otimizacao de medidas de A AUC pode ser vista como uma medida
desempenho nao lineares e multivariadas, como e baseada em comparacoes par a par entre classi-
o caso da AUC, e apresenta um metodo baseado ficacoes de ambas as classes. Com um ranking
em Vetores de Suporte para a otimizacao daquela perfeito, todas as observacoes da classe positiva
metrica. possuirao scores mais elevados que as da classe
Nesse trabalho, um novo algoritmo de apren- negativa e assim, AU C(f ) = 1.
dizado para redes MLP (Multi-Layer Perceptron)
(Haykin, 1994) que diretamente otimiza a AUC e 3 O Algoritmo AUC-MLP
descrito. Ele e baseado em uma funcao custo que
corresponde a uma aproximacao diferenciavel da 3.1 Rede MLP
AUC. Nos experimentos conduzidos com proble-
mas binarios de classificacao, nosso algoritmo foi Desde que o escopo de nossa abordagem e lim-
comparado a metodos tradicionais de aprendizado itado a problemas binarios de classificacao, con-
baseados na minimizacao da taxa de Erro. Os re- sidere uma rede Multi-Layer Perceptron (MLP)
sultados obtidos mostraram que nossa abordagem com n entradas, uma camada escondida com h
foi capaz de obter melhores curvas ROC, especial- unidades (neuronios) e uma camada de sada con-
mente para problemas com elevados nveis de des- tendo uma unica unidade, conforme ilustrado pela
balanceamento entre as classes. Figura 2.
O restante do artigo e apresentado da seguinte Dado o conjunto de dados T = {x(i), t(i)}N i=1 ,
forma: Na Secao 2 a metrica Area Abaixo da o valor de sada estimado pela k-esima unidade es-
Curva ROC (AUC ) e descrita formalmente. Em condida, devido a apresentacao do i-esimo exem-
seguida, na Secao 3, nossa proposta para o treina- plo de entrada, e dado por,
4446
para 0 < dmax e c > 1. Considere z(p) e

z(q), respectivamente, os scores estimados pela
rede MLP para o p-esimo exemplo positivo e o q-
esimo exemplo negativo; Seja d(p, q) = z(p)z(q),
a diferenca entre esses scores; dmax e o maior
valor que pode ser obtido para d(p, q); por exem-
plo, para uma rede MLP com sadas no intervalo,
1 z(i) 1, dmax = 2. A Fig. 3 ilustra graficos
de g(x) (linha contnua) e R(x) (linha pontilhada)
em funcao da diferenca d(p, q), para o intervalo
2 d(p, q) 2. Para a curva R(x), os seguintes
parametros foram usados: = 1.2 e c = 2.
Figura 2: Topologia de rede MLP comumente ado-

g(x)
tada em problemas binarios de classificacao. 10
R(x): c = 2 e = 1.2
9
6
n
X 5
yk (i) = f (uk (i)) = f xj (i)wkj (3)
4
j=0
3
= 1.2
onde wkj representa o peso entre a unidade escon- 2
dida k e a unidade de entrada j. Similarmente, o 1
valor obtido na unidade de sada (score), e calcu- 0

1.5 1 0.5 0 0.5 1 1.5 2
d(p,q)
lado com base nos sinais de sada emitidos pelas
unidades escondidas,
Figura 3: Curvas g(x) e R(x) (com = 1.2 e c =
! 2) em funcao da diferenca d(p, q), para o intervalo
h
X 2 d(p, q) 2.
z(i) = f (v(i)) = f yk (i)wk (4)
k=0
A partir da Equacao 6, uma aproximacao
na qual wk representa um peso entre o nodo de diferenciavel para o funcional AUC e definida,
sada e a unidade escondida k. Como mencionado conforme a Equacao 7 a seguir,
anteriormente, os algoritmos de aprendizado pro-
postos para redes MLP comumente utilizam o so- N1 X
N2
!
matorio dos erros quadraticos medios como funcao [ 1 X
AU C(w) = R (d(p, q))) (7)
custo a ser otimizada durante o treinamento. A N1 N2 p=1 q=1
Equacao 5 ilustra esse funcional,
Note que, otimizar o funcional AU[ C(w) im-
N
1 X plica em buscar solucoes cujos valores d(p, q) se-
J(w) = (t(i) z(i))2 (5)
N i=1 jam maiores ou iguais a para todos os pares de
exemplos.
Para diretamente maximizar a AUC, o algo- Como mencionado anteriormente, (Yan et al.,
ritmo AUC-MLP substitui J(w) (vide Equacao 5) 2003) sugerem que assuma valores maiores que
por uma nova funcao custo que corresponde a uma 0, o que supostamente assegura que os scores obti-
aproximacao da expressao original da AU C (vide dos para os exemplos positivos sejam maiores que
Equacao 1). Essa funcao foi proposta por (Yan os negativos. Sua estrategia tem por princpio
et al., 2003) e e descrita na Secao 3.2, a seguir. obter um bom ranking, maximizando a AUC sem
a necessidade de se considerar um threshold de
3.2 Definicao da Funcao Custo decisao.
Com o objetivo de garantir nao somente a
Desde que o funcional AUC descrito pela Equacao
qualidade do ranking, mas tambem que os scores
1 e nao diferenciavel, (Yan et al., 2003) propoem
estimados para as diferentes classes fiquem de la-
uma estrategia de suavizacao atraves da substitu-
dos opostos em relacao ao threshold padrao (s =
icao da funcao heaviside g(x) (vide Equacao 2),
(zmax + zmin )/2), uma nova faixa de valores para
pela funcao R(x) definida por,
e sugerida: (dmax /2) < dmax . Considere
novamente, por exemplo, uma rede MLP, com sa-
((x ))c das contnuas no intervalo, 1 z(i) 1. Nesse

se x < ,
R(x) = (6) caso, deve ser maior que 1, na tentativa de que
0 caso contrario.
4447
[
a solucao encontrada na otimizacao da AU C(w), 4 Experimentos e Resultados
produza z(p) s e z(q) < s , com s = 0.0.
O parametro c influencia somente a inclinacao Nessa Secao, experimentos foram conduzidos com
da funcao R(x). Em testes empricos, foi obser- 5 bases de dados desbalanceadas extradas do
vado que os melhores resultados foram obtidos Repositorio UCI (Asuncion and Newman, 2007).
para c = 2, c = 3 e, 1.2 1.5. Para valores el- A Tabela 1 mostra as caractersticas das bases se-
evados de c, problemas numericos no processo de lecionadas: numero de atributos (#atr.), numero
otimizacao foram notados para alguns conjuntos de exemplos positivos (N1 ), numero de exemp-
de dados. los negativos (N2 ) e razao de desbalanceamento
(N1 /(N1 + N2 )). O rotulo entre parenteses indica
3.3 Formulacao do Problema de Aprendizado a classe alvo, escolhida para representar a classe
positiva (minoritaria). Para bases com mais de
Formalmente, o seguinte problema de otimizacao duas classes, as demais classes foram unidas para
deve ser resolvido, representar a classe negativa (majoritaria).
[
wopt = arg min AU C(w) . (8)
Tabela 1: Caractersticas das 5 bases de da-
O objetivo do aprendizado e obter o vetor de dos usadas no experimento: numero de atribu-
pesos otimo, wopt , que minimiza a funcao custo tos (#atr.), numero de exemplos positivos (N1 ),
[
AU C(w) e consequentemente, maximiza a curva numero de exemplos negativos (N2 ) e razao de
ROC. desbalanceamento (N1 /(N1 + N2 )).
3.4 Vetor Gradiente

Base de Dados #atr. N1 N2 Razao
[
Seja AU C(w) o vetor gradiente para a funcao Segmentation(1) 19 30 180 0.143
[
custo AU C(w). Cada componente do vetor Diabetes 08 268 500 0.350
[
AU C(w) e dado pela derivada parcial da Heart 44 55 212 0.210
[
AU C(w) em relacao a um peso arbitrario da rede Yeast(5) 08 51 1433 0.034
w, conforme descrito pela Equacao 9 a seguir, Abalone(19) 08 32 4145 0.008
N1 XN2
[
AU C 1 X R (d(p, q)) O metodo AUC-MLP foi comparado com al-
= (9) goritmos comumente usados para o aprendizado
w N1 N2 p=1 q=1 w
de redes MLP: Levenberg-Marquadt (LM ) (Hagan
and Menhaj, 1994) e Resilient-Backpropagation
onde R(d(p,q)) corresponde ao escalar gradiente
w (RProp) (Riedmiller and Braun, 1993). Ambos
devido a apresentacao do par de exemplos x(p) e
sao baseados na minimizacao do funcional so-
x(q).
matorio dos erros quadraticos medios, dado pela
Equacao 5.
3.5 Atualizacao dos Pesos Para cada algoritmo, o numero de neuronios
A regra de aprendizado e baseada no metodo do na camada escondida (h) foi selecionado atraves
gradiente descendente (Luenberger, 1984). Os do procedimento Grid-Search apresentado em
pesos sao inicializados com valores aleatorios, (Van Gestel et al., 2004). Para o algoritmo AUC-
atraves da heurstica estabelecida em (Haykin, MLP, os parametros = 1.4 e c = 2 da funcao
1994), e atualizados na direcao oposta do vetor custo, foram mantidos contantes para todas as
gradiente, conforme as Equacoes 10 e 11 a seguir, bases. Os valores de (taxa de aprendizado) e
(termo de momentum) foram determinados em-
[
w(m) = AU C(w)(m) (10) piricamente. Os parametros otimos selecionados
pelos algoritmos LM, RProp e AUC-MLP, para
cada base de dados, encontram-se na Tabela 2.
w(m + 1) = w(m) + (1 ) w(m) Apos a selecao dos parametros, os algoritmos
foram avaliados atraves das seguintes metricas de
+ w(m 1) (11)
desempenho:
onde e uma constante positiva (taxa de apren- AUC, obtida atraves do algoritmo descrito
dizado) que indica o tamanho do termo de atu- por (Fawcett, 2006), que soma sucessivas
alizacao (w) aplicado a cada epoca (m) sobre areas de trapezios formados a partir dos pon-
o vetor de pesos (w). O termo de momentum, tos (FPrate, TPrate) gerados na construcao
0 1, e usado para acelerar a velocidade de da Curva ROC.
convergencia do metodo, especialmente em regioes
onde a funcao custo apresenta plateaus, e evitar Gmean = T P rate T N rate, definida por
que o mesmo alcance mnimos locais rasos. (Kubat and Matwin, 1997) como a media ge-
4448
4 mostra as curvas ROC obtidas para a base

Tabela 2: Parametros selecionados para os algo-
Abalone que apresenta a menor razao de desbal-
ritmos LM (h), RProp (h) e AUC-MLP (h, e
anceamento. Note que AUC-MLP gerou melhor
).
Curva ROC que LM e Rprop.
LM RProp AUC-MLP
Base de Dados h h h 1
Segmentation 3 3 2 0.1 0.9 0.9
Diabetes 2 1 1 0.3 0.9 0.8
Heart 4 2 1 0.1 0.9 0.7

Yeast 3 2 3 0.2 0.7 0.6 LM
Abalone 5 3 4 0.3 0.7
TPrate
RProp
0.5
AUCMLP
0.4
0.3
ometrica entre as taxas corretas de classifi- 0.2
cacao para a classe positiva (sensibilidade) e
0.1
negativa (especificidade), respectivamente.
0
0 0.2 0.4 0.6 0.8 1
As Tabelas 3 e 4 mostram, respectivamente, FPrate
os valores de AUC e G-mean (em %) obtidos pe-
los algoritmos sobre as 5 bases de dados. Para Figura 4: Curvas ROC Medias estimadas para a
cada metrica, a media e o desvio padrao foram base Abalone contendo 4145 exemplos negativos e
calculados a partir de 10 execucoes com diferentes 32 positivos, i.e., (N1 /(N1 + N2 )) = 0.008.
subconjuntos estratificados de treinamento e vali-
dacao obtidos a partir da tecnica stratified 10-fold
cross-validation (Stone, 1974). Os melhores resul-
tados encontram-se em negrito. 5 Discussoes e Conclusoes
Como mostrado na Tabela 3, o algoritmo
AUC-MLP, por ter sido projetado para otimizar Esse trabalho apresentou um algoritmo de apren-
uma aproximacao da metrica AU C, obteve mel- dizado para redes MLP que diretamente otimiza
hores resultados em 4 das 5 bases de dados. Rprop a Area Abaixo da Curva ROC. Resultados obti-
obteve o segundo melhor desempenho, apresen- dos com bases de dados reais do repositorio UCI
tando resultados muito similares ao metodo AUC- mostraram que, em geral, o metodo proposto foi
MLP sobre bases menos desbalanceadas: Segmen- capaz de produzir melhores Curvas ROC, melho-
tation e Diabetes. E importante destacar, no en- rando assim, o ranking de classificacao.
tanto, a superioridade dos resultados obtidos por Cabe ressaltar, no entanto, que os resulta-
AUC-MLP em relacao as bases de dados mais des- dos similares obtidos pelos algoritmos sobre as
balanceadas: Yeast e Abalone. bases menos desbalanceadas (Segmentation e Di-
A Tabela 4 mostra os resultados obtidos com abetes) sugerem que, sob certas condicoes, mini-
a metrica G-mean. Essa metrica foi escolhida com mizar Erro tambem implica em otimizar a Curva
o objetivo de avaliar o desempenho de AUC-MLP ROC. Essa conclusao se alinha com as observacoes
sobre aplicacoes desbalanceadas. Valores elevados descritas em (Cortes and Mohri, 2004), onde os
de G-mean refletem taxas elevadas e equilibradas autores mostram que para conjuntos aproximada-
de sensibilidade e especificidade. Conforme obser- mente balanceados, minimizar Erro e equivalente
vado na Tabela 4, AUC-MLP obteve melhores re- a maximizar a AUC.
sultados que LM e Rprop em 4 das 5 bases de da- Por outro lado, (Cortes and Mohri, 2004)
dos, destacando-se novamente sobre as bases mais tambem demonstram que para bases com graus
desbalanceadas: Yeast e Abalone. elevados de desbalanceamento e sobreposicao
E importante notar que, devido ao elevado entre as classes, minimizar Erro nao garante
grau de desbalanceamento das bases Yeast (0.034) a maximizacao da AUC. Os resultados obti-
e Abalone (0.008), os algoritmos baseados na min- dos com os algoritmos Levenberg-Marquadt e
imizacao do erro (LM e Rprop) obtiveram valores Resilient-Backpropagation corroboram essa afir-
nulos para TPRate e, consequentemente, para G- macao. Uma possvel explicacao para o mau de-
mean. Ao contrario, AUC-MLP apresentou um sempenho obtido por esses metodos esta no fato
bom numero de classificacoes positivas corretas, de que o Erro nao leva em consideracao os difer-
melhorando o equilbrio entre a sensibilidade e a entes custos impostos pela diferenca entre as dis-
especificidade. tribuicoes a priori das classes.
Finalmente, curvas ROC medias foram es- Em geral, os metodos baseados em Erro ten-
timadas a partir dos subconjuntos de validacao dem a favorecer a classe majoritaria em detri-
para cada base de dados. Para ilustrar, a Figura mento da minoritaria que, na grande maioria das
4449
Tabela 3: Comparacao entre os valores de AUC (em %) obtidos pelos algoritmos LM, RProp e AUC-
MLP para as 5 bases de dados extradas do Repositorio UCI. Os melhores resultados encontram-se em
negrito.
Base de Dados LM RProp AUC-MLP

Segmentation 94.8 3.6 99.1 1.0 100.0 0.0
Diabetes 81.0 0.0 82.0 0.6 82.0 0.3
Heart 73.9 7.0 77.5 4.0 80.8 4.2
Yeast 63.9 6.1 78.2 3.4 89.1 4.7
Abalone 59.4 6.8 60.0 2.8 84.3 3.7
Tabela 4: Comparacao entre os valores de G-mean (em %) obtidos pelos algoritmos LM, RProp e AUC-
MLP para as 5 bases de dados extradas do Repositorio UCI. Os melhores resultados encontram-se em
negrito.
Base de Dados LM RProp AUC-MLP

Segmentation 81.6 3.9 98.1 4.4 97.0 5.4
Diabetes 71.1 5.1 71.3 4.2 71.2 4.0
Heart 42.7 10.6 53.3 7.2 67.5 5.9
Yeast 27.2 7.1 47.9 2.7 83.2 3.0
Abalone 00.0 5.4 00.0 8.4 70.1 6.2
vezes, apresenta os exemplos de interesse do prob- Bradley, A. P. (1997). The use of the area un-
lema em questao. Essa caracterstica e recorrente der the roc curve in the evaluation of ma-
em aplicacoes como Recuperacao de Informacao, chine learning algorithms, Pattern Recogni-
Diagnostico Medico e Deteccao de Falhas. Ao con- tion 30(7): 11451159.
trario, algoritmos baseados na otimizacao AUC,
como e o caso de AUC-MLP, herdam as pro- Cortes, C. and Mohri, M. (2004). Auc optimiza-
priedades dessa metrica que, por ser independente tion vs. error rate minimization, Advances in
do threshold de decisao e, consequentemente, das Neural Information Processing Systems 16,
prioris das classes, sao capazes de obter melhores MIT Press, Cambridge, MA.
superfcies de decisao, aumentando o numero de
Egan, J. P. (1975). Signal Detection Theory and
classificacoes positivas (minoritarias) corretas e
ROC Analysis, Academic Press.
melhorando o equilbrio entre a sensibilidade e a
especificidade. Fawcett, T. (2006). An introduction to roc anal-
Nossos esforcos futuros estao focados em ysis, Pattern Recogn. Lett. 27(8): 861874.
avaliar o uso de um metodo de otimizacao mais ro-
busto que o metodo do Gradiente e menos depende Ferri, C., Flach, P. A. and Hernandez-Orallo, J.
de parametros. O objetivo e acelerar a convergen- (2002). Learning decision trees using the
cia e efetuar uma busca de solucoes mais eficiente area under the roc curve, ICML 02: Pro-
no espaco de pesos. Alem disso, pretende-se in- ceedings of the Nineteenth International Con-
corporar estrategias de controle de complexidade ference on Machine Learning, Morgan Kauf-
e selecao de modelos diretamente a formulacao do mann Publishers Inc., San Francisco, CA,
algoritmo AUC-MLP. USA, pp. 139146.
Hagan, M. T. and Menhaj, M. B. (1994). Train-

Agradecimentos ing feedforward networks with the marquardt
algoritm, IEEE Transactions on Neural Net-
O presente trabalho foi realizado com o apoio da works 5(6) pages 989-993 .
Fundacao de Amparo a Pesquisa do Estado de Mi-
nas Gerais - FAPEMIG. Hanley, J. A. and Mcneil, B. J. (1982). The mean-
ing and use of the area under a receiver op-
erating characteristic (roc) curve., Radiology
Referencias 143(1): 2936.
Asuncion, A. and Newman, D. (2007). UCI ma- Haykin, S. (1994). Neural Networks: A Compre-
chine learning repository. hensive Foundation, Macmillan, New York.
4450
Herschtal, A. and Raskutti, B. (2004). Optimis- Yan, L., Dodier, R. H., Mozer, M. and Wolniewicz,
ing area under the roc curve using gradi- R. H. (2003). Optimizing classifier perfor-
ent descent, ICML 04: Proceedings of the mance via an approximation to the wilcoxon-
twenty-first international conference on Ma- mann-whitney statistic, ICML 03: Proceed-
chine learning, ACM, New York, NY, USA, ings of the twenty international conference on
p. 49. Machine learning, pp. 848855.
Herschtal, A., Raskutti, B. and Campbell, P. K.

(2006). Area under roc optimisation us-
ing a ramp approximation, Proceedings of
the Sixth SIAM International Conference on
Data Mining.
Joachims, T. (2005). A support vector method for

multivariate performance measures, ICML
05: Proceedings of the 22nd international
conference on Machine learning, ACM, New
York, NY, USA, pp. 377384.
Kubat, M. and Matwin, S. (1997). Addressing

the curse of imbalanced training sets: one-
sided selection, Proc. 14th International Con-
ference on Machine Learning, Morgan Kauf-
mann, pp. 179186.
Luenberger, D. (1984). Linear and Nonlinear

Programming, second edn, Addison-Wesley,
Reading.
Mann, H. B. and Whitney, D. R. (1947). On a

test wheter one of two random variables is
stochastically larger than the other, Annals
of Math. Statistics, 18, pgs. 50 - 60. .
Provost, F. J., Fawcett, T. and Kohavi, R.

(1998). The case against accuracy esti-
mation for comparing induction algorithms,
ICML 98: Proceedings of the Fifteenth In-
ternational Conference on Machine Learn-
ing, Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA, pp. 445453.
Riedmiller, M. and Braun, H. (1993). A direct

adaptive method for faster backpropagation
learning: the rprop algorithm, IEEE Interna-
tional Conference on Neural Networks 3(1)
pp. 586591.
Stone, M. (1974). Cross-validatory choice and as-

sessment of statistical predictions, Journal of
the Royal Statistical Society B 36(1): 111
147.
Van Gestel, T., Suykens, J. A. K., Baesens,

B., Viaene, S., Vanthienen, J., Dedene, G.,
De Moor, B. and Vandewalle, J. (2004).
Benchmarking least squares support vector
machine classifiers, Mach. Learn. 54(1): 5
32.
Wilcoxon, F. (1945). Individual comparisons by

ranking methods, Biometrics, 1, pages 80 -
83. .
4451

Aprendizado de Redes MLP Atrav Es Da Otimiza C Ao Da Area Abaixo

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizado de Redes MLP Atrav Es Da Otimiza C Ao Da Area Abaixo

Uploaded by

Copyright:

Available Formats

XVIII Congresso Brasileiro de Automtica / 12 a 16-setembro-2010, Bonito-MS

APRENDIZADO DE REDES MLP ATRAVES DA OTIMIZACAO DA AREA ABAIXO

Cristiano Leite de Castro, Antonio de Padua Braga

Departamento de Engenharia Eletronica

Emails: crislcastro@ufmg.br, apbraga@ufmg.br

1 Introducao problemas reais, conjuntos de dados pequenos, es-

0.8 2 Area Abaixo da Curva ROC

para 0 < dmax e c > 1. Considere z(p) e

Figura 2: Topologia de rede MLP comumente ado-

dida k e a unidade de entrada j. Similarmente, o 1

valor obtido na unidade de sada (score), e calcu- 0

3.4 Vetor Gradiente

4 mostra as curvas ROC obtidas para a base

Segmentation 3 3 2 0.1 0.9 0.9

Diabetes 2 1 1 0.3 0.9 0.8

Heart 4 2 1 0.1 0.9 0.7

Base de Dados LM RProp AUC-MLP

Base de Dados LM RProp AUC-MLP

Hagan, M. T. and Menhaj, M. B. (1994). Train-

Herschtal, A., Raskutti, B. and Campbell, P. K.

Joachims, T. (2005). A support vector method for

Kubat, M. and Matwin, S. (1997). Addressing

Luenberger, D. (1984). Linear and Nonlinear

Mann, H. B. and Whitney, D. R. (1947). On a

Provost, F. J., Fawcett, T. and Kohavi, R.

Riedmiller, M. and Braun, H. (1993). A direct

Stone, M. (1974). Cross-validatory choice and as-

Van Gestel, T., Suykens, J. A. K., Baesens,

Wilcoxon, F. (1945). Individual comparisons by

You might also like