You are on page 1of 28

APRENDIZAGEM POR REFORO

ESTUDO INTRODUTRIO
FRANCISCO S.

INTRODUO
Trata-se de um mtodo de aprendizagem por tentativa e erro de um agente atuando num ambiente dinmico. Sendo desnecessrio a existncia de uma entidade externa que fornea exemplos ou modelo a respeito da tarefa a ser executada. A aprendizagem ocorre pela experincia do agente no ambiente, cujo objetivo alcanar certas polticas de aes que maximizem seu desempenho.

INTRODUO

A experincia do agente ocorre pela sua atuao(ao) no ambiente, analisando os resultados(reforo) obtido. Quando determinada ao realizada for boa, o agente receber uma recompensa(reforo).

Quando determinada ao realizada for ruim, o agente receber uma punio(reforo).

INTRODUO

A interao agente-ambiente na AR

Caractersticas

Aprendizado por Interao: O agente AR realiza uma ao no ambiente e aguarda pelo valor de reforo que o ambiente retorna em resposta a ao tomada, assimilando atravs do aprendizado o valor de reforo obtido para tomar decises posteriores.

Caractersticas

Retorno Atrasado: um valor de reforo alto no significa necessariamente que a ao tomada pelo agente a recomendada. Uma ao produto de uma deciso local no ambiente, sendo seu efeito imediato de natureza local, enquanto que, em um sistema de AR, busca-se alcanar objetivos globais no ambiente. Assim, as aes tomadas devem levar a maximizar o retorno total, que so encontradas somente a longo prazo.

Caractersticas

Orientado pelo Objetivo: Na AR, considera-se apenas um ambiente que d respostas perante aes efetuadas, sendo desnecessrio conhecer detalhes da modelagem desse ambiente. Simplesmente, existe um agente que age dentro do ambiente desconhecido tentando alcanar um objetivo: otimizar seu comportamento dentro do ambiente.

Caractersticas

Investigao Explorao: Na AR os agentes enfrentam o dilema de decidir quando se deve aprender e quando no se deve aprender sobre o ambiente, mas usar a informao j obtida at o momento. Para que um sistema seja realmente autnomo, esta deciso deve ser tomada pelo prprio sistema.

Caractersticas
A deciso fundamentada numa escolha entre agir baseado na melhor informao de que o agente dispe no momento ou agir para obter novas informaes que possam permitir nveis de desempenho ainda maiores no futuro. O agente deve aprender quais aes maximizam os valores dos ganhos obtidos no tempo, mas tambm, deve agir de forma a atingir esta maximizao, explorando aes ainda no executadas ou regies pouco visitadas do espao de estados.

O Problema de AR
O objetivo levar o agente a escolher a sequncia de aes que tendem a aumentar a soma de valores de reforo, ou seja, o objetivo encontrar uma poltica tima, , definida como o mapeamento de estados em aes que maximize os sinais de reforo acumulados no tempo. O Problema de AR apresenta cinco partes fundamentais.

O Problema de AR

O Ambiente: todo sistema de AR ocorre em um ambiente dinmico. O ambiente no qual o agente est inserido deve ser pelo menos parcialmente observvel atravs de sensores, descries simblicas ou situaes mentais. Podendo tambm ser possvel que toda a informao relevante do ambiente esteja perfeitamente disponvel.

O Problema de AR

A Poltica de Controle/Deciso: Uma poltica expressa pela funo , representa o comportamento que o sistema AR segue para alcanar o objetivo. Em outras palavras, uma poltica um mapeamento de estados s e aes a em um valor (s, a), o qual corresponde probabilidade do agente tomar a ao a A(S) quando este se encontrar no estado s S.

O Problema de AR
Se um agente AR muda a sua poltica, ento as probabilidades de seleo de aes sofrem mudanas e o comportamento do sistema apresenta variaes medida que o agente vai acumulando experincia a partir das interaes com o ambiente.

O Problema de AR
Reforo e Retorno:

um sinal(rt+1) dado pelo ambiente ao agente para uma dada ao realizada e uma transio de estado (st st+1) tenha ocorrido.

a quantidade de reforo deve ser maximizada.

O Problema de AR
O sistema AR busca maximizar o valor esperado (esperana matemtica) de retorno at um tempo T final.

RT = rt+1 + rt+2 + rt+3 + . . . + rT

O Problema de AR
Para o caso em que T = foi criada a taxa de amortizao (), a qual determina o grau de influncia que tm os valores futuros sobre o reforo total.

onde 0 1.

O Problema de AR
Funo de Reforo: Reforo s no estado final Tempo mnimo ao objetivo Minimizar reforos

O Problema de AR

Funo Valor o mapeamento do estado, ou par estado ao, em um valor que obtido a partir do reforo atual e dos reforos futuros.

V (s) -> funo valor-estado Q(s, a) -> funo valor-ao

O Problema de AR

Valor estado Os reforos futuros mantm dependncias das aes futuras, as funes valor dependem tambm da poltica que o agente adota.

O Problema de AR

Funo Valor-Ao:

Fundamentao Matemtica

Propriedade de Markov Quando a probabilidade de transio de um estado s para um estado s depende apenas do estado s e da ao a adotada em s, dizemos que o estado fornece informao suficiente para o sistema de aprendizado decidir que ao deve ser tomada.

Fundamentao Matemtica
Em geral, a resposta em t+1 para uma ao efetuada em t depende de todo o histrico de aes at o momento atual, a dinmica do ambiente definida pela especificao completa da distribuio de probabilidades

Consideraes
Processo de Deciso Markoviano ambiente deve evolui probabilisticamente de acordo com um conjunto finito e discreto de estados; para cada estado do ambiente, existe um conjunto de aes possveis; cada passo que o sistema de aprendizado executa, ou seja, uma ao, o agente recebe um retorno; estados so observados, aes so executadas e reforos so relacionados.

Consideraes

Quase todos os problemas de AR supe-se que o ambiente tenha a forma de um Processo de Deciso Markoviano, desde que seja satisfeita a Propriedade de Markov no ambiente.

Exemplo

Exemplo

Exemplo

Exemplo

You might also like