Aprendizagem Por Reforço

APRENDIZAGEM POR REFORO
ESTUDO INTRODUTRIO
FRANCISCO S.
INTRODUO
Trata-se de um mtodo de aprendizagem por tentativa e erro de um agente atuando num ambiente dinmico. Sendo desnecessrio a existncia de uma entidade externa que fornea exemplos ou modelo a respeito da tarefa a ser executada. A aprendizagem ocorre pela experincia do agente no ambiente, cujo objetivo alcanar certas polticas de aes que maximizem seu desempenho.
INTRODUO
A experincia do agente ocorre pela sua atuao(ao) no ambiente, analisando os resultados(reforo) obtido. Quando determinada ao realizada for boa, o agente receber uma recompensa(reforo).
Quando determinada ao realizada for ruim, o agente receber uma punio(reforo).
INTRODUO
A interao agente-ambiente na AR
Caractersticas
Aprendizado por Interao: O agente AR realiza uma ao no ambiente e aguarda pelo valor de reforo que o ambiente retorna em resposta a ao tomada, assimilando atravs do aprendizado o valor de reforo obtido para tomar decises posteriores.
Caractersticas
Retorno Atrasado: um valor de reforo alto no significa necessariamente que a ao tomada pelo agente a recomendada. Uma ao produto de uma deciso local no ambiente, sendo seu efeito imediato de natureza local, enquanto que, em um sistema de AR, busca-se alcanar objetivos globais no ambiente. Assim, as aes tomadas devem levar a maximizar o retorno total, que so encontradas somente a longo prazo.
Caractersticas
Orientado pelo Objetivo: Na AR, considera-se apenas um ambiente que d respostas perante aes efetuadas, sendo desnecessrio conhecer detalhes da modelagem desse ambiente. Simplesmente, existe um agente que age dentro do ambiente desconhecido tentando alcanar um objetivo: otimizar seu comportamento dentro do ambiente.
Caractersticas
Investigao Explorao: Na AR os agentes enfrentam o dilema de decidir quando se deve aprender e quando no se deve aprender sobre o ambiente, mas usar a informao j obtida at o momento. Para que um sistema seja realmente autnomo, esta deciso deve ser tomada pelo prprio sistema.
Caractersticas
A deciso fundamentada numa escolha entre agir baseado na melhor informao de que o agente dispe no momento ou agir para obter novas informaes que possam permitir nveis de desempenho ainda maiores no futuro. O agente deve aprender quais aes maximizam os valores dos ganhos obtidos no tempo, mas tambm, deve agir de forma a atingir esta maximizao, explorando aes ainda no executadas ou regies pouco visitadas do espao de estados.
O Problema de AR
O objetivo levar o agente a escolher a sequncia de aes que tendem a aumentar a soma de valores de reforo, ou seja, o objetivo encontrar uma poltica tima, , definida como o mapeamento de estados em aes que maximize os sinais de reforo acumulados no tempo. O Problema de AR apresenta cinco partes fundamentais.
O Problema de AR
O Ambiente: todo sistema de AR ocorre em um ambiente dinmico. O ambiente no qual o agente est inserido deve ser pelo menos parcialmente observvel atravs de sensores, descries simblicas ou situaes mentais. Podendo tambm ser possvel que toda a informao relevante do ambiente esteja perfeitamente disponvel.
O Problema de AR
A Poltica de Controle/Deciso: Uma poltica expressa pela funo , representa o comportamento que o sistema AR segue para alcanar o objetivo. Em outras palavras, uma poltica um mapeamento de estados s e aes a em um valor (s, a), o qual corresponde probabilidade do agente tomar a ao a A(S) quando este se encontrar no estado s S.
O Problema de AR
Se um agente AR muda a sua poltica, ento as probabilidades de seleo de aes sofrem mudanas e o comportamento do sistema apresenta variaes medida que o agente vai acumulando experincia a partir das interaes com o ambiente.
O Problema de AR
Reforo e Retorno:
um sinal(rt+1) dado pelo ambiente ao agente para uma dada ao realizada e uma transio de estado (st st+1) tenha ocorrido.
a quantidade de reforo deve ser maximizada.
O Problema de AR
O sistema AR busca maximizar o valor esperado (esperana matemtica) de retorno at um tempo T final.
RT = rt+1 + rt+2 + rt+3 + . . . + rT
O Problema de AR
Para o caso em que T = foi criada a taxa de amortizao (), a qual determina o grau de influncia que tm os valores futuros sobre o reforo total.
onde 0 1.
O Problema de AR
Funo de Reforo: Reforo s no estado final Tempo mnimo ao objetivo Minimizar reforos
O Problema de AR
Funo Valor o mapeamento do estado, ou par estado ao, em um valor que obtido a partir do reforo atual e dos reforos futuros.
V (s) -> funo valor-estado Q(s, a) -> funo valor-ao
O Problema de AR
Valor estado Os reforos futuros mantm dependncias das aes futuras, as funes valor dependem tambm da poltica que o agente adota.
O Problema de AR
Funo Valor-Ao:
Fundamentao Matemtica
Propriedade de Markov Quando a probabilidade de transio de um estado s para um estado s depende apenas do estado s e da ao a adotada em s, dizemos que o estado fornece informao suficiente para o sistema de aprendizado decidir que ao deve ser tomada.
Fundamentao Matemtica
Em geral, a resposta em t+1 para uma ao efetuada em t depende de todo o histrico de aes at o momento atual, a dinmica do ambiente definida pela especificao completa da distribuio de probabilidades
Consideraes
Processo de Deciso Markoviano ambiente deve evolui probabilisticamente de acordo com um conjunto finito e discreto de estados; para cada estado do ambiente, existe um conjunto de aes possveis; cada passo que o sistema de aprendizado executa, ou seja, uma ao, o agente recebe um retorno; estados so observados, aes so executadas e reforos so relacionados.
Consideraes
Quase todos os problemas de AR supe-se que o ambiente tenha a forma de um Processo de Deciso Markoviano, desde que seja satisfeita a Propriedade de Markov no ambiente.
Exemplo
Exemplo
Exemplo
Exemplo

Aprendizagem Por Reforço

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aprendizagem Por Reforço

Uploaded by

Copyright:

Available Formats

APRENDIZAGEM POR REFORO

Quando determinada ao realizada for ruim, o agente receber uma punio(reforo).

a quantidade de reforo deve ser maximizada.

RT = rt+1 + rt+2 + rt+3 + . . . + rT

V (s) -> funo valor-estado Q(s, a) -> funo valor-ao

You might also like