Professional Documents
Culture Documents
ESTUDO INTRODUTRIO
FRANCISCO S.
INTRODUO
Trata-se de um mtodo de aprendizagem por tentativa e erro de um agente atuando num ambiente dinmico. Sendo desnecessrio a existncia de uma entidade externa que fornea exemplos ou modelo a respeito da tarefa a ser executada. A aprendizagem ocorre pela experincia do agente no ambiente, cujo objetivo alcanar certas polticas de aes que maximizem seu desempenho.
INTRODUO
A experincia do agente ocorre pela sua atuao(ao) no ambiente, analisando os resultados(reforo) obtido. Quando determinada ao realizada for boa, o agente receber uma recompensa(reforo).
INTRODUO
A interao agente-ambiente na AR
Caractersticas
Aprendizado por Interao: O agente AR realiza uma ao no ambiente e aguarda pelo valor de reforo que o ambiente retorna em resposta a ao tomada, assimilando atravs do aprendizado o valor de reforo obtido para tomar decises posteriores.
Caractersticas
Retorno Atrasado: um valor de reforo alto no significa necessariamente que a ao tomada pelo agente a recomendada. Uma ao produto de uma deciso local no ambiente, sendo seu efeito imediato de natureza local, enquanto que, em um sistema de AR, busca-se alcanar objetivos globais no ambiente. Assim, as aes tomadas devem levar a maximizar o retorno total, que so encontradas somente a longo prazo.
Caractersticas
Orientado pelo Objetivo: Na AR, considera-se apenas um ambiente que d respostas perante aes efetuadas, sendo desnecessrio conhecer detalhes da modelagem desse ambiente. Simplesmente, existe um agente que age dentro do ambiente desconhecido tentando alcanar um objetivo: otimizar seu comportamento dentro do ambiente.
Caractersticas
Investigao Explorao: Na AR os agentes enfrentam o dilema de decidir quando se deve aprender e quando no se deve aprender sobre o ambiente, mas usar a informao j obtida at o momento. Para que um sistema seja realmente autnomo, esta deciso deve ser tomada pelo prprio sistema.
Caractersticas
A deciso fundamentada numa escolha entre agir baseado na melhor informao de que o agente dispe no momento ou agir para obter novas informaes que possam permitir nveis de desempenho ainda maiores no futuro. O agente deve aprender quais aes maximizam os valores dos ganhos obtidos no tempo, mas tambm, deve agir de forma a atingir esta maximizao, explorando aes ainda no executadas ou regies pouco visitadas do espao de estados.
O Problema de AR
O objetivo levar o agente a escolher a sequncia de aes que tendem a aumentar a soma de valores de reforo, ou seja, o objetivo encontrar uma poltica tima, , definida como o mapeamento de estados em aes que maximize os sinais de reforo acumulados no tempo. O Problema de AR apresenta cinco partes fundamentais.
O Problema de AR
O Ambiente: todo sistema de AR ocorre em um ambiente dinmico. O ambiente no qual o agente est inserido deve ser pelo menos parcialmente observvel atravs de sensores, descries simblicas ou situaes mentais. Podendo tambm ser possvel que toda a informao relevante do ambiente esteja perfeitamente disponvel.
O Problema de AR
A Poltica de Controle/Deciso: Uma poltica expressa pela funo , representa o comportamento que o sistema AR segue para alcanar o objetivo. Em outras palavras, uma poltica um mapeamento de estados s e aes a em um valor (s, a), o qual corresponde probabilidade do agente tomar a ao a A(S) quando este se encontrar no estado s S.
O Problema de AR
Se um agente AR muda a sua poltica, ento as probabilidades de seleo de aes sofrem mudanas e o comportamento do sistema apresenta variaes medida que o agente vai acumulando experincia a partir das interaes com o ambiente.
O Problema de AR
Reforo e Retorno:
um sinal(rt+1) dado pelo ambiente ao agente para uma dada ao realizada e uma transio de estado (st st+1) tenha ocorrido.
O Problema de AR
O sistema AR busca maximizar o valor esperado (esperana matemtica) de retorno at um tempo T final.
O Problema de AR
Para o caso em que T = foi criada a taxa de amortizao (), a qual determina o grau de influncia que tm os valores futuros sobre o reforo total.
onde 0 1.
O Problema de AR
Funo de Reforo: Reforo s no estado final Tempo mnimo ao objetivo Minimizar reforos
O Problema de AR
Funo Valor o mapeamento do estado, ou par estado ao, em um valor que obtido a partir do reforo atual e dos reforos futuros.
O Problema de AR
Valor estado Os reforos futuros mantm dependncias das aes futuras, as funes valor dependem tambm da poltica que o agente adota.
O Problema de AR
Funo Valor-Ao:
Fundamentao Matemtica
Propriedade de Markov Quando a probabilidade de transio de um estado s para um estado s depende apenas do estado s e da ao a adotada em s, dizemos que o estado fornece informao suficiente para o sistema de aprendizado decidir que ao deve ser tomada.
Fundamentao Matemtica
Em geral, a resposta em t+1 para uma ao efetuada em t depende de todo o histrico de aes at o momento atual, a dinmica do ambiente definida pela especificao completa da distribuio de probabilidades
Consideraes
Processo de Deciso Markoviano ambiente deve evolui probabilisticamente de acordo com um conjunto finito e discreto de estados; para cada estado do ambiente, existe um conjunto de aes possveis; cada passo que o sistema de aprendizado executa, ou seja, uma ao, o agente recebe um retorno; estados so observados, aes so executadas e reforos so relacionados.
Consideraes
Quase todos os problemas de AR supe-se que o ambiente tenha a forma de um Processo de Deciso Markoviano, desde que seja satisfeita a Propriedade de Markov no ambiente.
Exemplo
Exemplo
Exemplo
Exemplo