Equação de Bellman para o Valor de Estado (V)

A equação de Bellman para V é uma expressão que descreve o valor esperado de um estado em relação ao valor esperado do próximo estado e à recompensa imediata. É definida da seguinte forma:

  • : O valor esperado do estado .
  • : A política que determina a probabilidade de tomar ação no estado .
  • : A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado .
  • : O fator de desconto que controla o peso dado a recompensas futuras.

Equação de Bellman para o Valor de Ação (Q)

A equação de Bellman para Q é semelhante, mas se aplica diretamente às ações:

  • : O valor esperado do estado-ação .
  • : A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado .
  • : O fator de desconto que controla o peso dado a recompensas futuras.
  • : O valor esperado máximo do próximo estado , considerando todas as possíveis ações .

Essas equações de Bellman são fundamentais para a modelagem e solução de problemas de aprendizado por reforço, permitindo que os agentes avaliem e atualizem suas políticas para maximizar a recompensa cumulativa ao longo do tempo. Elas formam a base de muitos algoritmos de aprendizado por reforço, incluindo o Q-Learning e a Iteração de Valor.