Equação de Bellman para o Valor de Estado (V)
A equação de Bellman para V é uma expressão que descreve o valor esperado de um estado em relação ao valor esperado do próximo estado e à recompensa imediata. É definida da seguinte forma:
: O valor esperado do estado . : A política que determina a probabilidade de tomar ação no estado . : A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado . : O fator de desconto que controla o peso dado a recompensas futuras.
Equação de Bellman para o Valor de Ação (Q)
A equação de Bellman para Q é semelhante, mas se aplica diretamente às ações:
: O valor esperado do estado-ação . : A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado . : O fator de desconto que controla o peso dado a recompensas futuras. : O valor esperado máximo do próximo estado , considerando todas as possíveis ações .
Essas equações de Bellman são fundamentais para a modelagem e solução de problemas de aprendizado por reforço, permitindo que os agentes avaliem e atualizem suas políticas para maximizar a recompensa cumulativa ao longo do tempo. Elas formam a base de muitos algoritmos de aprendizado por reforço, incluindo o Q-Learning e a Iteração de Valor.