Notes

Search

Home

>

Artificial-intelligence

>

Machine-learning

>

Algorithms

>

Reinforcement-learning

>

Q-learning

>

Equação de Bellman

Jul 31, 2025, 3 min read

Equação de Bellman para o Valor de Estado (V)

A equação de Bellman para V é uma expressão que descreve o valor esperado de um estado em relação ao valor esperado do próximo estado e à recompensa imediata. É definida da seguinte forma:

: O valor esperado do estado .
: A política que determina a probabilidade de tomar ação no estado .
: A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado .
: O fator de desconto que controla o peso dado a recompensas futuras.

Equação de Bellman para o Valor de Ação (Q)

A equação de Bellman para Q é semelhante, mas se aplica diretamente às ações:

: O valor esperado do estado-ação .
: A probabilidade de transição para o próximo estado e receber a recompensa ao tomar a ação no estado .
: O fator de desconto que controla o peso dado a recompensas futuras.
: O valor esperado máximo do próximo estado , considerando todas as possíveis ações .

Essas equações de Bellman são fundamentais para a modelagem e solução de problemas de aprendizado por reforço, permitindo que os agentes avaliem e atualizem suas políticas para maximizar a recompensa cumulativa ao longo do tempo. Elas formam a base de muitos algoritmos de aprendizado por reforço, incluindo o Q-Learning e a Iteração de Valor.

Graph View

Equação de Bellman para o Valor de Estado (V)
Equação de Bellman para o Valor de Ação (Q)

Backlinks

Inteligência artificial
Funcionamento do Q-Learning
Introdução ao Q-Learning

GitHub

Notes

Explorer

Equação de Bellman

Equação de Bellman para o Valor de Estado (V)

Equação de Bellman para o Valor de Ação (Q)

Graph View

Table of Contents

Backlinks

Notes

Explorer

Equação de Bellman

Equação de Bellman para o Valor de Estado (V) §

Equação de Bellman para o Valor de Ação (Q) §

Graph View

Table of Contents

Backlinks

Equação de Bellman para o Valor de Estado (V)

Equação de Bellman para o Valor de Ação (Q)