Policy gradient methods

Policy based reinforcement learning
- Stochastic policy
- Policy Search
Finite Difference Policy Gradient
Monte-Carlo Policy Gradient
- Score function
- Policy gradient theorem
- REINFORCE
Actor-Critic Methods
- Compatible function approximation
- Variance reduction via baseline
- Advantage Function Critic
- Eligibility Traces
- Natural Policy Gradient
State of the art and applications
Not yet covered
- Deep Deterministic Policy Gradient(DDPG)
- Asynchronous Advantage Actor-Critic Algorithm (A3C)
- Trust Region Policy Optimization(TRPO), Proximal Policy Optimization(PPO)
- Soft Actor-Critic