From 5bff7e2bcc303bfa6caee9d0b95bc21540d4c279 Mon Sep 17 00:00:00 2001
From: lanchunhui <zch921005@126.com>
Date: Tue, 1 Aug 2023 22:51:42 +0800
Subject: update: notes

---
 rl/tutorials/actor_critic.ipynb | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

(limited to 'rl/tutorials')

diff --git a/rl/tutorials/actor_critic.ipynb b/rl/tutorials/actor_critic.ipynb
index 32e28ad..0b357d7 100644
--- a/rl/tutorials/actor_critic.ipynb
+++ b/rl/tutorials/actor_critic.ipynb
@@ -14,7 +14,13 @@
    "metadata": {},
    "source": [
     "- references\n",
-    "    - https://github.com/pytorch/examples/tree/main/reinforcement_learning"
+    "    - https://github.com/pytorch/examples/tree/main/reinforcement_learning\n",
+    "    - https://towardsdatascience.com/understanding-actor-critic-methods-931b97b6df3f\n",
+    "    - https://lilianweng.github.io/posts/2018-04-08-policy-gradient/\n",
+    "- Actor - Critic\n",
+    "    - Actor\n",
+    "        - The policy gradient method is also the “actor” part of Actor-Critic methods \n",
+    "  - Critic"
    ]
   }
  ],
-- 
cgit v1.2.3