facebookresearch · yepw · Oct 27, 2024
diff --git a/tutorials/actor_critic_and_rc_safety_module/actor_critic_and_safe_actor_critic.ipynb b/tutorials/actor_critic_and_rc_safety_module/actor_critic_and_safe_actor_critic.ipynb
@@ -188,7 +188,7 @@
       "outputs": [],
       "source": [
         "from pearl.utils.functional_utils.experimentation.set_seed import set_seed\n",
-        "from pearl.replay_buffers.sequential_decision_making.fifo_off_policy_replay_buffer import FIFOOffPolicyReplayBuffer\n",
+        "from pearl.replay_buffers.sequential_decision_making.sarsa_replay_buffer import SARSAReplayBuffer\n",
         "from pearl.utils.functional_utils.train_and_eval.online_learning import online_learning\n",
         "from pearl.pearl_agent import PearlAgent\n",
         "\n",
@@ -335,7 +335,7 @@
         "                            std_dev=0.1,\n",
         "                            ),\n",
         "                    ),\n",
-        "                    replay_buffer=FIFOOffPolicyReplayBuffer(\n",
+        "                    replay_buffer=SARSAReplayBuffer(\n",
         "                        capacity=100000,\n",
         "                        has_cost_available=True\n",
         "                    ),\n",
@@ -446,7 +446,7 @@
         "                            std_dev=0.1,\n",
         "                            ),\n",
         "                    ),\n",
-        "                    replay_buffer=FIFOOffPolicyReplayBuffer(\n",
+        "                    replay_buffer=SARSAReplayBuffer(\n",
         "                        capacity=100000,\n",
         "                        has_cost_available=True\n",
         "                    ),\n",

diff --git a/tutorials/contextual_bandits/contextual_bandits_tutorial.ipynb b/tutorials/contextual_bandits/contextual_bandits_tutorial.ipynb
@@ -185,7 +185,7 @@
       "source": [
         "from pearl.utils.functional_utils.experimentation.set_seed import set_seed\n",
         "from pearl.action_representation_modules.one_hot_action_representation_module import OneHotActionTensorRepresentationModule\n",
-        "from pearl.replay_buffers.sequential_decision_making.fifo_off_policy_replay_buffer import FIFOOffPolicyReplayBuffer\n",
+        "from pearl.replay_buffers.sequential_decision_making.sarsa_replay_buffer import SARSAReplayBuffer\n",
         "from pearl.utils.functional_utils.train_and_eval.online_learning import online_learning\n",
         "from pearl.pearl_agent import PearlAgent\n",
         "from pearl.utils.uci_data import download_uci_data\n",
@@ -534,7 +534,7 @@
         "        action_representation_module=action_representation_module,\n",
         "        exploration_module= SquareCBExploration(gamma = env.observation_dim * env.unique_labels_num * number_of_steps)\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(100_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(100_000),\n",
         "    device_id=-1,\n",
         ")\n",
         "\n",
@@ -831,7 +831,7 @@
         "        action_representation_module=action_representation_module,\n",
         "        exploration_module= UCBExploration(alpha=1.0)\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(100_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(100_000),\n",
         "    device_id=-1,\n",
         ")\n",
         "\n",
@@ -1111,7 +1111,7 @@
         "        action_representation_module=action_representation_module,\n",
         "        exploration_module= ThompsonSamplingExplorationLinear()\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(100_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(100_000),\n",
         "    device_id=-1,\n",
         ")\n",
         "\n",
@@ -1197,4 +1197,4 @@
   },
   "nbformat": 4,
   "nbformat_minor": 0
-}
+}
diff --git a/tutorials/frozen_lake/frozen_lake.ipynb b/tutorials/frozen_lake/frozen_lake.ipynb
@@ -113,7 +113,7 @@
       "source": [
         "from pearl.utils.functional_utils.experimentation.set_seed import set_seed\n",
         "from pearl.policy_learners.sequential_decision_making.deep_q_learning import DeepQLearning\n",
-        "from pearl.replay_buffers.sequential_decision_making.fifo_off_policy_replay_buffer import FIFOOffPolicyReplayBuffer\n",
+        "from pearl.replay_buffers.sequential_decision_making.sarsa_replay_buffer import SARSAReplayBuffer\n",
         "from pearl.utils.functional_utils.train_and_eval.online_learning import online_learning\n",
         "from pearl.pearl_agent import PearlAgent\n",
         "from pearl.utils.instantiations.environments.gym_environment import GymEnvironment\n",
@@ -1783,7 +1783,7 @@
         "        training_rounds=1,\n",
         "        action_representation_module=action_representation_module\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(1000),\n",
+        "    replay_buffer=SARSAReplayBuffer(1000),\n",
         ")\n",
         "\n",
         "info = online_learning(\n",

diff --git a/tutorials/sequential_decision_making/DQN_and_DoubleDQN_example.ipynb b/tutorials/sequential_decision_making/DQN_and_DoubleDQN_example.ipynb
@@ -215,7 +215,7 @@
         "from pearl.utils.functional_utils.experimentation.set_seed import set_seed\n",
         "from pearl.policy_learners.sequential_decision_making.deep_q_learning import DeepQLearning\n",
         "from pearl.policy_learners.sequential_decision_making.double_dqn import DoubleDQN\n",
-        "from pearl.replay_buffers.sequential_decision_making.fifo_off_policy_replay_buffer import FIFOOffPolicyReplayBuffer\n",
+        "from pearl.replay_buffers.sequential_decision_making.sarsa_replay_buffer import SARSAReplayBuffer\n",
         "from pearl.utils.functional_utils.train_and_eval.online_learning import online_learning\n",
         "from pearl.pearl_agent import PearlAgent\n",
         "from pearl.utils.instantiations.environments.gym_environment import GymEnvironment\n",
@@ -292,7 +292,7 @@
         "            max_number_actions=num_actions\n",
         "        ),\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(10_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(10_000),\n",
         ")"
       ]
     },
@@ -432,7 +432,7 @@
         "            max_number_actions=num_actions\n",
         "        ),\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(10_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(10_000),\n",
         ")"
       ]
     },

diff --git a/tutorials/single_item_recommender_system_example/single_item_recommender_system.ipynb b/tutorials/single_item_recommender_system_example/single_item_recommender_system.ipynb
@@ -237,8 +237,8 @@
         "from pearl.replay_buffers.sequential_decision_making.bootstrap_replay_buffer import (\n",
         "    BootstrapReplayBuffer,\n",
         ")\n",
-        "from pearl.replay_buffers.sequential_decision_making.fifo_off_policy_replay_buffer import (\n",
-        "    FIFOOffPolicyReplayBuffer,\n",
+        "from pearl.replay_buffers.sequential_decision_making.sarsa_replay_buffer import (\n",
+        "    SARSAReplayBuffer,\n",
         ")\n",
         "from pearl.utils.functional_utils.experimentation.set_seed import set_seed\n",
         "from pearl.utils.functional_utils.train_and_eval.online_learning import online_learning\n",
@@ -450,7 +450,7 @@
         "        training_rounds=50,\n",
         "        action_representation_module=action_representation_module,\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(100_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(100_000),\n",
         "    device_id=device_id,\n",
         ")\n",
         "\n",
@@ -1526,7 +1526,7 @@
         "        hidden_dim=128,\n",
         "        history_length=history_length,\n",
         "    ),\n",
-        "    replay_buffer=FIFOOffPolicyReplayBuffer(100_000),\n",
+        "    replay_buffer=SARSAReplayBuffer(100_000),\n",
         "    device_id=device_id,\n",
         ")\n",
         "\n",
@@ -5673,4 +5673,4 @@
       }
     }
   ]
-}
+}