{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "_jQ1tEQCxwRx"
   },
   "source": [
    "##### Copyright 2020 The TensorFlow Authors."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "cellView": "form",
    "execution": {
     "iopub.execute_input": "2024-01-11T20:24:41.571315Z",
     "iopub.status.busy": "2024-01-11T20:24:41.571058Z",
     "iopub.status.idle": "2024-01-11T20:24:41.574757Z",
     "shell.execute_reply": "2024-01-11T20:24:41.574202Z"
    },
    "id": "V_sgB_5dx1f1"
   },
   "outputs": [],
   "source": [
    "#@title Licensed under the Apache License, Version 2.0 (the \"License\");\n",
    "# you may not use this file except in compliance with the License.\n",
    "# You may obtain a copy of the License at\n",
    "#\n",
    "# https://www.apache.org/licenses/LICENSE-2.0\n",
    "#\n",
    "# Unless required by applicable law or agreed to in writing, software\n",
    "# distributed under the License is distributed on an \"AS IS\" BASIS,\n",
    "# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n",
    "# See the License for the specific language governing permissions and\n",
    "# limitations under the License."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "p62G8M_viUJp"
   },
   "source": [
    "# Actor-Critic 法による CartPole の実験\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "-mJ2i6jvZ3sK"
   },
   "source": [
    "<table class=\"tfo-notebook-buttons\" align=\"left\">\n",
    "  <td><a target=\"_blank\" href=\"https://www.tensorflow.org/tutorials/reinforcement_learning/actor_critic\"> <img src=\"https://www.tensorflow.org/images/tf_logo_32px.png\"> TensorFlow.org で表示</a></td>\n",
    "  <td><a target=\"_blank\" href=\"https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/ja/tutorials/reinforcement_learning/actor_critic.ipynb\"> <img src=\"https://www.tensorflow.org/images/colab_logo_32px.png\"> Google Colab で実行</a></td>\n",
    "  <td><a target=\"_blank\" href=\"https://github.com/tensorflow/docs-l10n/blob/master/site/ja/tutorials/reinforcement_learning/actor_critic.ipynb\"> <img src=\"https://www.tensorflow.org/images/GitHub-Mark-32px.png\"> GitHub でソースを表示</a></td>\n",
    "  <td><a href=\"https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/ja/tutorials/reinforcement_learning/actor_critic.ipynb\"><img src=\"https://www.tensorflow.org/images/download_logo_32px.png\">ノートブックをダウンロード</a></td>\n",
    "</table>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "kFgN7h_wiUJq"
   },
   "source": [
    "このチュートリアルでは、[（深層）強化学習](https://en.wikipedia.org/wiki/Deep_reinforcement_learning)の[ポリシー勾配メソッド](https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf)を理解していることを前提に、TensorFlow を使用して [Actor-Critic](https://papers.nips.cc/paper/1786-actor-critic-algorithms.pdf) 法を実装し、[Open AI Gym](https://www.gymlibrary.dev/) の [`CartPole-v0`](https://www.gymlibrary.dev/environments/classic_control/cart_pole/) 環境のエージェントをトレーニングする方法を示します。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "_kA10ZKRR0hi"
   },
   "source": [
    "**Actor-Critic 法**\n",
    "\n",
    "Actor-Critic 法は、価値関数から独立してポリシー関数を表す[TD（時間的差分）学習](https://en.wikipedia.org/wiki/Temporal_difference_learning)の手法です。\n",
    "\n",
    "ポリシー関数（またはポリシー）は、ある特定の状態に基づいてエージェントが実行できるアクションの確率分布を返します。価値関数は、特定の状態で開始し、その後永久に特定のポリシーに従って動作するエージェントの期待される戻り値を決定します。\n",
    "\n",
    "Actor-Critic 法では、ポリシーは状態に応じて一連の可能なアクションを提案する「*アクター*」と呼ばれます。推定される価値関数は「*クリティック*’と呼ばれ、特定のポリシーに基づいて「*アクター*」が実行するアクションを評価します。\n",
    "\n",
    "このチュートリアルでは、*アクター*と*クリティック*は、2 つの出力を持つ 1 つのニューラルネットワークを使って表現されます。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "rBfiafKSRs2k"
   },
   "source": [
    "**`CartPole-v0`**\n",
    "\n",
    "[`CartPole-v0` 環境](https://www.gymlibrary.dev/environments/classic_control/cart_pole/)では、ポールは摩擦のないレール上を移動するカートに取り付けられています。ポールは直立状態で始まり、エージェントの目標は、カートに `-1` または `+1` の力を加えてポールが倒れないようにすることです。ポールが直立状態を維持する時間ステップごとに `+1` の報酬が与えられます。エピソードは、（1）ポールが直立から 15 度以上に傾斜したとき、または（2）カートが中央から 2.4 ユニット以上移動したときに、終了します。\n",
    "\n",
    "<center>\n",
    "  <pre data-md-type=\"custom_pre\">&lt;figure&gt;\n",
    "    &lt;image src=\"https://tensorflow.org/tutorials/reinforcement_learning/images/cartpole-v0.gif\"&gt;\n",
    "    &lt;figcaption&gt;\n",
    "      Trained actor-critic model in Cartpole-v0 environment\n",
    "    &lt;/figcaption&gt;\n",
    "  &lt;/figure&gt;</pre>\n",
    "</center>\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "XSNVK0AeRoJd"
   },
   "source": [
    "この問題は、100 回の連続トライアルにおいて、エピソードの平均合計報酬が 195 に達すると「解決」とみなされます。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "glLwIctHiUJq"
   },
   "source": [
    "## セットアップ\n",
    "\n",
    "必要なパッケージをインポートし、グローバル設定を構成します。\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:24:41.578963Z",
     "iopub.status.busy": "2024-01-11T20:24:41.578354Z",
     "iopub.status.idle": "2024-01-11T20:24:51.944115Z",
     "shell.execute_reply": "2024-01-11T20:24:51.943292Z"
    },
    "id": "13l6BbxKhCKp"
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Collecting gym[classic_control]\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Downloading gym-0.26.2.tar.gz (721 kB)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Installing build dependencies ... \u001b[?25l-"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \b\\"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \b|"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \bdone\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[?25h  Getting requirements to build wheel ... \u001b[?25l-\b \bdone\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[?25h  Preparing metadata (pyproject.toml) ... \u001b[?25l-"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \bdone\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\u001b[33mWARNING: gym 0.26.2 does not provide the extra 'classic-control'\u001b[0m\u001b[33m\r\n",
      "\u001b[0m\u001b[?25hRequirement already satisfied: numpy>=1.18.0 in /tmpfs/src/tf_docs_env/lib/python3.9/site-packages (from gym[classic_control]) (1.26.3)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Collecting cloudpickle>=1.2.0 (from gym[classic_control])\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Downloading cloudpickle-3.0.0-py3-none-any.whl.metadata (7.0 kB)\r\n",
      "Collecting gym-notices>=0.0.4 (from gym[classic_control])\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Downloading gym_notices-0.0.8-py3-none-any.whl (3.0 kB)\r\n",
      "Requirement already satisfied: importlib-metadata>=4.8.0 in /tmpfs/src/tf_docs_env/lib/python3.9/site-packages (from gym[classic_control]) (7.0.1)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Collecting pygame==2.1.0 (from gym[classic_control])\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Downloading pygame-2.1.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Requirement already satisfied: zipp>=0.5 in /tmpfs/src/tf_docs_env/lib/python3.9/site-packages (from importlib-metadata>=4.8.0->gym[classic_control]) (3.17.0)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Downloading cloudpickle-3.0.0-py3-none-any.whl (20 kB)\r\n",
      "Building wheels for collected packages: gym\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Building wheel for gym (pyproject.toml) ... \u001b[?25l-"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \b\\"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\b \bdone\r\n",
      "\u001b[?25h  Created wheel for gym: filename=gym-0.26.2-py3-none-any.whl size=827620 sha256=8170d880af0e8c9336c9f2111586b5bd2f0af1f6dce1fe9c1bab4000085e5fef\r\n",
      "  Stored in directory: /home/kbuilder/.cache/pip/wheels/af/2b/30/5e78b8b9599f2a2286a582b8da80594f654bf0e18d825a4405\r\n",
      "Successfully built gym\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Installing collected packages: gym-notices, pygame, cloudpickle, gym\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Successfully installed cloudpickle-3.0.0 gym-0.26.2 gym-notices-0.0.8 pygame-2.1.0\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Collecting pyglet\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "  Downloading pyglet-2.0.10-py3-none-any.whl.metadata (8.5 kB)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Downloading pyglet-2.0.10-py3-none-any.whl (858 kB)\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Installing collected packages: pyglet\r\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Successfully installed pyglet-2.0.10\r\n"
     ]
    }
   ],
   "source": [
    "!pip install gym[classic_control]\n",
    "!pip install pyglet"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:24:51.947959Z",
     "iopub.status.busy": "2024-01-11T20:24:51.947699Z",
     "iopub.status.idle": "2024-01-11T20:25:02.908823Z",
     "shell.execute_reply": "2024-01-11T20:25:02.907893Z"
    },
    "id": "WBeQhPi2S4m5"
   },
   "outputs": [],
   "source": [
    "%%bash\n",
    "# Install additional packages for visualization\n",
    "sudo apt-get install -y python-opengl > /dev/null 2>&1\n",
    "pip install git+https://github.com/tensorflow/docs > /dev/null 2>&1"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:02.913528Z",
     "iopub.status.busy": "2024-01-11T20:25:02.913251Z",
     "iopub.status.idle": "2024-01-11T20:25:05.572707Z",
     "shell.execute_reply": "2024-01-11T20:25:05.571905Z"
    },
    "id": "tT4N3qYviUJr"
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "2024-01-11 20:25:03.412854: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered\n",
      "2024-01-11 20:25:03.412898: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered\n",
      "2024-01-11 20:25:03.414545: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered\n"
     ]
    }
   ],
   "source": [
    "import collections\n",
    "import gym\n",
    "import numpy as np\n",
    "import statistics\n",
    "import tensorflow as tf\n",
    "import tqdm\n",
    "\n",
    "from matplotlib import pyplot as plt\n",
    "from tensorflow.keras import layers\n",
    "from typing import Any, List, Sequence, Tuple\n",
    "\n",
    "\n",
    "# Create the environment\n",
    "env = gym.make(\"CartPole-v1\")\n",
    "\n",
    "# Set seed for experiment reproducibility\n",
    "seed = 42\n",
    "tf.random.set_seed(seed)\n",
    "np.random.seed(seed)\n",
    "\n",
    "# Small epsilon value for stabilizing division operations\n",
    "eps = np.finfo(np.float32).eps.item()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "AOUCe2D0iUJu"
   },
   "source": [
    "## モデル\n",
    "\n",
    "*アクター*と*クリティック*は、アクションの確率とクリティック値をそれぞれ生成する 1 つのニューラルネットワークを使ってモデル化されます。このチュートリアルでは、モデルの定義にモデルのサブクラス化を使用します。\n",
    "\n",
    "フォワードパス中、モデルは、状態を入力として取り、アクション確率とクリティック値 $V$ の両方を出力し、これによって状態に依存する[価値関数](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#value-functions)を形成します。期待される[戻り値](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#reward-and-return)を最大化するポリシー $\\pi$ に基づいてアクションを選択するモデルをトレーニングするのが目標です。\n",
    "\n",
    "`CartPole-v0` では、状態は 4 つの値で表現されます。カートの位置、カートの速度、ポールの角度、およびポールの速度です。エージェントは 2 つのアクションを取って、カートを左（`0`）と右（`1`）に押します。\n",
    "\n",
    "詳細については、[Gym's Cart Pole ドキュメントページ](https://www.gymlibrary.dev/environments/classic_control/cart_pole/)と Barto, Sutton and Anderson (1983) の「[*Neuronlike adaptive elements that can solve difficult learning control problems*](http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf)」をご覧ください。\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:05.576923Z",
     "iopub.status.busy": "2024-01-11T20:25:05.576513Z",
     "iopub.status.idle": "2024-01-11T20:25:05.581905Z",
     "shell.execute_reply": "2024-01-11T20:25:05.581261Z"
    },
    "id": "aXKbbMC-kmuv"
   },
   "outputs": [],
   "source": [
    "class ActorCritic(tf.keras.Model):\n",
    "  \"\"\"Combined actor-critic network.\"\"\"\n",
    "\n",
    "  def __init__(\n",
    "      self, \n",
    "      num_actions: int, \n",
    "      num_hidden_units: int):\n",
    "    \"\"\"Initialize.\"\"\"\n",
    "    super().__init__()\n",
    "\n",
    "    self.common = layers.Dense(num_hidden_units, activation=\"relu\")\n",
    "    self.actor = layers.Dense(num_actions)\n",
    "    self.critic = layers.Dense(1)\n",
    "\n",
    "  def call(self, inputs: tf.Tensor) -> Tuple[tf.Tensor, tf.Tensor]:\n",
    "    x = self.common(inputs)\n",
    "    return self.actor(x), self.critic(x)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:05.585305Z",
     "iopub.status.busy": "2024-01-11T20:25:05.584856Z",
     "iopub.status.idle": "2024-01-11T20:25:07.827621Z",
     "shell.execute_reply": "2024-01-11T20:25:07.826900Z"
    },
    "id": "nWyxJgjLn68c"
   },
   "outputs": [],
   "source": [
    "num_actions = env.action_space.n  # 2\n",
    "num_hidden_units = 128\n",
    "\n",
    "model = ActorCritic(num_actions, num_hidden_units)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "hk92njFziUJw"
   },
   "source": [
    "## エージェントをトレーニングする\n",
    "\n",
    "エージェントをトレーニングするには、次の手順を実行します。\n",
    "\n",
    "1. 環境でエージェントを実行し、エピソードごとのトレーニングデータを収集します。\n",
    "2. 時間ステップごとに期待される戻り値を計算します。\n",
    "3. Actor-Critic の混合モデルの損失を計算します。\n",
    "4. 勾配を計算し、ネットワークパラメーターを更新します。\n",
    "5. 成功基準または最大エピソード数に達するまで、1～4 の手順を繰り返します。\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "R2nde2XDs8Gh"
   },
   "source": [
    "### 1. トレーニングデータを収集する\n",
    "\n",
    "アクタークリティックモデルのトレーニングでは、教師あり学習と同様にトレーニングデータが必要です。ただし、そのようなデータを収集するには、モデルを環境で「実行」する必要があります。\n",
    "\n",
    "トレーニングデータは、エピソードごとに収集されます。次に、モデルの重みによってパラメーター化された現在のポリシーに基づいてアクションの確率とクリティック値を生成するために、時間ステップごとにモデルのフォワードパスが環境の状態で実行されます。\n",
    "\n",
    "次のアクションはモデルが生成したアクション確率からサンプリングされます。これが環境に適用されると、次の状態と報酬が生成されます。\n",
    "\n",
    "このプロセスは、`run_episode` 関数に実装されます。後で TensorFlow グラフにコンパイルしてトレーニングを加速化できるように、TensorFlow 演算が使用されています。可変長配列でテンソルをイテレーションできるように、`tf.TensorArray` が使用されていることに注意してください。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.831888Z",
     "iopub.status.busy": "2024-01-11T20:25:07.831616Z",
     "iopub.status.idle": "2024-01-11T20:25:07.836911Z",
     "shell.execute_reply": "2024-01-11T20:25:07.836239Z"
    },
    "id": "5URrbGlDSAGx"
   },
   "outputs": [],
   "source": [
    "# Wrap Gym's `env.step` call as an operation in a TensorFlow function.\n",
    "# This would allow it to be included in a callable TensorFlow graph.\n",
    "\n",
    "def env_step(action: np.ndarray) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:\n",
    "  \"\"\"Returns state, reward and done flag given an action.\"\"\"\n",
    "\n",
    "  state, reward, done, truncated, info = env.step(action)\n",
    "  return (state.astype(np.float32), \n",
    "          np.array(reward, np.int32), \n",
    "          np.array(done, np.int32))\n",
    "\n",
    "\n",
    "def tf_env_step(action: tf.Tensor) -> List[tf.Tensor]:\n",
    "  return tf.numpy_function(env_step, [action], \n",
    "                           [tf.float32, tf.int32, tf.int32])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.840193Z",
     "iopub.status.busy": "2024-01-11T20:25:07.839735Z",
     "iopub.status.idle": "2024-01-11T20:25:07.847494Z",
     "shell.execute_reply": "2024-01-11T20:25:07.846926Z"
    },
    "id": "a4qVRV063Cl9"
   },
   "outputs": [],
   "source": [
    "def run_episode(\n",
    "    initial_state: tf.Tensor,  \n",
    "    model: tf.keras.Model, \n",
    "    max_steps: int) -> Tuple[tf.Tensor, tf.Tensor, tf.Tensor]:\n",
    "  \"\"\"Runs a single episode to collect training data.\"\"\"\n",
    "\n",
    "  action_probs = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)\n",
    "  values = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)\n",
    "  rewards = tf.TensorArray(dtype=tf.int32, size=0, dynamic_size=True)\n",
    "\n",
    "  initial_state_shape = initial_state.shape\n",
    "  state = initial_state\n",
    "\n",
    "  for t in tf.range(max_steps):\n",
    "    # Convert state into a batched tensor (batch size = 1)\n",
    "    state = tf.expand_dims(state, 0)\n",
    "  \n",
    "    # Run the model and to get action probabilities and critic value\n",
    "    action_logits_t, value = model(state)\n",
    "  \n",
    "    # Sample next action from the action probability distribution\n",
    "    action = tf.random.categorical(action_logits_t, 1)[0, 0]\n",
    "    action_probs_t = tf.nn.softmax(action_logits_t)\n",
    "\n",
    "    # Store critic values\n",
    "    values = values.write(t, tf.squeeze(value))\n",
    "\n",
    "    # Store log probability of the action chosen\n",
    "    action_probs = action_probs.write(t, action_probs_t[0, action])\n",
    "  \n",
    "    # Apply action to the environment to get next state and reward\n",
    "    state, reward, done = tf_env_step(action)\n",
    "    state.set_shape(initial_state_shape)\n",
    "  \n",
    "    # Store reward\n",
    "    rewards = rewards.write(t, reward)\n",
    "\n",
    "    if tf.cast(done, tf.bool):\n",
    "      break\n",
    "\n",
    "  action_probs = action_probs.stack()\n",
    "  values = values.stack()\n",
    "  rewards = rewards.stack()\n",
    "  \n",
    "  return action_probs, values, rewards"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "lBnIHdz22dIx"
   },
   "source": [
    "### 2. 期待される戻り値を計算する\n",
    "\n",
    "1 つのエピソード中に収集される各時間ステップ $t$ の報酬のシーケンス ${r_{t}}^{T}{t=1}$ は、期待される戻り値のシーケンス ${G{t}}^{T}_{t=1}$ に変換されます。ここで、報酬の合計は現在の時間ステップ $t$ ～ $T$ から取得され、各報酬は指数関数で気に減衰するディスカウント要因 $\\gamma$ で乗算されます。\n",
    "\n",
    "$$G_{t} = \\sum^{T}*{t'=t} \\gamma^{t'-t}r*{t'}$$\n",
    "\n",
    "$\\gamma\\in(0,1)$ であるため、現在の時間ステップ以降の報酬には与えられる重みは、徐々に少なくなります。\n",
    "\n",
    "直感的に、期待される戻り値は単に、現在の報酬が後の報酬より良いことを示しています。数学的に見れば、報酬の合計が収束することが保証されています。\n",
    "\n",
    "トレーニングを安定化するには、生成される戻り値のシーケンスも標準化されます（つまり、平均と単位標準偏差がゼロ）。\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.850499Z",
     "iopub.status.busy": "2024-01-11T20:25:07.850281Z",
     "iopub.status.idle": "2024-01-11T20:25:07.855654Z",
     "shell.execute_reply": "2024-01-11T20:25:07.855084Z"
    },
    "id": "jpEwFyl315dl"
   },
   "outputs": [],
   "source": [
    "def get_expected_return(\n",
    "    rewards: tf.Tensor, \n",
    "    gamma: float, \n",
    "    standardize: bool = True) -> tf.Tensor:\n",
    "  \"\"\"Compute expected returns per timestep.\"\"\"\n",
    "\n",
    "  n = tf.shape(rewards)[0]\n",
    "  returns = tf.TensorArray(dtype=tf.float32, size=n)\n",
    "\n",
    "  # Start from the end of `rewards` and accumulate reward sums\n",
    "  # into the `returns` array\n",
    "  rewards = tf.cast(rewards[::-1], dtype=tf.float32)\n",
    "  discounted_sum = tf.constant(0.0)\n",
    "  discounted_sum_shape = discounted_sum.shape\n",
    "  for i in tf.range(n):\n",
    "    reward = rewards[i]\n",
    "    discounted_sum = reward + gamma * discounted_sum\n",
    "    discounted_sum.set_shape(discounted_sum_shape)\n",
    "    returns = returns.write(i, discounted_sum)\n",
    "  returns = returns.stack()[::-1]\n",
    "\n",
    "  if standardize:\n",
    "    returns = ((returns - tf.math.reduce_mean(returns)) / \n",
    "               (tf.math.reduce_std(returns) + eps))\n",
    "\n",
    "  return returns"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "qhr50_Czxazw"
   },
   "source": [
    "### 3. Actor-Critic 損失\n",
    "\n",
    "ハイブリッドの Actor-Critic モデルを使用しているため、選択される損失関数は、以下に示すように、トレーニング用のアクター損失とクリティック損失の合計です。\n",
    "\n",
    "$$L = L_{actor} + L_{critic}$$"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "nOQIJuG1xdTH"
   },
   "source": [
    "#### アクター損失\n",
    "\n",
    "アクター損失は、[クリティックを状態依存の基準としたポリシー勾配](https://www.youtube.com/watch?v=EKqxumCuAAY&t=62m23s)に基づき、単一サンプル（エピソード単位）の推定で計算されます。\n",
    "\n",
    "$$L_{actor} = -\\sum^{T}*{t=1} log\\pi*{\\theta}(a_{t} | s_{t})[G(s_{t}, a_{t})  - V^{\\pi}*{\\theta}(s*{t})]$$\n",
    "\n",
    "上記は以下を意味します。\n",
    "\n",
    "- $T$: エピソードごとの時間ステップの数。エピソードごとにことなります。\n",
    "- $s_{t}$: 時間ステップ $t$ における状態。\n",
    "- $a_{t}$: 状態 $s$ の場合の時間ステップ $t$ で選択されたアクション。\n",
    "- $\\pi_{\\theta}$: $\\theta$ でパラメータ化されたポリシー（アクター）。\n",
    "- $V^{\\pi}_{\\theta}$: $\\theta$ でパラメータ化された価値関数（クリティック）。\n",
    "- $G = G_{t}$: 時間ステップ $t$ において特定の状態とアクションに対して期待される戻り値。\n",
    "\n",
    "組み合わせの損失を最小限に抑えることでアクションがより高い報酬を生み出す確率を最大化しようとしているため、合計に負の項が追加されます。\n",
    "\n",
    "<br>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "Y304O4OAxiAv"
   },
   "source": [
    "##### アドバンテージ\n",
    "\n",
    "$L_{actor}$ 式の $G - V$ の項は[アドバンテージ](https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#advantage-functions)と呼ばれ、特定の状態において、あるアクションが、その状態のポリシー $\\pi$ に従って選択されたランダムアクションと比べてどれくらい優れているかを示します。\n",
    "\n",
    "ベースラインを除外することは可能ですが、除外した場合、トレーニング中のバリアンスが高くなってしまう可能性があります。また、ベースラインとしてクリティック $V$ を選択すると、できる限り $G$ に近くなるようにトレーニングされるため、バリアンスがより低くなります。\n",
    "\n",
    "さらに、クリティックがなければ、アルゴリズムは特定の状態で実行されるアクションの確率を期待される戻り値に応じて高めようとするため、アクション間の相対的な確率が同じままである場合、結果はあまり変わりません。\n",
    "\n",
    "たとえば、特定の状態における 2 つのアクションが同じ期待される戻り値を生成したとします。クリティックがなければ、アルゴリズムは客観的な $J$ に基づき、これらのアクションの確率をあげようとします。クリティックがあれば、アドバンテージがなく（$G - V = 0$）、そのためアクションの確率を上げることにアドバンテージがなく、アルゴリズムは勾配をゼロに設定します。\n",
    "\n",
    "<br>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "1hrPLrgGxlvb"
   },
   "source": [
    "#### The Critic loss\n",
    "\n",
    "Training $V$ to be as close possible to $G$ can be set up as a regression problem with the following loss function:\n",
    "\n",
    "$$L_{critic} = L_{\\delta}(G, V^{\\pi}_{\\theta})$$\n",
    "\n",
    "上記の $L_{\\delta}$ は [Huber 損失](https://en.wikipedia.org/wiki/Huber_loss)でこれは、二乗誤差損失よりもデータの外れ値に対する感度が低くなります。\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.859000Z",
     "iopub.status.busy": "2024-01-11T20:25:07.858781Z",
     "iopub.status.idle": "2024-01-11T20:25:07.862981Z",
     "shell.execute_reply": "2024-01-11T20:25:07.862330Z"
    },
    "id": "9EXwbEez6n9m"
   },
   "outputs": [],
   "source": [
    "huber_loss = tf.keras.losses.Huber(reduction=tf.keras.losses.Reduction.SUM)\n",
    "\n",
    "def compute_loss(\n",
    "    action_probs: tf.Tensor,  \n",
    "    values: tf.Tensor,  \n",
    "    returns: tf.Tensor) -> tf.Tensor:\n",
    "  \"\"\"Computes the combined Actor-Critic loss.\"\"\"\n",
    "\n",
    "  advantage = returns - values\n",
    "\n",
    "  action_log_probs = tf.math.log(action_probs)\n",
    "  actor_loss = -tf.math.reduce_sum(action_log_probs * advantage)\n",
    "\n",
    "  critic_loss = huber_loss(values, returns)\n",
    "\n",
    "  return actor_loss + critic_loss"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "HSYkQOmRfV75"
   },
   "source": [
    "### 4. パラメータを更新するようにトレーニングステップを定義する\n",
    "\n",
    "上記のすべてのステップは、エピソードごとに実行されるトレーニングステップに結合されます。損失関数に導くすべてのステップは、自動微分を可能にする `tf.GradientTape` コンテキストで実行されます。\n",
    "\n",
    "このチュートリアルでは、Adam オプティマイザを使って勾配をモデルパラメーターに適用します。\n",
    "\n",
    "ディスカウントされていない報酬の合計 `episode_reward` も、このステップで計算されます。この値は、成功基準が満たされるかどうかを評価するために、後で使用されます。\n",
    "\n",
    "`tf.function` コンテキストは `train_step` 関数に適用することで、コーラブル TenSorFlow グラフにコンパイルできるようなります。そうすることで、トレーニングを 10 倍加速させることができます。\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.866155Z",
     "iopub.status.busy": "2024-01-11T20:25:07.865720Z",
     "iopub.status.idle": "2024-01-11T20:25:07.875457Z",
     "shell.execute_reply": "2024-01-11T20:25:07.874887Z"
    },
    "id": "QoccrkF3IFCg"
   },
   "outputs": [],
   "source": [
    "optimizer = tf.keras.optimizers.Adam(learning_rate=0.01)\n",
    "\n",
    "\n",
    "@tf.function\n",
    "def train_step(\n",
    "    initial_state: tf.Tensor, \n",
    "    model: tf.keras.Model, \n",
    "    optimizer: tf.keras.optimizers.Optimizer, \n",
    "    gamma: float, \n",
    "    max_steps_per_episode: int) -> tf.Tensor:\n",
    "  \"\"\"Runs a model training step.\"\"\"\n",
    "\n",
    "  with tf.GradientTape() as tape:\n",
    "\n",
    "    # Run the model for one episode to collect training data\n",
    "    action_probs, values, rewards = run_episode(\n",
    "        initial_state, model, max_steps_per_episode) \n",
    "\n",
    "    # Calculate the expected returns\n",
    "    returns = get_expected_return(rewards, gamma)\n",
    "\n",
    "    # Convert training data to appropriate TF tensor shapes\n",
    "    action_probs, values, returns = [\n",
    "        tf.expand_dims(x, 1) for x in [action_probs, values, returns]] \n",
    "\n",
    "    # Calculate the loss values to update our network\n",
    "    loss = compute_loss(action_probs, values, returns)\n",
    "\n",
    "  # Compute the gradients from the loss\n",
    "  grads = tape.gradient(loss, model.trainable_variables)\n",
    "\n",
    "  # Apply the gradients to the model's parameters\n",
    "  optimizer.apply_gradients(zip(grads, model.trainable_variables))\n",
    "\n",
    "  episode_reward = tf.math.reduce_sum(rewards)\n",
    "\n",
    "  return episode_reward"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "HFvZiDoAflGK"
   },
   "source": [
    "### 5. トレーニングツールを実行する\n",
    "\n",
    "トレーニングは、成功基準またはエピソードの最大数に達するまでトレーニングステップを実行することで、実行されます。\n",
    "\n",
    "エピソード報酬の実行中の記録はキューに保持されます。100 トライアルに達したら、キューの左終端（テール）から最も古い報酬が削除され、キューの右（ヘッド）に最も新しい報酬が追加されます。実行中の報酬の合計も、計算の効率を得るために管理されます。\n",
    "\n",
    "ランタイムによっては、トレーニングを 1 分未満で完了することもできます。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:25:07.878550Z",
     "iopub.status.busy": "2024-01-11T20:25:07.878312Z",
     "iopub.status.idle": "2024-01-11T20:26:38.146763Z",
     "shell.execute_reply": "2024-01-11T20:26:38.146046Z"
    },
    "id": "kbmBxnzLiUJx"
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 0/10000 [00:00<?, ?it/s]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/tmpfs/src/tf_docs_env/lib/python3.9/site-packages/gym/utils/passive_env_checker.py:233: DeprecationWarning: `np.bool8` is a deprecated alias for `np.bool_`.  (Deprecated NumPy 1.24)\n",
      "  if not isinstance(terminated, (bool, np.bool8)):\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "WARNING: All log messages before absl::InitializeLog() is called are written to STDERR\n",
      "I0000 00:00:1705004711.393610  544566 device_compiler.h:186] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 0/10000 [00:03<?, ?it/s, episode_reward=43, running_reward=43]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 1/10000 [00:03<10:33:41,  3.80s/it, episode_reward=43, running_reward=43]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 1/10000 [00:03<10:33:41,  3.80s/it, episode_reward=78, running_reward=60.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 1/10000 [00:03<10:33:41,  3.80s/it, episode_reward=63, running_reward=61.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 3/10000 [00:03<2:54:24,  1.05s/it, episode_reward=63, running_reward=61.3] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 3/10000 [00:04<2:54:24,  1.05s/it, episode_reward=30, running_reward=53.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 3/10000 [00:04<2:54:24,  1.05s/it, episode_reward=74, running_reward=57.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 5/10000 [00:04<1:29:43,  1.86it/s, episode_reward=74, running_reward=57.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 5/10000 [00:04<1:29:43,  1.86it/s, episode_reward=50, running_reward=56.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 5/10000 [00:04<1:29:43,  1.86it/s, episode_reward=59, running_reward=56.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 7/10000 [00:04<56:14,  2.96it/s, episode_reward=59, running_reward=56.7]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 7/10000 [00:04<56:14,  2.96it/s, episode_reward=20, running_reward=52.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 7/10000 [00:04<56:14,  2.96it/s, episode_reward=15, running_reward=48]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 7/10000 [00:04<56:14,  2.96it/s, episode_reward=42, running_reward=47.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 7/10000 [00:04<56:14,  2.96it/s, episode_reward=26, running_reward=45.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 11/10000 [00:04<28:18,  5.88it/s, episode_reward=26, running_reward=45.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 11/10000 [00:04<28:18,  5.88it/s, episode_reward=22, running_reward=43.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 11/10000 [00:04<28:18,  5.88it/s, episode_reward=14, running_reward=41.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 11/10000 [00:04<28:18,  5.88it/s, episode_reward=14, running_reward=39.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 11/10000 [00:04<28:18,  5.88it/s, episode_reward=43, running_reward=39.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 15/10000 [00:04<17:58,  9.26it/s, episode_reward=43, running_reward=39.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 15/10000 [00:04<17:58,  9.26it/s, episode_reward=24, running_reward=38.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 15/10000 [00:04<17:58,  9.26it/s, episode_reward=17, running_reward=37.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 15/10000 [00:04<17:58,  9.26it/s, episode_reward=34, running_reward=37.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 15/10000 [00:04<17:58,  9.26it/s, episode_reward=67, running_reward=38.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 19/10000 [00:04<13:44, 12.10it/s, episode_reward=67, running_reward=38.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 19/10000 [00:04<13:44, 12.10it/s, episode_reward=76, running_reward=40.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 19/10000 [00:04<13:44, 12.10it/s, episode_reward=23, running_reward=39.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 19/10000 [00:04<13:44, 12.10it/s, episode_reward=29, running_reward=39.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 22/10000 [00:04<12:05, 13.75it/s, episode_reward=29, running_reward=39.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 22/10000 [00:04<12:05, 13.75it/s, episode_reward=118, running_reward=42.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 22/10000 [00:05<12:05, 13.75it/s, episode_reward=131, running_reward=46.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 22/10000 [00:05<12:05, 13.75it/s, episode_reward=78, running_reward=47.6] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 25/10000 [00:05<14:10, 11.73it/s, episode_reward=78, running_reward=47.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 25/10000 [00:05<14:10, 11.73it/s, episode_reward=23, running_reward=46.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 25/10000 [00:05<14:10, 11.73it/s, episode_reward=65, running_reward=47.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 25/10000 [00:05<14:10, 11.73it/s, episode_reward=49, running_reward=47.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 28/10000 [00:05<12:28, 13.32it/s, episode_reward=49, running_reward=47.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 28/10000 [00:05<12:28, 13.32it/s, episode_reward=22, running_reward=46.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 28/10000 [00:05<12:28, 13.32it/s, episode_reward=24, running_reward=45.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 28/10000 [00:05<12:28, 13.32it/s, episode_reward=47, running_reward=45.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 31/10000 [00:05<10:33, 15.74it/s, episode_reward=47, running_reward=45.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 31/10000 [00:05<10:33, 15.74it/s, episode_reward=37, running_reward=45.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 31/10000 [00:05<10:33, 15.74it/s, episode_reward=31, running_reward=45.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 31/10000 [00:05<10:33, 15.74it/s, episode_reward=18, running_reward=44.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 34/10000 [00:05<09:05, 18.28it/s, episode_reward=18, running_reward=44.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 34/10000 [00:05<09:05, 18.28it/s, episode_reward=21, running_reward=43.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 34/10000 [00:05<09:05, 18.28it/s, episode_reward=36, running_reward=43.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 34/10000 [00:05<09:05, 18.28it/s, episode_reward=34, running_reward=43.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 37/10000 [00:05<08:07, 20.43it/s, episode_reward=34, running_reward=43.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 37/10000 [00:05<08:07, 20.43it/s, episode_reward=52, running_reward=43.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 37/10000 [00:05<08:07, 20.43it/s, episode_reward=35, running_reward=43.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 37/10000 [00:05<08:07, 20.43it/s, episode_reward=28, running_reward=42.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 40/10000 [00:05<07:51, 21.12it/s, episode_reward=28, running_reward=42.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 40/10000 [00:05<07:51, 21.12it/s, episode_reward=28, running_reward=42.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 40/10000 [00:05<07:51, 21.12it/s, episode_reward=33, running_reward=42.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 40/10000 [00:05<07:51, 21.12it/s, episode_reward=22, running_reward=41.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 40/10000 [00:05<07:51, 21.12it/s, episode_reward=38, running_reward=41.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 44/10000 [00:05<07:08, 23.23it/s, episode_reward=38, running_reward=41.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 44/10000 [00:05<07:08, 23.23it/s, episode_reward=26, running_reward=41.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 44/10000 [00:05<07:08, 23.23it/s, episode_reward=37, running_reward=41.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 44/10000 [00:05<07:08, 23.23it/s, episode_reward=27, running_reward=40.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 47/10000 [00:05<06:50, 24.27it/s, episode_reward=27, running_reward=40.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 47/10000 [00:05<06:50, 24.27it/s, episode_reward=29, running_reward=40.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 47/10000 [00:06<06:50, 24.27it/s, episode_reward=36, running_reward=40.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 47/10000 [00:06<06:50, 24.27it/s, episode_reward=35, running_reward=40.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 50/10000 [00:06<06:42, 24.73it/s, episode_reward=35, running_reward=40.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 50/10000 [00:06<06:42, 24.73it/s, episode_reward=37, running_reward=40.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 50/10000 [00:06<06:42, 24.73it/s, episode_reward=29, running_reward=40.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  0%|          | 50/10000 [00:06<06:42, 24.73it/s, episode_reward=26, running_reward=39.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=26, running_reward=39.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=35, running_reward=39.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=15, running_reward=39.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=13, running_reward=38.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=15, running_reward=38.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 53/10000 [00:06<06:28, 25.58it/s, episode_reward=10, running_reward=38]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 58/10000 [00:06<05:16, 31.42it/s, episode_reward=10, running_reward=38]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 58/10000 [00:06<05:16, 31.42it/s, episode_reward=35, running_reward=37.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 58/10000 [00:06<05:16, 31.42it/s, episode_reward=12, running_reward=37.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 58/10000 [00:06<05:16, 31.42it/s, episode_reward=29, running_reward=37.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 58/10000 [00:06<05:16, 31.42it/s, episode_reward=21, running_reward=37.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 62/10000 [00:06<05:05, 32.48it/s, episode_reward=21, running_reward=37.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 62/10000 [00:06<05:05, 32.48it/s, episode_reward=28, running_reward=37]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 62/10000 [00:06<05:05, 32.48it/s, episode_reward=22, running_reward=36.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 62/10000 [00:06<05:05, 32.48it/s, episode_reward=19, running_reward=36.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 62/10000 [00:06<05:05, 32.48it/s, episode_reward=20, running_reward=36.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=20, running_reward=36.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=12, running_reward=35.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=24, running_reward=35.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=27, running_reward=35.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=13, running_reward=35.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 66/10000 [00:06<04:52, 33.92it/s, episode_reward=16, running_reward=34.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 71/10000 [00:06<04:27, 37.19it/s, episode_reward=16, running_reward=34.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 71/10000 [00:06<04:27, 37.19it/s, episode_reward=29, running_reward=34.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 71/10000 [00:06<04:27, 37.19it/s, episode_reward=28, running_reward=34.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 71/10000 [00:06<04:27, 37.19it/s, episode_reward=38, running_reward=34.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 71/10000 [00:06<04:27, 37.19it/s, episode_reward=30, running_reward=34.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=30, running_reward=34.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=25, running_reward=34.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=15, running_reward=34.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=19, running_reward=34.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=16, running_reward=33.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 75/10000 [00:06<04:53, 33.81it/s, episode_reward=23, running_reward=33.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 80/10000 [00:06<04:33, 36.21it/s, episode_reward=23, running_reward=33.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 80/10000 [00:06<04:33, 36.21it/s, episode_reward=20, running_reward=33.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 80/10000 [00:06<04:33, 36.21it/s, episode_reward=30, running_reward=33.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 80/10000 [00:06<04:33, 36.21it/s, episode_reward=23, running_reward=33.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 80/10000 [00:07<04:33, 36.21it/s, episode_reward=26, running_reward=33.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 84/10000 [00:07<04:42, 35.14it/s, episode_reward=26, running_reward=33.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 84/10000 [00:07<04:42, 35.14it/s, episode_reward=39, running_reward=33.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 84/10000 [00:07<04:42, 35.14it/s, episode_reward=30, running_reward=33.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 84/10000 [00:07<04:42, 35.14it/s, episode_reward=26, running_reward=33.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 84/10000 [00:07<04:42, 35.14it/s, episode_reward=20, running_reward=33.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 88/10000 [00:07<04:57, 33.31it/s, episode_reward=20, running_reward=33.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 88/10000 [00:07<04:57, 33.31it/s, episode_reward=27, running_reward=33.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 88/10000 [00:07<04:57, 33.31it/s, episode_reward=59, running_reward=33.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 88/10000 [00:07<04:57, 33.31it/s, episode_reward=19, running_reward=33.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 88/10000 [00:07<04:57, 33.31it/s, episode_reward=57, running_reward=33.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 92/10000 [00:07<05:46, 28.61it/s, episode_reward=57, running_reward=33.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 92/10000 [00:07<05:46, 28.61it/s, episode_reward=41, running_reward=33.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 92/10000 [00:07<05:46, 28.61it/s, episode_reward=46, running_reward=33.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 92/10000 [00:07<05:46, 28.61it/s, episode_reward=68, running_reward=34.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 92/10000 [00:07<05:46, 28.61it/s, episode_reward=41, running_reward=34.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 96/10000 [00:07<06:43, 24.53it/s, episode_reward=41, running_reward=34.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 96/10000 [00:07<06:43, 24.53it/s, episode_reward=215, running_reward=36] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 96/10000 [00:07<06:43, 24.53it/s, episode_reward=73, running_reward=36.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 96/10000 [00:07<06:43, 24.53it/s, episode_reward=87, running_reward=36.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 99/10000 [00:07<10:12, 16.17it/s, episode_reward=87, running_reward=36.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 99/10000 [00:07<10:12, 16.17it/s, episode_reward=50, running_reward=37]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 99/10000 [00:08<10:12, 16.17it/s, episode_reward=121, running_reward=37.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 99/10000 [00:08<10:12, 16.17it/s, episode_reward=55, running_reward=37.6] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 102/10000 [00:08<10:59, 15.00it/s, episode_reward=55, running_reward=37.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 102/10000 [00:08<10:59, 15.00it/s, episode_reward=53, running_reward=37.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 102/10000 [00:08<10:59, 15.00it/s, episode_reward=114, running_reward=38.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 104/10000 [00:08<11:38, 14.17it/s, episode_reward=114, running_reward=38.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 104/10000 [00:08<11:38, 14.17it/s, episode_reward=56, running_reward=38.1] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 104/10000 [00:08<11:38, 14.17it/s, episode_reward=38, running_reward=38]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 106/10000 [00:08<10:59, 15.00it/s, episode_reward=38, running_reward=38]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 106/10000 [00:08<10:59, 15.00it/s, episode_reward=71, running_reward=38.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 106/10000 [00:08<10:59, 15.00it/s, episode_reward=291, running_reward=40.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 108/10000 [00:08<15:38, 10.54it/s, episode_reward=291, running_reward=40.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 108/10000 [00:09<15:38, 10.54it/s, episode_reward=258, running_reward=43.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 108/10000 [00:09<15:38, 10.54it/s, episode_reward=91, running_reward=43.8] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 110/10000 [00:09<19:07,  8.62it/s, episode_reward=91, running_reward=43.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 110/10000 [00:09<19:07,  8.62it/s, episode_reward=90, running_reward=44.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 110/10000 [00:09<19:07,  8.62it/s, episode_reward=412, running_reward=48.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 112/10000 [00:09<24:58,  6.60it/s, episode_reward=412, running_reward=48.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 112/10000 [00:09<24:58,  6.60it/s, episode_reward=94, running_reward=49.1] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 112/10000 [00:09<24:58,  6.60it/s, episode_reward=122, running_reward=50.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 114/10000 [00:09<23:07,  7.12it/s, episode_reward=122, running_reward=50.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 114/10000 [00:10<23:07,  7.12it/s, episode_reward=98, running_reward=50.7] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 114/10000 [00:10<23:07,  7.12it/s, episode_reward=78, running_reward=51.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 116/10000 [00:10<20:54,  7.88it/s, episode_reward=78, running_reward=51.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 116/10000 [00:10<20:54,  7.88it/s, episode_reward=116, running_reward=52.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 117/10000 [00:10<20:46,  7.93it/s, episode_reward=116, running_reward=52.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 117/10000 [00:10<20:46,  7.93it/s, episode_reward=67, running_reward=52.6] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 117/10000 [00:10<20:46,  7.93it/s, episode_reward=234, running_reward=54.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 119/10000 [00:10<22:13,  7.41it/s, episode_reward=234, running_reward=54.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 119/10000 [00:10<22:13,  7.41it/s, episode_reward=128, running_reward=54.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 120/10000 [00:10<22:06,  7.45it/s, episode_reward=128, running_reward=54.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 120/10000 [00:10<22:06,  7.45it/s, episode_reward=114, running_reward=55.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 121/10000 [00:10<21:34,  7.63it/s, episode_reward=114, running_reward=55.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 121/10000 [00:10<21:34,  7.63it/s, episode_reward=72, running_reward=56.1] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 121/10000 [00:10<21:34,  7.63it/s, episode_reward=81, running_reward=55.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 123/10000 [00:10<18:24,  8.94it/s, episode_reward=81, running_reward=55.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 123/10000 [00:10<18:24,  8.94it/s, episode_reward=40, running_reward=54.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|          | 123/10000 [00:11<18:24,  8.94it/s, episode_reward=53, running_reward=54.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 125/10000 [00:11<14:53, 11.05it/s, episode_reward=53, running_reward=54.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 125/10000 [00:11<14:53, 11.05it/s, episode_reward=57, running_reward=54.9]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 125/10000 [00:11<14:53, 11.05it/s, episode_reward=96, running_reward=55.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 127/10000 [00:11<14:37, 11.25it/s, episode_reward=96, running_reward=55.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 127/10000 [00:11<14:37, 11.25it/s, episode_reward=130, running_reward=56] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 127/10000 [00:11<14:37, 11.25it/s, episode_reward=230, running_reward=58.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 129/10000 [00:11<20:23,  8.07it/s, episode_reward=230, running_reward=58.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 129/10000 [00:11<20:23,  8.07it/s, episode_reward=165, running_reward=59.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 129/10000 [00:11<20:23,  8.07it/s, episode_reward=137, running_reward=60.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 131/10000 [00:11<22:19,  7.37it/s, episode_reward=137, running_reward=60.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 131/10000 [00:12<22:19,  7.37it/s, episode_reward=161, running_reward=61.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 132/10000 [00:12<23:20,  7.05it/s, episode_reward=161, running_reward=61.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 132/10000 [00:12<23:20,  7.05it/s, episode_reward=121, running_reward=62.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 133/10000 [00:12<23:21,  7.04it/s, episode_reward=121, running_reward=62.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 133/10000 [00:12<23:21,  7.04it/s, episode_reward=132, running_reward=63.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 134/10000 [00:12<23:24,  7.02it/s, episode_reward=132, running_reward=63.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 134/10000 [00:12<23:24,  7.02it/s, episode_reward=102, running_reward=64.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 135/10000 [00:12<22:22,  7.35it/s, episode_reward=102, running_reward=64.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 135/10000 [00:12<22:22,  7.35it/s, episode_reward=139, running_reward=65.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 136/10000 [00:12<23:33,  6.98it/s, episode_reward=139, running_reward=65.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 136/10000 [00:12<23:33,  6.98it/s, episode_reward=121, running_reward=66.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 137/10000 [00:12<23:51,  6.89it/s, episode_reward=121, running_reward=66.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 137/10000 [00:13<23:51,  6.89it/s, episode_reward=228, running_reward=68.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 138/10000 [00:13<28:49,  5.70it/s, episode_reward=228, running_reward=68.2]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 138/10000 [00:13<28:49,  5.70it/s, episode_reward=171, running_reward=69.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 139/10000 [00:13<29:01,  5.66it/s, episode_reward=171, running_reward=69.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 139/10000 [00:13<29:01,  5.66it/s, episode_reward=128, running_reward=70.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 140/10000 [00:13<27:24,  5.99it/s, episode_reward=128, running_reward=70.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 140/10000 [00:13<27:24,  5.99it/s, episode_reward=129, running_reward=71.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 141/10000 [00:13<26:35,  6.18it/s, episode_reward=129, running_reward=71.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 141/10000 [00:13<26:35,  6.18it/s, episode_reward=124, running_reward=72.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 142/10000 [00:13<25:18,  6.49it/s, episode_reward=124, running_reward=72.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 142/10000 [00:13<25:18,  6.49it/s, episode_reward=173, running_reward=74]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 143/10000 [00:13<26:41,  6.16it/s, episode_reward=173, running_reward=74]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 143/10000 [00:13<26:41,  6.16it/s, episode_reward=119, running_reward=74.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 144/10000 [00:13<24:58,  6.58it/s, episode_reward=119, running_reward=74.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 144/10000 [00:14<24:58,  6.58it/s, episode_reward=126, running_reward=75.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 145/10000 [00:14<24:12,  6.78it/s, episode_reward=126, running_reward=75.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 145/10000 [00:14<24:12,  6.78it/s, episode_reward=138, running_reward=76.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 146/10000 [00:14<24:09,  6.80it/s, episode_reward=138, running_reward=76.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 146/10000 [00:14<24:09,  6.80it/s, episode_reward=125, running_reward=77.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 147/10000 [00:14<23:22,  7.02it/s, episode_reward=125, running_reward=77.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 147/10000 [00:14<23:22,  7.02it/s, episode_reward=130, running_reward=78.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 148/10000 [00:14<23:14,  7.07it/s, episode_reward=130, running_reward=78.8]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 148/10000 [00:14<23:14,  7.07it/s, episode_reward=127, running_reward=79.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 149/10000 [00:14<22:54,  7.17it/s, episode_reward=127, running_reward=79.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  1%|▏         | 149/10000 [00:14<22:54,  7.17it/s, episode_reward=105, running_reward=80.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 150/10000 [00:14<21:47,  7.53it/s, episode_reward=105, running_reward=80.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 150/10000 [00:14<21:47,  7.53it/s, episode_reward=128, running_reward=81.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 151/10000 [00:14<22:06,  7.43it/s, episode_reward=128, running_reward=81.3]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 151/10000 [00:15<22:06,  7.43it/s, episode_reward=160, running_reward=82.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 152/10000 [00:15<23:59,  6.84it/s, episode_reward=160, running_reward=82.6]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 152/10000 [00:15<23:59,  6.84it/s, episode_reward=215, running_reward=84.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 153/10000 [00:15<28:29,  5.76it/s, episode_reward=215, running_reward=84.5]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 153/10000 [00:15<28:29,  5.76it/s, episode_reward=198, running_reward=86.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 154/10000 [00:15<30:04,  5.45it/s, episode_reward=198, running_reward=86.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 154/10000 [00:15<30:04,  5.45it/s, episode_reward=271, running_reward=88.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 155/10000 [00:15<35:19,  4.64it/s, episode_reward=271, running_reward=88.7]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 155/10000 [00:16<35:19,  4.64it/s, episode_reward=351, running_reward=92.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 156/10000 [00:16<42:43,  3.84it/s, episode_reward=351, running_reward=92.1]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 156/10000 [00:16<42:43,  3.84it/s, episode_reward=349, running_reward=95.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 157/10000 [00:16<47:03,  3.49it/s, episode_reward=349, running_reward=95.4]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 157/10000 [00:17<47:03,  3.49it/s, episode_reward=500, running_reward=100] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 158/10000 [00:17<57:02,  2.88it/s, episode_reward=500, running_reward=100]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 158/10000 [00:17<57:02,  2.88it/s, episode_reward=500, running_reward=105]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 159/10000 [00:17<1:04:20,  2.55it/s, episode_reward=500, running_reward=105]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 159/10000 [00:18<1:04:20,  2.55it/s, episode_reward=500, running_reward=110]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 160/10000 [00:18<1:10:45,  2.32it/s, episode_reward=500, running_reward=110]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 160/10000 [00:18<1:10:45,  2.32it/s, episode_reward=362, running_reward=113]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 161/10000 [00:18<1:08:58,  2.38it/s, episode_reward=362, running_reward=113]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 161/10000 [00:18<1:08:58,  2.38it/s, episode_reward=237, running_reward=115]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 162/10000 [00:18<1:00:19,  2.72it/s, episode_reward=237, running_reward=115]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 162/10000 [00:18<1:00:19,  2.72it/s, episode_reward=208, running_reward=117]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 163/10000 [00:18<53:25,  3.07it/s, episode_reward=208, running_reward=117]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 163/10000 [00:19<53:25,  3.07it/s, episode_reward=94, running_reward=118] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 164/10000 [00:19<42:29,  3.86it/s, episode_reward=94, running_reward=118]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 164/10000 [00:19<42:29,  3.86it/s, episode_reward=95, running_reward=119]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 165/10000 [00:19<34:43,  4.72it/s, episode_reward=95, running_reward=119]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 165/10000 [00:19<34:43,  4.72it/s, episode_reward=107, running_reward=119]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 166/10000 [00:19<29:47,  5.50it/s, episode_reward=107, running_reward=119]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 166/10000 [00:19<29:47,  5.50it/s, episode_reward=57, running_reward=120] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 166/10000 [00:19<29:47,  5.50it/s, episode_reward=75, running_reward=120]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 168/10000 [00:19<21:22,  7.67it/s, episode_reward=75, running_reward=120]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 168/10000 [00:19<21:22,  7.67it/s, episode_reward=93, running_reward=121]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 168/10000 [00:19<21:22,  7.67it/s, episode_reward=96, running_reward=122]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 170/10000 [00:19<19:18,  8.48it/s, episode_reward=96, running_reward=122]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 170/10000 [00:19<19:18,  8.48it/s, episode_reward=72, running_reward=122]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 170/10000 [00:19<19:18,  8.48it/s, episode_reward=40, running_reward=123]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 172/10000 [00:19<16:04, 10.19it/s, episode_reward=40, running_reward=123]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 172/10000 [00:19<16:04, 10.19it/s, episode_reward=127, running_reward=124]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 172/10000 [00:19<16:04, 10.19it/s, episode_reward=68, running_reward=124] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 174/10000 [00:19<16:18, 10.04it/s, episode_reward=68, running_reward=124]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 174/10000 [00:19<16:18, 10.04it/s, episode_reward=56, running_reward=124]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 174/10000 [00:20<16:18, 10.04it/s, episode_reward=109, running_reward=125]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 176/10000 [00:20<15:52, 10.32it/s, episode_reward=109, running_reward=125]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 176/10000 [00:20<15:52, 10.32it/s, episode_reward=85, running_reward=126] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 176/10000 [00:20<15:52, 10.32it/s, episode_reward=70, running_reward=126]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 178/10000 [00:20<15:08, 10.82it/s, episode_reward=70, running_reward=126]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 178/10000 [00:20<15:08, 10.82it/s, episode_reward=79, running_reward=127]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 178/10000 [00:20<15:08, 10.82it/s, episode_reward=35, running_reward=127]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 180/10000 [00:20<13:37, 12.01it/s, episode_reward=35, running_reward=127]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 180/10000 [00:20<13:37, 12.01it/s, episode_reward=75, running_reward=128]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 180/10000 [00:20<13:37, 12.01it/s, episode_reward=107, running_reward=128]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 182/10000 [00:20<14:21, 11.40it/s, episode_reward=107, running_reward=128]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 182/10000 [00:20<14:21, 11.40it/s, episode_reward=83, running_reward=129] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 182/10000 [00:20<14:21, 11.40it/s, episode_reward=159, running_reward=130]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 184/10000 [00:20<16:32,  9.89it/s, episode_reward=159, running_reward=130]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 184/10000 [00:20<16:32,  9.89it/s, episode_reward=66, running_reward=130] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 184/10000 [00:21<16:32,  9.89it/s, episode_reward=92, running_reward=131]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 186/10000 [00:21<15:59, 10.23it/s, episode_reward=92, running_reward=131]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 186/10000 [00:21<15:59, 10.23it/s, episode_reward=87, running_reward=132]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 186/10000 [00:21<15:59, 10.23it/s, episode_reward=34, running_reward=132]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 188/10000 [00:21<14:37, 11.18it/s, episode_reward=34, running_reward=132]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 188/10000 [00:21<14:37, 11.18it/s, episode_reward=115, running_reward=133]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 188/10000 [00:21<14:37, 11.18it/s, episode_reward=53, running_reward=133] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 190/10000 [00:21<14:50, 11.02it/s, episode_reward=53, running_reward=133]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 190/10000 [00:21<14:50, 11.02it/s, episode_reward=110, running_reward=134]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 190/10000 [00:21<14:50, 11.02it/s, episode_reward=143, running_reward=134]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 192/10000 [00:21<17:02,  9.59it/s, episode_reward=143, running_reward=134]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 192/10000 [00:21<17:02,  9.59it/s, episode_reward=103, running_reward=135]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 192/10000 [00:21<17:02,  9.59it/s, episode_reward=125, running_reward=136]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 194/10000 [00:21<17:39,  9.25it/s, episode_reward=125, running_reward=136]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 194/10000 [00:22<17:39,  9.25it/s, episode_reward=139, running_reward=137]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 195/10000 [00:22<18:54,  8.64it/s, episode_reward=139, running_reward=137]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 195/10000 [00:22<18:54,  8.64it/s, episode_reward=223, running_reward=138]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 196/10000 [00:22<23:01,  7.10it/s, episode_reward=223, running_reward=138]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 196/10000 [00:22<23:01,  7.10it/s, episode_reward=196, running_reward=138]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 197/10000 [00:22<25:35,  6.38it/s, episode_reward=196, running_reward=138]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 197/10000 [00:22<25:35,  6.38it/s, episode_reward=161, running_reward=139]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 198/10000 [00:22<26:26,  6.18it/s, episode_reward=161, running_reward=139]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 198/10000 [00:22<26:26,  6.18it/s, episode_reward=131, running_reward=140]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 199/10000 [00:22<25:43,  6.35it/s, episode_reward=131, running_reward=140]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 199/10000 [00:22<25:43,  6.35it/s, episode_reward=124, running_reward=140]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 200/10000 [00:22<24:32,  6.66it/s, episode_reward=124, running_reward=140]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 200/10000 [00:23<24:32,  6.66it/s, episode_reward=154, running_reward=141]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 201/10000 [00:23<25:23,  6.43it/s, episode_reward=154, running_reward=141]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 201/10000 [00:23<25:23,  6.43it/s, episode_reward=152, running_reward=142]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 202/10000 [00:23<25:27,  6.42it/s, episode_reward=152, running_reward=142]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 202/10000 [00:23<25:27,  6.42it/s, episode_reward=149, running_reward=142]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 203/10000 [00:23<25:25,  6.42it/s, episode_reward=149, running_reward=142]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 203/10000 [00:23<25:25,  6.42it/s, episode_reward=151, running_reward=143]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 204/10000 [00:23<25:40,  6.36it/s, episode_reward=151, running_reward=143]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 204/10000 [00:23<25:40,  6.36it/s, episode_reward=174, running_reward=144]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 205/10000 [00:23<26:41,  6.12it/s, episode_reward=174, running_reward=144]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 205/10000 [00:23<26:41,  6.12it/s, episode_reward=253, running_reward=146]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 206/10000 [00:23<31:00,  5.26it/s, episode_reward=253, running_reward=146]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 206/10000 [00:24<31:00,  5.26it/s, episode_reward=150, running_reward=147]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 207/10000 [00:24<29:10,  5.59it/s, episode_reward=150, running_reward=147]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 207/10000 [00:24<29:10,  5.59it/s, episode_reward=231, running_reward=146]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 208/10000 [00:24<31:47,  5.13it/s, episode_reward=231, running_reward=146]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 208/10000 [00:24<31:47,  5.13it/s, episode_reward=157, running_reward=145]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 209/10000 [00:24<30:07,  5.42it/s, episode_reward=157, running_reward=145]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 209/10000 [00:24<30:07,  5.42it/s, episode_reward=93, running_reward=145] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 209/10000 [00:24<30:07,  5.42it/s, episode_reward=356, running_reward=148]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 211/10000 [00:24<33:04,  4.93it/s, episode_reward=356, running_reward=148]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 211/10000 [00:25<33:04,  4.93it/s, episode_reward=393, running_reward=148]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 212/10000 [00:25<40:39,  4.01it/s, episode_reward=393, running_reward=148]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 212/10000 [00:25<40:39,  4.01it/s, episode_reward=500, running_reward=152]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 213/10000 [00:25<50:59,  3.20it/s, episode_reward=500, running_reward=152]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 213/10000 [00:26<50:59,  3.20it/s, episode_reward=500, running_reward=156]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 214/10000 [00:26<59:55,  2.72it/s, episode_reward=500, running_reward=156]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 214/10000 [00:26<59:55,  2.72it/s, episode_reward=500, running_reward=160]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 215/10000 [00:26<1:06:17,  2.46it/s, episode_reward=500, running_reward=160]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 215/10000 [00:27<1:06:17,  2.46it/s, episode_reward=500, running_reward=164]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 216/10000 [00:27<1:12:02,  2.26it/s, episode_reward=500, running_reward=164]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 216/10000 [00:27<1:12:02,  2.26it/s, episode_reward=447, running_reward=167]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 217/10000 [00:27<1:12:41,  2.24it/s, episode_reward=447, running_reward=167]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 217/10000 [00:28<1:12:41,  2.24it/s, episode_reward=500, running_reward=172]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 218/10000 [00:28<1:17:00,  2.12it/s, episode_reward=500, running_reward=172]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 218/10000 [00:28<1:17:00,  2.12it/s, episode_reward=500, running_reward=174]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 219/10000 [00:28<1:18:01,  2.09it/s, episode_reward=500, running_reward=174]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 219/10000 [00:29<1:18:01,  2.09it/s, episode_reward=500, running_reward=178]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 220/10000 [00:29<1:18:43,  2.07it/s, episode_reward=500, running_reward=178]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 220/10000 [00:29<1:18:43,  2.07it/s, episode_reward=500, running_reward=182]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 221/10000 [00:29<1:19:21,  2.05it/s, episode_reward=500, running_reward=182]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 221/10000 [00:30<1:19:21,  2.05it/s, episode_reward=500, running_reward=186]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 222/10000 [00:30<1:19:40,  2.05it/s, episode_reward=500, running_reward=186]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 222/10000 [00:30<1:19:40,  2.05it/s, episode_reward=500, running_reward=190]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 223/10000 [00:30<1:19:57,  2.04it/s, episode_reward=500, running_reward=190]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 223/10000 [00:31<1:19:57,  2.04it/s, episode_reward=500, running_reward=195]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 224/10000 [00:31<1:19:56,  2.04it/s, episode_reward=500, running_reward=195]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 224/10000 [00:31<1:19:56,  2.04it/s, episode_reward=500, running_reward=199]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 225/10000 [00:31<1:21:02,  2.01it/s, episode_reward=500, running_reward=199]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 225/10000 [00:32<1:21:02,  2.01it/s, episode_reward=500, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 226/10000 [00:32<1:21:32,  2.00it/s, episode_reward=500, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 226/10000 [00:32<1:21:32,  2.00it/s, episode_reward=376, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 227/10000 [00:32<1:15:21,  2.16it/s, episode_reward=376, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 227/10000 [00:33<1:15:21,  2.16it/s, episode_reward=214, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 228/10000 [00:33<1:04:08,  2.54it/s, episode_reward=214, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 228/10000 [00:33<1:04:08,  2.54it/s, episode_reward=238, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 229/10000 [00:33<56:35,  2.88it/s, episode_reward=238, running_reward=208]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 229/10000 [00:33<56:35,  2.88it/s, episode_reward=203, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 230/10000 [00:33<49:32,  3.29it/s, episode_reward=203, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 230/10000 [00:33<49:32,  3.29it/s, episode_reward=193, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 231/10000 [00:33<44:14,  3.68it/s, episode_reward=193, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 231/10000 [00:33<44:14,  3.68it/s, episode_reward=173, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 232/10000 [00:33<39:43,  4.10it/s, episode_reward=173, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 232/10000 [00:33<39:43,  4.10it/s, episode_reward=161, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 233/10000 [00:33<36:01,  4.52it/s, episode_reward=161, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 233/10000 [00:34<36:01,  4.52it/s, episode_reward=177, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 234/10000 [00:34<34:04,  4.78it/s, episode_reward=177, running_reward=209]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 234/10000 [00:34<34:04,  4.78it/s, episode_reward=172, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 235/10000 [00:34<32:43,  4.97it/s, episode_reward=172, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 235/10000 [00:34<32:43,  4.97it/s, episode_reward=151, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 236/10000 [00:34<30:34,  5.32it/s, episode_reward=151, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 236/10000 [00:34<30:34,  5.32it/s, episode_reward=152, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 237/10000 [00:34<28:55,  5.63it/s, episode_reward=152, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 237/10000 [00:34<28:55,  5.63it/s, episode_reward=175, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 238/10000 [00:34<28:43,  5.66it/s, episode_reward=175, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 238/10000 [00:34<28:43,  5.66it/s, episode_reward=134, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 239/10000 [00:34<26:46,  6.08it/s, episode_reward=134, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 239/10000 [00:35<26:46,  6.08it/s, episode_reward=159, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 240/10000 [00:35<27:07,  6.00it/s, episode_reward=159, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 240/10000 [00:35<27:07,  6.00it/s, episode_reward=142, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 241/10000 [00:35<26:46,  6.08it/s, episode_reward=142, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 241/10000 [00:35<26:46,  6.08it/s, episode_reward=125, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 242/10000 [00:35<25:24,  6.40it/s, episode_reward=125, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 242/10000 [00:35<25:24,  6.40it/s, episode_reward=153, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 243/10000 [00:35<25:41,  6.33it/s, episode_reward=153, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 243/10000 [00:35<25:41,  6.33it/s, episode_reward=134, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 244/10000 [00:35<24:47,  6.56it/s, episode_reward=134, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 244/10000 [00:35<24:47,  6.56it/s, episode_reward=166, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 245/10000 [00:35<25:28,  6.38it/s, episode_reward=166, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 245/10000 [00:36<25:28,  6.38it/s, episode_reward=163, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 246/10000 [00:36<26:03,  6.24it/s, episode_reward=163, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 246/10000 [00:36<26:03,  6.24it/s, episode_reward=174, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 247/10000 [00:36<27:13,  5.97it/s, episode_reward=174, running_reward=211]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 247/10000 [00:36<27:13,  5.97it/s, episode_reward=193, running_reward=212]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 248/10000 [00:36<28:48,  5.64it/s, episode_reward=193, running_reward=212]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 248/10000 [00:36<28:48,  5.64it/s, episode_reward=247, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 249/10000 [00:36<33:08,  4.90it/s, episode_reward=247, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▏         | 249/10000 [00:36<33:08,  4.90it/s, episode_reward=228, running_reward=214]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▎         | 250/10000 [00:36<35:36,  4.56it/s, episode_reward=228, running_reward=214]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  2%|▎         | 250/10000 [00:37<35:36,  4.56it/s, episode_reward=328, running_reward=216]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 251/10000 [00:37<42:38,  3.81it/s, episode_reward=328, running_reward=216]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 251/10000 [00:37<42:38,  3.81it/s, episode_reward=212, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 252/10000 [00:37<41:38,  3.90it/s, episode_reward=212, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 252/10000 [00:37<41:38,  3.90it/s, episode_reward=233, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 253/10000 [00:37<41:47,  3.89it/s, episode_reward=233, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 253/10000 [00:38<41:47,  3.89it/s, episode_reward=216, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 254/10000 [00:38<40:56,  3.97it/s, episode_reward=216, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 254/10000 [00:38<40:56,  3.97it/s, episode_reward=192, running_reward=216]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 255/10000 [00:38<38:13,  4.25it/s, episode_reward=192, running_reward=216]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 255/10000 [00:38<38:13,  4.25it/s, episode_reward=183, running_reward=215]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 256/10000 [00:38<36:03,  4.50it/s, episode_reward=183, running_reward=215]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 256/10000 [00:38<36:03,  4.50it/s, episode_reward=208, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 257/10000 [00:38<36:19,  4.47it/s, episode_reward=208, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 257/10000 [00:38<36:19,  4.47it/s, episode_reward=203, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 258/10000 [00:38<36:07,  4.49it/s, episode_reward=203, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 258/10000 [00:39<36:07,  4.49it/s, episode_reward=188, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 259/10000 [00:39<35:27,  4.58it/s, episode_reward=188, running_reward=207]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 259/10000 [00:39<35:27,  4.58it/s, episode_reward=184, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 260/10000 [00:39<34:38,  4.69it/s, episode_reward=184, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 260/10000 [00:39<34:38,  4.69it/s, episode_reward=185, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 261/10000 [00:39<33:58,  4.78it/s, episode_reward=185, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 261/10000 [00:39<33:58,  4.78it/s, episode_reward=192, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 262/10000 [00:39<33:34,  4.83it/s, episode_reward=192, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 262/10000 [00:39<33:34,  4.83it/s, episode_reward=183, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 263/10000 [00:39<32:50,  4.94it/s, episode_reward=183, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 263/10000 [00:40<32:50,  4.94it/s, episode_reward=133, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 264/10000 [00:40<30:18,  5.35it/s, episode_reward=133, running_reward=202]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 264/10000 [00:40<30:18,  5.35it/s, episode_reward=242, running_reward=203]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 265/10000 [00:40<34:00,  4.77it/s, episode_reward=242, running_reward=203]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 265/10000 [00:40<34:00,  4.77it/s, episode_reward=208, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 266/10000 [00:40<34:13,  4.74it/s, episode_reward=208, running_reward=204]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 266/10000 [00:40<34:13,  4.74it/s, episode_reward=258, running_reward=206]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 267/10000 [00:40<36:50,  4.40it/s, episode_reward=258, running_reward=206]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 267/10000 [00:41<36:50,  4.40it/s, episode_reward=249, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 268/10000 [00:41<38:15,  4.24it/s, episode_reward=249, running_reward=208]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 268/10000 [00:41<38:15,  4.24it/s, episode_reward=277, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 269/10000 [00:41<40:41,  3.99it/s, episode_reward=277, running_reward=210]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 269/10000 [00:41<40:41,  3.99it/s, episode_reward=391, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 270/10000 [00:41<47:55,  3.38it/s, episode_reward=391, running_reward=213]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 270/10000 [00:42<47:55,  3.38it/s, episode_reward=500, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 271/10000 [00:42<59:32,  2.72it/s, episode_reward=500, running_reward=217]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 271/10000 [00:42<59:32,  2.72it/s, episode_reward=500, running_reward=222]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 272/10000 [00:42<1:06:55,  2.42it/s, episode_reward=500, running_reward=222]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 272/10000 [00:43<1:06:55,  2.42it/s, episode_reward=500, running_reward=226]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 273/10000 [00:43<1:12:46,  2.23it/s, episode_reward=500, running_reward=226]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 273/10000 [00:43<1:12:46,  2.23it/s, episode_reward=500, running_reward=230]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 274/10000 [00:43<1:15:32,  2.15it/s, episode_reward=500, running_reward=230]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 274/10000 [00:44<1:15:32,  2.15it/s, episode_reward=266, running_reward=232]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 275/10000 [00:44<1:06:43,  2.43it/s, episode_reward=266, running_reward=232]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 275/10000 [00:44<1:06:43,  2.43it/s, episode_reward=500, running_reward=236]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 276/10000 [00:44<1:11:37,  2.26it/s, episode_reward=500, running_reward=236]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 276/10000 [00:45<1:11:37,  2.26it/s, episode_reward=500, running_reward=240]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 277/10000 [00:45<1:16:00,  2.13it/s, episode_reward=500, running_reward=240]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 277/10000 [00:45<1:16:00,  2.13it/s, episode_reward=500, running_reward=244]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 278/10000 [00:45<1:20:44,  2.01it/s, episode_reward=500, running_reward=244]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 278/10000 [00:46<1:20:44,  2.01it/s, episode_reward=500, running_reward=249]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 279/10000 [00:46<1:23:19,  1.94it/s, episode_reward=500, running_reward=249]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 279/10000 [00:46<1:23:19,  1.94it/s, episode_reward=500, running_reward=253]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 280/10000 [00:46<1:25:34,  1.89it/s, episode_reward=500, running_reward=253]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 280/10000 [00:47<1:25:34,  1.89it/s, episode_reward=500, running_reward=257]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 281/10000 [00:47<1:26:36,  1.87it/s, episode_reward=500, running_reward=257]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 281/10000 [00:47<1:26:36,  1.87it/s, episode_reward=500, running_reward=261]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 282/10000 [00:47<1:25:28,  1.89it/s, episode_reward=500, running_reward=261]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 282/10000 [00:48<1:25:28,  1.89it/s, episode_reward=500, running_reward=266]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 283/10000 [00:48<1:25:05,  1.90it/s, episode_reward=500, running_reward=266]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 283/10000 [00:48<1:25:05,  1.90it/s, episode_reward=500, running_reward=269]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 284/10000 [00:48<1:24:43,  1.91it/s, episode_reward=500, running_reward=269]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 284/10000 [00:49<1:24:43,  1.91it/s, episode_reward=500, running_reward=273]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 285/10000 [00:49<1:23:46,  1.93it/s, episode_reward=500, running_reward=273]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 285/10000 [00:49<1:23:46,  1.93it/s, episode_reward=211, running_reward=274]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 286/10000 [00:49<1:08:50,  2.35it/s, episode_reward=211, running_reward=274]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 286/10000 [00:50<1:08:50,  2.35it/s, episode_reward=500, running_reward=279]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 287/10000 [00:50<1:12:33,  2.23it/s, episode_reward=500, running_reward=279]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 287/10000 [00:50<1:12:33,  2.23it/s, episode_reward=500, running_reward=283]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 288/10000 [00:50<1:14:55,  2.16it/s, episode_reward=500, running_reward=283]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 288/10000 [00:51<1:14:55,  2.16it/s, episode_reward=500, running_reward=287]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 289/10000 [00:51<1:16:35,  2.11it/s, episode_reward=500, running_reward=287]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 289/10000 [00:51<1:16:35,  2.11it/s, episode_reward=202, running_reward=289]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 290/10000 [00:51<1:03:32,  2.55it/s, episode_reward=202, running_reward=289]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 290/10000 [00:51<1:03:32,  2.55it/s, episode_reward=271, running_reward=290]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 291/10000 [00:51<57:49,  2.80it/s, episode_reward=271, running_reward=290]  "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 291/10000 [00:52<57:49,  2.80it/s, episode_reward=413, running_reward=293]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 292/10000 [00:52<1:00:14,  2.69it/s, episode_reward=413, running_reward=293]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 292/10000 [00:52<1:00:14,  2.69it/s, episode_reward=500, running_reward=297]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 293/10000 [00:52<1:06:12,  2.44it/s, episode_reward=500, running_reward=297]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 293/10000 [00:53<1:06:12,  2.44it/s, episode_reward=500, running_reward=301]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 294/10000 [00:53<1:10:37,  2.29it/s, episode_reward=500, running_reward=301]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 294/10000 [00:53<1:10:37,  2.29it/s, episode_reward=500, running_reward=304]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 295/10000 [00:53<1:13:42,  2.19it/s, episode_reward=500, running_reward=304]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 295/10000 [00:54<1:13:42,  2.19it/s, episode_reward=500, running_reward=307]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 296/10000 [00:54<1:15:58,  2.13it/s, episode_reward=500, running_reward=307]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 296/10000 [00:54<1:15:58,  2.13it/s, episode_reward=500, running_reward=310]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 297/10000 [00:54<1:17:14,  2.09it/s, episode_reward=500, running_reward=310]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 297/10000 [00:55<1:17:14,  2.09it/s, episode_reward=500, running_reward=313]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 298/10000 [00:55<1:19:36,  2.03it/s, episode_reward=500, running_reward=313]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 298/10000 [00:55<1:19:36,  2.03it/s, episode_reward=318, running_reward=315]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 299/10000 [00:55<1:13:18,  2.21it/s, episode_reward=318, running_reward=315]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 299/10000 [00:56<1:13:18,  2.21it/s, episode_reward=500, running_reward=319]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 300/10000 [00:56<1:18:39,  2.06it/s, episode_reward=500, running_reward=319]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 300/10000 [00:56<1:18:39,  2.06it/s, episode_reward=500, running_reward=323]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 301/10000 [00:56<1:21:36,  1.98it/s, episode_reward=500, running_reward=323]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 301/10000 [00:57<1:21:36,  1.98it/s, episode_reward=500, running_reward=326]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 302/10000 [00:57<1:20:58,  2.00it/s, episode_reward=500, running_reward=326]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 302/10000 [00:57<1:20:58,  2.00it/s, episode_reward=457, running_reward=329]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 303/10000 [00:57<1:18:36,  2.06it/s, episode_reward=457, running_reward=329]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 303/10000 [00:57<1:18:36,  2.06it/s, episode_reward=500, running_reward=333]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 304/10000 [00:57<1:19:03,  2.04it/s, episode_reward=500, running_reward=333]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 304/10000 [00:58<1:19:03,  2.04it/s, episode_reward=26, running_reward=331] "
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 304/10000 [00:58<1:19:03,  2.04it/s, episode_reward=500, running_reward=334]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 306/10000 [00:58<1:02:14,  2.60it/s, episode_reward=500, running_reward=334]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 306/10000 [00:58<1:02:14,  2.60it/s, episode_reward=365, running_reward=336]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 307/10000 [00:58<1:01:17,  2.64it/s, episode_reward=365, running_reward=336]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 307/10000 [00:59<1:01:17,  2.64it/s, episode_reward=500, running_reward=338]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 308/10000 [00:59<1:06:16,  2.44it/s, episode_reward=500, running_reward=338]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 308/10000 [00:59<1:06:16,  2.44it/s, episode_reward=500, running_reward=342]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 309/10000 [00:59<1:09:39,  2.32it/s, episode_reward=500, running_reward=342]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 309/10000 [01:00<1:09:39,  2.32it/s, episode_reward=500, running_reward=346]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 310/10000 [01:00<1:12:26,  2.23it/s, episode_reward=500, running_reward=346]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 310/10000 [01:00<1:12:26,  2.23it/s, episode_reward=500, running_reward=347]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 311/10000 [01:00<1:14:29,  2.17it/s, episode_reward=500, running_reward=347]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 311/10000 [01:01<1:14:29,  2.17it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 312/10000 [01:01<1:15:48,  2.13it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 312/10000 [01:01<1:15:48,  2.13it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 313/10000 [01:01<1:16:56,  2.10it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 313/10000 [01:02<1:16:56,  2.10it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 314/10000 [01:02<1:17:31,  2.08it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 314/10000 [01:02<1:17:31,  2.08it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 315/10000 [01:02<1:18:07,  2.07it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 315/10000 [01:03<1:18:07,  2.07it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 316/10000 [01:03<1:20:00,  2.02it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 316/10000 [01:03<1:20:00,  2.02it/s, episode_reward=407, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 317/10000 [01:03<1:16:48,  2.10it/s, episode_reward=407, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 317/10000 [01:04<1:16:48,  2.10it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 318/10000 [01:04<1:19:25,  2.03it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 318/10000 [01:04<1:19:25,  2.03it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 319/10000 [01:04<1:21:28,  1.98it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 319/10000 [01:05<1:21:28,  1.98it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 320/10000 [01:05<1:21:22,  1.98it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 320/10000 [01:05<1:21:22,  1.98it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 321/10000 [01:05<1:21:00,  1.99it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 321/10000 [01:06<1:21:00,  1.99it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 322/10000 [01:06<1:21:09,  1.99it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 322/10000 [01:06<1:21:09,  1.99it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 323/10000 [01:06<1:21:53,  1.97it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 323/10000 [01:07<1:21:53,  1.97it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 324/10000 [01:07<1:23:47,  1.92it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 324/10000 [01:07<1:23:47,  1.92it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 325/10000 [01:07<1:24:50,  1.90it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 325/10000 [01:08<1:24:50,  1.90it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 326/10000 [01:08<1:26:04,  1.87it/s, episode_reward=500, running_reward=348]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 326/10000 [01:08<1:26:04,  1.87it/s, episode_reward=500, running_reward=349]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 327/10000 [01:08<1:24:06,  1.92it/s, episode_reward=500, running_reward=349]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 327/10000 [01:09<1:24:06,  1.92it/s, episode_reward=500, running_reward=352]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 328/10000 [01:09<1:22:41,  1.95it/s, episode_reward=500, running_reward=352]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 328/10000 [01:09<1:22:41,  1.95it/s, episode_reward=500, running_reward=355]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 329/10000 [01:09<1:21:48,  1.97it/s, episode_reward=500, running_reward=355]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 329/10000 [01:10<1:21:48,  1.97it/s, episode_reward=500, running_reward=358]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 330/10000 [01:10<1:22:20,  1.96it/s, episode_reward=500, running_reward=358]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 330/10000 [01:11<1:22:20,  1.96it/s, episode_reward=500, running_reward=361]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 331/10000 [01:11<1:22:28,  1.95it/s, episode_reward=500, running_reward=361]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 331/10000 [01:11<1:22:28,  1.95it/s, episode_reward=500, running_reward=364]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 332/10000 [01:11<1:22:18,  1.96it/s, episode_reward=500, running_reward=364]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 332/10000 [01:12<1:22:18,  1.96it/s, episode_reward=500, running_reward=367]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 333/10000 [01:12<1:22:16,  1.96it/s, episode_reward=500, running_reward=367]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 333/10000 [01:12<1:22:16,  1.96it/s, episode_reward=500, running_reward=371]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 334/10000 [01:12<1:23:32,  1.93it/s, episode_reward=500, running_reward=371]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 334/10000 [01:13<1:23:32,  1.93it/s, episode_reward=500, running_reward=374]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 335/10000 [01:13<1:23:33,  1.93it/s, episode_reward=500, running_reward=374]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 335/10000 [01:13<1:23:33,  1.93it/s, episode_reward=500, running_reward=377]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 336/10000 [01:13<1:22:50,  1.94it/s, episode_reward=500, running_reward=377]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 336/10000 [01:14<1:22:50,  1.94it/s, episode_reward=500, running_reward=381]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 337/10000 [01:14<1:22:32,  1.95it/s, episode_reward=500, running_reward=381]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 337/10000 [01:14<1:22:32,  1.95it/s, episode_reward=500, running_reward=384]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 338/10000 [01:14<1:22:07,  1.96it/s, episode_reward=500, running_reward=384]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 338/10000 [01:15<1:22:07,  1.96it/s, episode_reward=500, running_reward=388]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 339/10000 [01:15<1:21:50,  1.97it/s, episode_reward=500, running_reward=388]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 339/10000 [01:15<1:21:50,  1.97it/s, episode_reward=500, running_reward=391]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 340/10000 [01:15<1:21:32,  1.97it/s, episode_reward=500, running_reward=391]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 340/10000 [01:16<1:21:32,  1.97it/s, episode_reward=500, running_reward=395]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 341/10000 [01:16<1:21:03,  1.99it/s, episode_reward=500, running_reward=395]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 341/10000 [01:16<1:21:03,  1.99it/s, episode_reward=500, running_reward=399]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 342/10000 [01:16<1:20:57,  1.99it/s, episode_reward=500, running_reward=399]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 342/10000 [01:17<1:20:57,  1.99it/s, episode_reward=500, running_reward=402]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 343/10000 [01:17<1:22:22,  1.95it/s, episode_reward=500, running_reward=402]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 343/10000 [01:17<1:22:22,  1.95it/s, episode_reward=500, running_reward=406]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 344/10000 [01:17<1:23:04,  1.94it/s, episode_reward=500, running_reward=406]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 344/10000 [01:18<1:23:04,  1.94it/s, episode_reward=500, running_reward=409]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 345/10000 [01:18<1:24:56,  1.89it/s, episode_reward=500, running_reward=409]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 345/10000 [01:18<1:24:56,  1.89it/s, episode_reward=500, running_reward=412]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 346/10000 [01:18<1:26:05,  1.87it/s, episode_reward=500, running_reward=412]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 346/10000 [01:19<1:26:05,  1.87it/s, episode_reward=500, running_reward=416]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 347/10000 [01:19<1:25:12,  1.89it/s, episode_reward=500, running_reward=416]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 347/10000 [01:19<1:25:12,  1.89it/s, episode_reward=500, running_reward=419]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 348/10000 [01:19<1:24:44,  1.90it/s, episode_reward=500, running_reward=419]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 348/10000 [01:20<1:24:44,  1.90it/s, episode_reward=500, running_reward=421]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 349/10000 [01:20<1:24:09,  1.91it/s, episode_reward=500, running_reward=421]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  3%|▎         | 349/10000 [01:20<1:24:09,  1.91it/s, episode_reward=500, running_reward=424]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 350/10000 [01:20<1:22:53,  1.94it/s, episode_reward=500, running_reward=424]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 350/10000 [01:21<1:22:53,  1.94it/s, episode_reward=500, running_reward=426]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 351/10000 [01:21<1:24:03,  1.91it/s, episode_reward=500, running_reward=426]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 351/10000 [01:21<1:24:03,  1.91it/s, episode_reward=500, running_reward=429]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 352/10000 [01:21<1:23:27,  1.93it/s, episode_reward=500, running_reward=429]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 352/10000 [01:22<1:23:27,  1.93it/s, episode_reward=500, running_reward=431]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 353/10000 [01:22<1:23:02,  1.94it/s, episode_reward=500, running_reward=431]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 353/10000 [01:22<1:23:02,  1.94it/s, episode_reward=500, running_reward=434]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 354/10000 [01:22<1:21:56,  1.96it/s, episode_reward=500, running_reward=434]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 354/10000 [01:23<1:21:56,  1.96it/s, episode_reward=500, running_reward=437]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 355/10000 [01:23<1:21:14,  1.98it/s, episode_reward=500, running_reward=437]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 355/10000 [01:23<1:21:14,  1.98it/s, episode_reward=500, running_reward=440]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 356/10000 [01:23<1:20:56,  1.99it/s, episode_reward=500, running_reward=440]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 356/10000 [01:24<1:20:56,  1.99it/s, episode_reward=500, running_reward=443]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 357/10000 [01:24<1:20:26,  2.00it/s, episode_reward=500, running_reward=443]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 357/10000 [01:24<1:20:26,  2.00it/s, episode_reward=500, running_reward=446]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 358/10000 [01:24<1:20:20,  2.00it/s, episode_reward=500, running_reward=446]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 358/10000 [01:25<1:20:20,  2.00it/s, episode_reward=500, running_reward=449]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 359/10000 [01:25<1:20:29,  2.00it/s, episode_reward=500, running_reward=449]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 359/10000 [01:25<1:20:29,  2.00it/s, episode_reward=500, running_reward=453]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 360/10000 [01:25<1:21:37,  1.97it/s, episode_reward=500, running_reward=453]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 360/10000 [01:26<1:21:37,  1.97it/s, episode_reward=500, running_reward=456]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 361/10000 [01:26<1:23:29,  1.92it/s, episode_reward=500, running_reward=456]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 361/10000 [01:26<1:23:29,  1.92it/s, episode_reward=500, running_reward=459]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 362/10000 [01:26<1:24:51,  1.89it/s, episode_reward=500, running_reward=459]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 362/10000 [01:27<1:24:51,  1.89it/s, episode_reward=500, running_reward=462]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 363/10000 [01:27<1:24:37,  1.90it/s, episode_reward=500, running_reward=462]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 363/10000 [01:28<1:24:37,  1.90it/s, episode_reward=500, running_reward=466]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 364/10000 [01:28<1:26:07,  1.86it/s, episode_reward=500, running_reward=466]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 364/10000 [01:28<1:26:07,  1.86it/s, episode_reward=500, running_reward=468]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 365/10000 [01:28<1:26:44,  1.85it/s, episode_reward=500, running_reward=468]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 365/10000 [01:29<1:26:44,  1.85it/s, episode_reward=500, running_reward=471]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 366/10000 [01:29<1:27:22,  1.84it/s, episode_reward=500, running_reward=471]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 366/10000 [01:29<1:27:22,  1.84it/s, episode_reward=500, running_reward=474]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 367/10000 [01:29<1:27:38,  1.83it/s, episode_reward=500, running_reward=474]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 367/10000 [01:30<1:27:38,  1.83it/s, episode_reward=500, running_reward=476]"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\r",
      "  4%|▎         | 367/10000 [01:30<39:29,  4.07it/s, episode_reward=500, running_reward=476]  "
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "Solved at episode 367: average reward: 476.04!\n",
      "CPU times: user 3min 8s, sys: 32 s, total: 3min 40s\n",
      "Wall time: 1min 30s\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "\n"
     ]
    }
   ],
   "source": [
    "%%time\n",
    "\n",
    "min_episodes_criterion = 100\n",
    "max_episodes = 10000\n",
    "max_steps_per_episode = 500\n",
    "\n",
    "# `CartPole-v1` is considered solved if average reward is >= 475 over 500 \n",
    "# consecutive trials\n",
    "reward_threshold = 475\n",
    "running_reward = 0\n",
    "\n",
    "# The discount factor for future rewards\n",
    "gamma = 0.99\n",
    "\n",
    "# Keep the last episodes reward\n",
    "episodes_reward: collections.deque = collections.deque(maxlen=min_episodes_criterion)\n",
    "\n",
    "t = tqdm.trange(max_episodes)\n",
    "for i in t:\n",
    "    initial_state, info = env.reset()\n",
    "    initial_state = tf.constant(initial_state, dtype=tf.float32)\n",
    "    episode_reward = int(train_step(\n",
    "        initial_state, model, optimizer, gamma, max_steps_per_episode))\n",
    "    \n",
    "    episodes_reward.append(episode_reward)\n",
    "    running_reward = statistics.mean(episodes_reward)\n",
    "  \n",
    "\n",
    "    t.set_postfix(\n",
    "        episode_reward=episode_reward, running_reward=running_reward)\n",
    "  \n",
    "    # Show the average episode reward every 10 episodes\n",
    "    if i % 10 == 0:\n",
    "      pass # print(f'Episode {i}: average reward: {avg_reward}')\n",
    "  \n",
    "    if running_reward > reward_threshold and i >= min_episodes_criterion:  \n",
    "        break\n",
    "\n",
    "print(f'\\nSolved at episode {i}: average reward: {running_reward:.2f}!')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "ru8BEwS1EmAv"
   },
   "source": [
    "## 可視化\n",
    "\n",
    "トレーニングが終わったら、モデルが環境でどのように実行するかを可視化すると良いでしょう。以下のセルを実行すると、モデルの 1 エピソードの実行を視覚化する GIF アニメーションを生成することができます。Colab で環境の画像を正しくレンダリングするには、Gym の追加パッケージをインストールする必要があることに注意してください。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:26:38.150318Z",
     "iopub.status.busy": "2024-01-11T20:26:38.150066Z",
     "iopub.status.idle": "2024-01-11T20:26:40.833324Z",
     "shell.execute_reply": "2024-01-11T20:26:40.832562Z"
    },
    "id": "qbIMMkfmRHyC"
   },
   "outputs": [],
   "source": [
    "# Render an episode and save as a GIF file\n",
    "\n",
    "from IPython import display as ipythondisplay\n",
    "from PIL import Image\n",
    "\n",
    "render_env = gym.make(\"CartPole-v1\", render_mode='rgb_array')\n",
    "\n",
    "def render_episode(env: gym.Env, model: tf.keras.Model, max_steps: int): \n",
    "  state, info = env.reset()\n",
    "  state = tf.constant(state, dtype=tf.float32)\n",
    "  screen = env.render()\n",
    "  images = [Image.fromarray(screen)]\n",
    " \n",
    "  for i in range(1, max_steps + 1):\n",
    "    state = tf.expand_dims(state, 0)\n",
    "    action_probs, _ = model(state)\n",
    "    action = np.argmax(np.squeeze(action_probs))\n",
    "\n",
    "    state, reward, done, truncated, info = env.step(action)\n",
    "    state = tf.constant(state, dtype=tf.float32)\n",
    "\n",
    "    # Render screen every 10 steps\n",
    "    if i % 10 == 0:\n",
    "      screen = env.render()\n",
    "      images.append(Image.fromarray(screen))\n",
    "  \n",
    "    if done:\n",
    "      break\n",
    "  \n",
    "  return images\n",
    "\n",
    "\n",
    "# Save GIF image\n",
    "images = render_episode(render_env, model, max_steps_per_episode)\n",
    "image_file = 'cartpole-v1.gif'\n",
    "# loop=0: loop forever, duration=1: play each frame for 1ms\n",
    "images[0].save(\n",
    "    image_file, save_all=True, append_images=images[1:], loop=0, duration=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {
    "execution": {
     "iopub.execute_input": "2024-01-11T20:26:40.837323Z",
     "iopub.status.busy": "2024-01-11T20:26:40.837026Z",
     "iopub.status.idle": "2024-01-11T20:26:40.846810Z",
     "shell.execute_reply": "2024-01-11T20:26:40.846217Z"
    },
    "id": "TLd720SejKmf"
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<img src=\"data:image/gif;base64,R0lGODlhWAKQAYYAAP////7+/v79/f38+/38+v37+fz6+Pz59/v49fv49Pv38/r28vr18fn07/n07vjz7fjy7Pjx6/fw6ffw6Pfv6Pbv5/bu5vbu5fXt5PXs4/Xr4vTq4PTq3/Pp3vPo3fLn3PLm2vLm2fHl2PHk1/Dj1vDi1PDi0+/h0u/g0e7f0O7ezu7eze3dze3dzO3cy+zbyuzbyezayOvZx+vYxerXxOrXw+rWwunVwenUv+jTvujTvejSvOfRu+fQuebPuObPt+XOtuXNteXMs+TMs8qYZZ6MoYiGwIGEyxMOCRINCRAMCA4LBw0KBgsIBQIBAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACH/C05FVFNDQVBFMi4wAwEAAAAsAAAAAFgCkAEACP8AAQgcSLCgwYMIEypcyLChw4cQI0qcSLGixYsYM2rcyLGjx48gQ4ocSbKkyZMoU6pcybKly5cwY8qcSbOmzZs4c+rcybOnz59AgwodSrSo0aNIkypdyrSp06dQo0qdSrWq1atYs2rdyrWr169gw4odS7as2bNo06pdy7at27dw48qdS7eu3bt48+rdy7ev37+AAwseTLiw4cOIEytezLix48eQI0ueTLmy5cuYM2vezLmz58+gQ4seTbq06dOoU6tezbq169ewY8ueTbu27du4c+vezbu379/AgwsfTry48ePIkytfzry58+fQo0ufTr269evYs2vfzr279+/gw4v/H0++vPnz6NOrX8++vfv38OPLn0+/vv37+PPr38+/v///AAYo4IAEFmjggQgmqOCCDDbo4IMQRijhhBRWaOGFGGao4YYcdujhhyCGKOKIJJZo4okopqjiiiy26OKLMMYo44w01mjjjTjmqOOOPPbo449ABinkkEQWaeSRSCap5JJMNunkk1BGKeWUVFZp5ZVYZqnlllx26eWXYIYp5phklmnmmWimqeaabLbp5ptwxinnnHTWaeedeOap55589unnn4AGKuighBZq6KGIJqrooow26uijkEYq6aSUVmrppZhmqummnHbq6aeghirqqKSWauqpqKaq6qqsturqq7DG/yrrrLTWauutuOaq66689urrr8AGK+ywxBZrrHVEJKvsskQcaxiz0AbgLGHQMivAtINVu+wA2AqmrbIEdBvYt8kWIC5g5BJhwLl/pXsAu36liwC8faWbAL18pasAvnuluwC/eqXLAMB5pdsAwXil6wDCd6X7AMN2pQsBxHWlGwHFdKUrAcZzpUsBx3KlawHIcaV7AclwpYsBym+lmwHLbqWrAcxtpbsBzWylywHOa6XbAc9qpesB0Gml+wHRaKULAtJnpRsC02alKwLUZaU7AtVkpUsC1mOlWwLXYqVrAthhpXsC2WCliwLaX6WbAttepasC3F2lywLdXKXrAt5bpf/7At9apQsD4FmlGwPhWKUrA+JXpTsD41alSwPkVaVbA+VUpWsD5lOlewPnUqWLA+hRpZsD6VClqwPqT6W7A+tOpcsD7E2l2wPtTKXrA+5LpfsD70qlCwTwSaUbBPFIpTsE8kcJkS7zRgXxPPREATE99UL9cD32QPmwPfc+9fA9+DzxMD75Ou1wPvo46bA++zbl8D78NOEwP/0y3XA//jDZsD//LqnB/wDIEhoMkIAqmcEBEYgSGSyQgSaJwQMhSBIYTJCCInnBBTEIkhZskIMeWcEHQcgRFYyQhBpJwQlRiBEUrJCFFjnBC2FIERPMkIYSKcENcQgREuyQhw4ZwQ//gcgQEQyRiAoJwRGRiBAQLJGJBvnAE6FIEA9MkYoC6cAVsciBLVJxA16EogbCyMQMkBGJGDgjES2gRiBWoI08nAAccSiBOdIwAnaEIQTyyMIH8BGFDvgj9Z5AyEIa8pCHREK6EMlIRCKxkZAsZBIWGclGPrKSjVQCJTF5yEty8pBLSFYRjHAEIxRhWZ/sJBFTeUgmEOEIsIzlEZTFykJ6spZNkKUuk1VLQt6SlboMJhF6+YRfpjKYuySmMT+JTFkOs5fL5GQzY/nMWkYTk9OEZTVZec1KOmGavITmKon5hFcKM5zWHCcxRUlKU6JSnEAkpzwj6aB52vOe+MynPvfJuM9++vOfAA2oQAdK0IIa9KCVvBBC6anOhTqyoQ41ZDcROtGDVtSgFy1oRgm60YF2VKAfDWhIATrSf5bUnyftJxZXytKWuvSlMI2pTGdK05ra9KY4zalOd8rTnvr0p0ANqlCHStSiGvWoSE2qUpfK1KY69alQjapUp0rVqlr1qljNqla3ytWuevWrYA2rWMdK1rKa9axoTata18rWtrr1rXCNq1znSte62vWueM2rXvfK17769a85CQgAIfkEAQAAXAAsFwGtADYAjgCG/////v7+/v79/v39/fz7/fz6/fv6/fv5/Pr4/Pn3+/j1+/j0+/fz+vby+vXx+fTv+fTu+PLs+PLr+PHr9/Dp9/Do9+/o9u/n9u7m9u7l9u3l9e3k9ezj9evi9Org9Orf8+ne8+jd8ufc8uba8ubZ8eXY8eTX8OPW8OLU7+HT7+HS7+DR7t/P7t7O7t7N7d3N7d3M7dzL7NvK7NvJ7NrI69nH69nG69jF6tfE6tfD6tbC6dXB6dS/6NO+6NO96NK859G759C55tC55s+45s+35c625c215c205cyz5MyzyphlnoyhiIbAgYTLPS4eOCocNCcaLyMXKiAVJRwSIBgQGxQNFhELEg0JDQoGCAYEAwIBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACP8AuQgcSLCgwYMDCSBcyLChw4EIHkqc2HABxYsYBTrIyFFihI4gGVIISdJghpIoBXZIiRIEy5IjXpI0ITNkipogWeDsGGMnRxo+M+IIinEH0Ys+jlIUonSikaYDkTBUAlUgkalVuQDBWrUHV6g6vja1IVapjLJHXaAlumJtUBRufZaIu1MEXZwe7tbkoFfmhb4vJwBmCWFwygaGUSpIXNIAY5ICHocEMDVAVcoLlRS4PDUB58wMPiNU8kD0QSUSTBtUYkF1QSUbXBNUkhcq5tEhZA9UQkK3QCUnfHNR0tb21BbClZw1nrlG8hzJeST/kXxI8iOXn2a+bH27beremwL/kB5eKQDo5Y8CcJ6eKICe7YMCQB7fJwAVkjsCCF5/J4De/eEEQG4B1gRAbaNdpkF+HAFQAYMZAfBRgTIBUBqFLwEQGoYsAeAZhykBsBmIKAFw22mXnbjaALap+NoBLU61mHguzoYYjVMVhmNmgu04GgYxZsaXj6d9EORodhG52lxKvgZXk7MVZ16Nu71w5GkzXLnaDVq+FhaUu3kF5m9bjTncVWYqkUSLRWRGFY1BuNliUqO9OaVRdbY4VJ40AsXnlDDIGaGJF22xhROCTmToFiZSuZChTyQq0aKNFroFFJI+RCmhFBkahRKgLsFEE0wsMZydkxpaaadbSAEqQU3Ejvoqq4xyqugWU6AqUKxN6OrQpo4iZCgVCPFqaa3BHmRoFcXGeuyqt1rRbBPP2prqFdNWm6xBhmKRLa3QppqFr7z62hCwGG2hxay7ymouQ+haCqoSopJqKrupIpsVt4bu21C4/sbrr0ACD1xwwKpai7C+AxOc8LZEHbyvxFlRXJXFUGHclMZKcXyUxxEbGhAAIfkEAQAAVQAsGAGtADUAjgCG/////v7+/v39/fz7/fz6/fv5/Pr4/Pn3+/j1+/j0+/fz+vby+vXx+fTv+fTu+PPt+PLs+PHr9/Dp9/Do9+/o9u/n9u7m9u7l9e3k9ezj9evi9Org9Orf8+ne8+jd8ufc8uba8ubZ8eXY8eTX8OPW8OLU8OLT7+HS7+DR7t/Q7t7O7t7N7d3N7d3M7dzL7NvK7NvJ7NrI69nH69jF6tfE6tfD6tbC6dXB6dS/6NO+6NO96NK859G759C55s+45s+35c625c215cyz5MyzyphlnoyhiIbAgYTLEw4JEg0JEAwIDgsHDQoGCwgFCgcFCAYEBwUDBQQCAwIBAgEBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACP8AqwgcSLCgwYMCAyBcyLChQ4ECHkqcyHAAxYsYqxDIyPFhgY4gFxoISbLggZIoqyBIWTIBS5IKXoZcIBMkg5odG+Dk6GBnxgc+MUIIejECUYoSjk6koFSihaYCiTC8ALWK1IUYql5FmEErQw1eF24Ii5AD2YMdzhr0oLbgh7YEQcAdGGKuQBF2q4zISyJvibwm8p7IiyJvirwq8rLI6wIA1K0HXzhuCtkgjMlKKxeMgfmoZoIyOhP9PHCG6KCkBdI47TN1lRqsd7q2ERun6xu1a7rGkVum6xy9X7rWEZyl6x3FU7rmkRyl6x7NS7r2EZ2k6x/VQ7oGkh2k6yDdO7r/HhKeoxDX5TMGQQ8VCPumP94r9SH/aI/6RHngD7pjv08d/u2UQ4A44UBgTTccKJMNCr5UQ4Ms0QBhSjNMiJIMFpYUQ4YkwcBhSC98CFILIna0AnrpXaQCik2lwKJSKLx41AkyEmVCjUGVgKNPJOy40wg+4iRCkDWFQKRMIBz50gdKsuRBkyl1ACVKHExZ0gZWkqRBliFlwCVIGHzZkQViclQBEakBkCJFE6C5kJpNSeAmQnAqFcGcB9V5FAR4GqQnUQ/0WdCfQTkgKEGETkQFFRchcehAi2KkZqQUJfGoQJRSNCmjFClxaRWZTrTpRUu4WYQRR1RRhJuhSjQqRUygkXlEqgSh2epDr07UBBGzHkTErQ7lKpETvSIEbEPCPvREsQcdy1CyDkHBrEHOvglAtQdFMW1B2OZ5LacTSbEtQd36+e1FU/BKa0G/givquRfJum5U7UoKL0Wmoqoqq+66em9Vg675UrlEQQtwFQYDnHBVC0PVcFMPKxXxURMX/O/BAlUclMY+cbyTxziBXJOaAQEAIfkEAQAAVQAsFgGtADUAjgCG/////v7+/v39/fz7/fz6/fv5/Pr4/Pn3+/j1+/j0+/fz+vby+vXx+fTv+fTu+PPt+PLs+PHr9/Dp9/Do9+/o9u/n9u7m9u7l9e3k9ezj9evi9Org9Orf8+ne8+jd8ufc8uba8ubZ8eXY8eTX8OPW8OLU8OLT7+HS7+DR7t/Q7t7O7t7N7d3N7d3M7dzL7NvK7NvJ7NrI69nH69jF6tfE6tfD6tbC6dXB6dS/6NO+6NO96NK859G759C55s+45s+35c625c215cyz5MyzyphlnoyhiIbAgYTLEw4JEg0JEAwIDgsHDQoGCwgFCgcFCAYEBwUDBQQCAwIBAgEBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACP8AqwgcSLBgwQAGCwJIyLChQ4MCHi58SLHiwAESLWp8SCDjxo8GC3gESbKKgZElPx5AmVIjApYtKyaAGfOhApo1Gy7AmTMhA549CzYAGnSgA6JFqzxAWhQC06ARnvaUIDUnhao1LWCNeWFrSwxeU2YIW1IDWZIbzoLkoPZjh7YbPcDV+GGuRRB2K4bIS1EE34cj/jokIbhhicIMTSBOeGKxQRSOC6aITFAF5YEsLgt0obnKi84wOsfoLKPzjM40OtfobKPzjc44OuforKPzjs48Ovfo7KPzj85AOgfpPKQzESINhUxM2vB4wyDLmSd0zhBIdOkFqSf8cR37QO0GfXT/914FfMEe472bJ8gjPfb1A3e4lw5foI75zOtXyYE/qX4c/RWl3w0BBqWfDQX2pF8NCeakHw0N1qTfDBHGpJ8MFbakXwwZpqQfDB2WpN8LIZKkXwslgqTfCil+pJ8KLW6kXwoxaqQfCjVapN8JOVaknwk9UqRfCUE+pB8JRTqk3whJNoccQyI0yZB+IUg53ZMJgWClQfp9sGV2WBrkwZcE6dcBmd+FWRAHaAqk3wZtlqcmQRrEqV8Gds45EAZ5NmRBnwxVAGhCEwxqkASGFhRBogRBwOhADzwqkAMdUkGFinoKhMSlHwEAgKWYNpQEpxt5CqqLmVahBKkamcqqjsgVnmHEEVUU4dwSr1bkKqZH0FomEUzkStGuLvY6XRPCSvRpsg4Zy5ATzDZE7EbOJvREtAxNq1G1BkGBbULaWsRtQVF8a1C4FY1LkBTmKrSsiuqWN0W7BKErJBHjHndqqe+iWuustTq3b6v9kqdrnBUNbLBD9i58bsEOSwtxxOBOTLG7Cl9cr8UaC9Swxh9fHDLFI0dcssMnL5yywSuT52lAACH5BAEAAAYALCoBrAAMAHwAgv///8qYZZ6MoYiGwIGEywAAAAAAAAAAAAi6AAMYGEiwIACBBRMeTKgQIcOBCx9CdPgwokSLFSkyxLhRY0OJE0Ea4PgRJEmDHlGKPEmQZUiTKVvGfHlx5kibLm+uxMlzp0+YP2sGzTi0Y9GSQoEqTcqU6FKnTY0+lRoVKdSrVLFazcpVociRXwGEHbuSrEmzF9FWVLuRrdeycM/GTTt3bd22d9/K3UuXr12/eAHr7Uv4b+HAhwcbXoyYseLGkBMW+DpZZGWQlyVmfriZYWfJlENbphwQACH5BAEAAFUALBUBrQA0AI4Ahv////7+/v79/f38+/38+v37+fz6+Pz59/v49fv49Pv38/r28vr18fn07/n07vjz7fjy7Pjx6/fw6ffw6Pfv6Pbv5/bu5vbu5fXt5PXs4/Xr4vTq4PTq3/Pp3vPo3fLn3PLm2vLm2fHl2PHk1/Dj1vDi1PDi0+/h0u/g0e7f0O7ezu7eze3dze3dzO3cy+zbyuzbyezayOvZx+vYxerXxOrXw+rWwunVwenUv+jTvujTvejSvOfRu+fQuebPuObPt+XOtuXNteXMs+TMs8qYZZ6MoYiGwIGEyxMOCRINCRAMCA4LBw0KBgsIBQoHBQgGBAcFAwUEAgMCAQIBAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAj/AKsIHEiwYMEABhMqXMiwoYCGECNKrDJgosWLAwlg3CixAMePDA2AHGnwAMmTAhGgPJlgJUkFLkcuiAmSAc2PDW5ydKBz44OeGCEAvRhhqEUJRidSSCrRAtOIF55CxCC1YYaqDDVgXbhhq0IOXhN2CGvQA9mCH84SBKF2YIi2AkXArTJiLom5JeaamHtiLoq5KeaqmMtirou5L+bCmBtjroy5M+bSmFtjro25N+bimJtjro65O+bymNtjro+5P+YCmRtk7pC5RBgKkRp7YeuntRWuxs0wNe+Fp38rLC084ejiBkMjL/h5OcHOzgduji4wM/Uql69Xvj75euTrj6837b6++Hri6y1oM1yhfuHg64Gv/73e9/re63mv371e97rc629dx9Z1aV1n1nVjXQfWdV1dp9V1V11H1XVOXVdBewpNgGFCSF1X1HVCXffTdTxtRMVGuSWExEYAnIhRigYlwaKLF8FYkBIzoihQEUYcYUQRtS2R44tVHGFQbEwMWaORCRHRhJIWMamQE1BOJGVCT1Qp0ZUGQaFlRFwWFMWXEIVJkBRkNkSEmVUQMUWaDMUWZmw0WtSijlXw6COQAtU50Z1tATBXFX6GBahah56VKFmLGlqoV41C+uhWkVI6KVaVYnppVZlyuqlUnYIaEAAh+QQBAABVACwVAawANACPAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGBBIgYJAkjIsKFDgwgbBnhIsSLBiAwFWNz4EGPCARxDJvRokIDIkwNJFiyAEqVKggZannw58IBMkTQFIrgZMmeVBDw5+lQQdKPPBUUt+mSQtKLPBk0p+nQQtaPDB1Ud+oSQtaHPCF0Z+pQQdqRDCmUhOrSQ9qDDC20vOsQQN6XDDHUF+tSQt4rPDX19cgjssAPhhh4OM/ygOCGIxgZDQC4oYjLBEZYHksgssATnKiY+n/iM4nOKzyo+s/js4vOLzzA+x/gs4/OMzzQ+1/hs4/ONzzg+5/is4/OOzzw+9/js4/OPz0A+B/k8pK8QrX2ne+0bfXve597rNv8PH3c5+bbJz6c9rr5s8fZhh8PvGnx+1t/2q/bOH3U3/6a5/ZfUbQIWVVuBQc2GIE+xLXjTaw7K1AJ2ea1AYV2pRdjSaRqiVFqHJ40GokihjRiSZyZytFmKG2HGokWVvViRZDJS9FiNDzGGo0OJ7diQYT4yNFiQCQFGpEF8HVkQXkoSRFeTA7EFpUAVXBjXBFa2RdaUVYDFJVdcYsUlVRouJBISWVpEhZkhJZFmRWuepMSbFMUp0hJ6FWHEEUYUoddJdobEhF8GHUGoSIFy1ARNR/jUUKIbOeGQoYiyydETkwJq6UZQZFrpSVF4GhKkFkkhKkekVjQFo44ylGqdhxI9ZGirCb36EBV57tnnn5/29aivD20K7EC2+lpsX8fmlWxdy8bVbFvPphVtWdOGVW1X12aVbVXbRtVtU1QEBAAh+QQBAAAGACwVAa0ANACOAIL////KmGWejKGIhsCBhMsAAAAAAAAAAAAI/wANCBxIsKDBgwMBIFzIsKFDAwofSpyIMCLFixQtYtzYUCPHjwY9ghwJkaRJgSJPbkyp8iLLlhNfwnwoc2ZHmxxr4qy4E6POngV/Ak04NGZRiUKLJh26FGjTnk93RsU51WbVmVdhZm25VWXXk19NhiU5dmRZkGc/ps15lGZbh2tXvr05d2Fcn3Xt5uW5N2Rfv38J3nUZWHBhoodLJh6cMbHiw4yNLnYcGSnltwEYVhaYWW/bznyPgj642cBowKI1Y1b9mXVqz69DFz0ddDXs2a5x3x5K23Dr3UB7I45N2rZs3rmRA+8pHKXx4r+PB08+ffnO5o91S2dOnbt1nNhLh79/jlo7dOLllW+/3p39d5vjo583n776evDt8b+fGR99bfn1eXcffPk1VMBG2B3ok4IXJbgSgxQ5uCCCAgkwAAEDCNAZhDFxKFFmBBiUmYc0kehQACEeFICJHbHIUIoIuWiXjAjBeBCNpOFokI0G6RiUjwTxWBCQCREpkJAEGQmRkigitOKDFAo5IpQYdWYhhhoKpCQASlrlmAFdYhWmVmNyVaZXZ4KVplhrktWmWW+iFadac+ZUJ5WFcbnYnT4FBAAh+QQBAABVACwUAa0ANACOAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGDBAAYTKlzIsKGAhhAjSqwyYKLFiwMJYNwosQDHjwwNgBxp8ADJkwIRoDyZYCVJBS5HLogJkgHNjw1ucnSgc+ODnhghAL0YYahFCUYnUkgq0QLTiBeeQsQgtWGGqgw1YF24YatCDl4Tdghr0APZgh/OEgShdmCItgJFwK0yYi6JuSXmmph7Yi6KuSnmqpjLYq6LuS/mwpgbY66MuTPm0phbY66NuTfm4pibY66OuTvm8pjbY66PuT/mApkbZO6QuUQYCpEae2Hrp7UVrsbNMDXvhad/KywtPOHo4gZDIy/4eTnBzs4Hbo4uMDP1KpevV74++Xrk64+vN+2+vvh64ustaDNcoX7h4OuBr/+93vf63ut5r9+9Xve63OtvXcfWdWldZ9Z1Y10H1nVdXafVdVddR9V1Tl1XQXsKTYBhQkhdV9R1Ql3303U8bUTFRrklhMRGAJyIUYoGJcGiixfBWJASM6IoUBFGHGFEEbUtkeOLVRxhUGxMDFmjkQkR0YSSFjGpkBNQTiRlQk9UKdGVBkGhZURcFhTFlxCFSZAUZDZEhJlVEDFFmgzFFmZsNFrUoo5V8OgjkALVOdGdbQEwVxV+hgWoWoeelShZixpaqFeNQvroVpFSOilWlWJ6aVWZcrqpVJ2CGhAAIfkEAQAABgAsFAGtADQAjgCC////yphlnoyhiIbAgYTLAAAAAAAAAAAACP8ADQgcSLBgQQAGEypcyLAhwoYQI0p8KLGiRYIUL2qMmHGjR4UdP4ocGHKkyJImPaJMqXElS4suX06UOTImTYc3P9rMCZLnxp0+Dwa9CHSowKJGkQ5VGpSpT6c8oeaUepMqTasysb7UypJrSq8mwdY0WlHsSbIz0UI0q1PtWrc44S5kq1LuXLs98Rqk+1PvXr9CAZMUPJiwAb4tDR9WjJgo48eGG8OETFhyWYYB3LrMrHazZsyfF3JG67kzaNOiQyscTbY06dOvU6NerToh66SwW+fGLTs27dm2axu8vXR38d66kfP+7Ts48OHCCxJvapy68uPMk2df7rw59OfSoxOrnP60evnr1rdj766dPffv3sODHy9+IPmo5vGjP68+vfv18DmmUQH5MVSAUwTu19CBGyXYH0QMDihQAAIMQMAAAkzYIIIGEEdAhxs2SB4B9xnI4UIfDniiQileFKGLDLVo0YszxhiihCje6OKIJS5EY0UEegiiig1OWOGFGQ7pomUROViZYT/qFSVeU9pVpVxXwpWlW1uq1SVaX5IVplFjDlVmUGf6lCZPBQQEACH5BAEAAFUALBQBrQA0AI4Ahv////7+/v79/f38+/38+v37+fz6+Pz59/v49fv49Pv38/r28vr18fn07/n07vjz7fjy7Pjx6/fw6ffw6Pfv6Pbv5/bu5vbu5fXt5PXs4/Xr4vTq4PTq3/Pp3vPo3fLn3PLm2vLm2fHl2PHk1/Dj1vDi1PDi0+/h0u/g0e7f0O7ezu7eze3dze3dzO3cy+zbyuzbyezayOvZx+vYxerXxOrXw+rWwunVwenUv+jTvujTvejSvOfRu+fQuebPuObPt+XOtuXNteXMs+TMs8qYZZ6MoYiGwIGEyxMOCRINCRAMCA4LBw0KBgsIBQoHBQgGBAcFAwUEAgMCAQIBAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAj/AKsIHEiwYMEABhMqXMiwoYCGECNKrDJgosWLAwlg3CixAMePDA2AHGnwAMmTAhGgPJlgJUkFLkcuiAmSAc2PDW5ydKBz44OeGCEAvRhhqEUJRidSSCrRAtOIF55CxCC1YYaqDDVgXbhhq0IOXhN2CGvQA9mCH84SBKF2YIi2AkXArTJiLom5JeaamHtiLoq5KeaqmMtirou5L+bCmBtjroy5M+bSmFtjro25N+bimJtjro65O+bymNtjro+5P+YCmRtk7pC5RBgKkRp7YeuntRWuxs0wNe+Fp38rLC084ejiBkMjL/h5OcHOzgduji4wM/Uql69Xvj75euTrj6837b6++Hri6y1oM1yhfuHg64Gv/73e9/re63mv371e97rc629dx9Z1aV1n1nVjXQfWdV1dp9V1V11H1XVOXVdBewpNgGFCSF1X1HVCXffTdTxtRMVGuSWExEYAnIhRigYlwaKLF8FYkBIzoihQEUYcYUQRtS2R44tVHGFQbEwMWaORCRHRhJIWMamQE1BOJGVCT1Qp0ZUGQaFlRFwWFMWXEIVJkBRkNkSEmVUQMUWaDMUWZmw0WtSijlXw6COQAtU50Z1tATBXFX6GBahah56VKFmLGlqoV41C+uhWkVI6KVaVYnppVZlyuqlUnYIaEAAh+QQBAABVACwUAawANACPAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGBBIgYJAkjIsKFDgwgbBnhIsSLBiAwFWNz4EGPCARxDJvRokIDIkwNJFiyAEqVKggZannw58IBMkTQFIrgZMmeVBDw5+lQQdKPPBUUt+mSQtKLPBk0p+nQQtaPDB1Ud+oSQtaHPCF0Z+pQQdqRDCmUhOrSQ9qDDC20vOsQQN6XDDHUF+tSQt4rPDX19cgjssAPhhh4OM/ygOCGIxgZDQC4oYjLBEZYHksgssATnKiY+n/iM4nOKzyo+s/js4vOLzzA+x/gs4/OMzzQ+1/hs4/ONzzg+5/is4/OOzzw+9/js4/OPz0A+B/k8pK8QrX2ne+0bfXve597rNv8PH3c5+bbJz6c9rr5s8fZhh8PvGnx+1t/2q/bOH3U3/6a5/ZfUbQIWVVuBQc2GIE+xLXjTaw7K1AJ2ea1AYV2pRdjSaRqiVFqHJ40GokihjRiSZyZytFmKG2HGokWVvViRZDJS9FiNDzGGo0OJ7diQYT4yNFiQCQFGpEF8HVkQXkoSRFeTA7EFpUAVXBjXBFa2RdaUVYDFJVdcYsUlVRouJBISWVpEhZkhJZFmRWuepMSbFMUp0hJ6FWHEEUYUoddJdobEhF8GHUGoSIFy1ARNR/jUUKIbOeGQoYiyydETkwJq6UZQZFrpSVF4GhKkFkkhKkekVjQFo44ylGqdhxI9ZGirCb36EBV57tnnn5/29aivD20K7EC2+lpsX8fmlWxdy8bVbFvPphVtWdOGVW1X12aVbVXbRtVtU1QEBAAh+QQBAABVACwUAawANACPAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGBBAAYJEknIsKFDgwEcLnxIseJAARItanw4IOPGjwYJeARJskqBkSU/GkCZUuMBli0rIoAZ82ECmjUbKsCZM+ECnj0LMgAadGADokWrOEBa9AHToBCe9owgNaeEqjUpYI1pYWvLC15TYghbMgNZkhrOgtyg9iOHths7wNXoYa7FD3YrgshLMQTfhyL+OhwhuCGJwgxLIE5oYrHBE44LoohMMAXlgSouC2ShuYqLzi86w+gco7OMzjM60+hco7ONzjc64+ico7OOzjs68+jco7OPzj86A+kcpPOQzhMZCkn6MHnC4swbOjc4PDrD6QWDW0+IneDv7Qa7D//sDb6geIG7yyt0mFv9wPNVbrsXCL/2/CrwZ9+HH3u/w9f+NdRagAytRmBCqR1o0GkKFlRagwSNBuFAoU0oUAv34efQChnCl5mFVVgG4mQgQgZiYyAqBuJhIBIGYmAg+gXiXiDiBWJdIMoF4lsgsgViWiCaBeJYIHYFYgUdOjRBkg1dBSJVIEYFolMgLkUSFSTBhwRJAGAJEnxJcOnlR/ApIWaWAhVhxBFGFDHREmd+WcUR4VXBRJxk0sldE3hupCdDTvSp0Z8JPSGoRYQaBMWhFSVaUBSMUuQoQVJE2tyk+E1haUaOLjTmRl2iWYWabLop0KcahZphQwit6hCqrg4qpGqsB8FK66y0ymprrLjmWkWvuQJ7666uCssrsasaWyyyGSqbLLP3ARAQACH5BAEAAAYALCgBrAAMAHwAgv///8qYZZ6MoYiGwIGEywAAAAAAAAAAAAi6AAMYGEiwIACBBRMeTKgQIcOBCx9CdPgwokSLFSkyxLhRY0OJE0Ea4PgRJEmDHlGKPEmQZUiTKVvGfHlx5kibLm+uxMlzp0+YP2sGzTi0Y9GSQoEqTcqU6FKnTY0+lRoVKdSrVLFazcpVociRXwGEHbuSrEmzF9FWVLuRrdeycM/GTTt3bd22d9/K3UuXr12/eAHr7Uv4b+HAhwcbXoyYseLGkBMW+DpZZGWQlyVmfriZYWfJlENbphwQACH5BAEAAFAALCgBrQAMAH0Ahv////7+/v79/f38+/38+v37+fz6+Pz59/v49fv49Pv38/r28vr18fn07/n07vjz7fjy7Pjx6/fw6ffw6Pfv6Pbv5/bu5vbu5fXt5PXs4/Xr4vTq4PTq3/Pp3vPo3fLn3PLm2vLm2fHl2PHk1/Dj1vDi1PDi0+/h0u/g0e7f0O7ezu7eze3dze3dzO3cy+zbyuzbyezayOvZx+vYxerXxOrXw+rWwunVwenUv+jTvujTvejSvOfRu+fQuebPuObPt+XOtuXNteXMs+TMs8qYZZ6MoYiGwIGEyxMOCRINCRAMCA4LBw0KBgsIBQIBAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAj/AKEIHEgQSoCCCAUgLDhgIUECDgcWiCjQAEUoBy4iuJjgooKLCy4yuNjgooOLDy5CuBjhooSLFC5auHjhIoaLGS5quLjhIoeLHS56uPjhIoiLIS6KuDjiIomLJS6auHjiIoqLKS6quMjioouLLy7CuBjjooyLMy7SuFjjoo2LNy7iuJjjoo6LOy7yuNjjoo+LPy4CuRjk4hAhFIkUjkhkMOPAjP8y7st4L+O8jO8yrst4LuO4jN8ybst4LeO0jM8yLst4LOOwjFskXpF4K+OsjK8yrsp4KuOojJ8ybsp4KeOkjI8yLsp4KOOgjH8y7sl4J+OcjG8ynsm4QuIJiV8yJW7JeCXjlIxPMkaSOEliJYmXJGaSuEnii0Tw67+f2EniJ/8lFhAAIfkEAQAABgAsKAGtAAwAfQCC////yphlnoyhiIbAgYTLAAAAAAAAAAAACLoADQgcSNAAgIIIDyIkqHChwIYOIS6UmNDhQIoFMTK0+JCjQY8aL4IcyTFkx5IkLZr8iLKlypQRYU6UWdFlTJszcdZ8qTMjTZ89NwYVOfQkz6M3keZUujOp06VPm0KdGKBkVZVXI2alarUrVq9awXL9SjZs2bFm06Jdm3BrW7Fvz8ZVO5dtRrd34eaVu5duX7sM8QbWO5hvYb+HAV8UvJhjAcYCHzuGbECyRcsOC3jU7Hiz58mgL1MuEBAAIfkEAQAAVQAsEwGtADQAjgCG/////v7+/v39/fz7/fz6/fv5/Pr4/Pn3+/j1+/j0+/fz+vby+vXx+fTv+fTu+PPt+PLs+PHr9/Dp9/Do9+/o9u/n9u7m9u7l9e3k9ezj9evi9Org9Orf8+ne8+jd8ufc8uba8ubZ8eXY8eTX8OPW8OLU8OLT7+HS7+DR7t/Q7t7O7t7N7d3N7d3M7dzL7NvK7NvJ7NrI69nH69jF6tfE6tfD6tbC6dXB6dS/6NO+6NO96NK859G759C55s+45s+35c625c215cyz5MyzyphlnoyhiIbAgYTLEw4JEg0JEAwIDgsHDQoGCwgFCgcFCAYEBwUDBQQCAwIBAgEBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACP8AqwgcSLBgwQAGEypcyLChgIYQI0qsMmCixYsDCWDcKLEAx48MDYAcafAAyZMCEaA8mWAlSQUuRy6ICZIBzY8NbnJ0oHPjg54YIQC9GGGoRQlGJ1JIKtEC04gXnkLEILVhhqoMNWBduGGrQg5eE3YIa9AD2YIfzhIEoXZgiLYCRcCtMmIuibkl5pqYe2Iuirkp5qqYy2Kui7kv5sKYG2OujLkz5tKYW2Oujbk35uKYm2Oujrk75vKY22Ouj7k/5gKZG2TukLlEGAqRGnth66e1Fa7GzTA174WnfyssLTzh6OIGQyMv+Hk5wc7OB26OLjAz9SqXr1e+Pvl65OuPrzftvr74euLrLWgzXKF+4eDrga//vd73+t7rea/fvV73utzrb13H1nVpXWfWdWNdB9Z1XV2n1XVXXUfVdU5dV0F7Ck2AYUJIXVfUdUJd99N1PG1ExUa5JYTERgCciFGKBiXBoosXwViQEjOiKFARRhxhRBG1LZHji1UcYVBsTAxZo5EJEdGEkhYxqZATUE4kZUJPVCnRlQZBoWVEXBYUxZcQhUmQFGQ2RISZVRAxRZoMxRZmbDRa1KKOVfDoI5AC1TnRnW0BMFcVfoYFqFqHnpUoWYsaWqhXjUL66FaRUjopVpViemlVmXK6qVSdghoQACH5BAEAAAYALBMBrQA0AI4Agv///8qYZZ6MoYiGwIGEywAAAAAAAAAAAAj/AA0IHEiwYEEABhMqXMiwIcKGECNKfCixokWCFC9qjJhxo0eFHT+KHBhypMiSJj2iTKlxJUuLLl9OlDkyJk2HNz/azAmS58adPg8GvQh0qMCiRpEOVRqUqU+nPKHmlHqTKk2rMrG+1MqSa0qvJsHWNFpR7EmyM9FCNKtT7Vq3OOEuZKtS7ly7PfEapPtT716/QgGTFDyYsAG+LQ0fVoyYKOPHhhvDhExYclmGAdy6zKx2s2bMnxdyRuu5M2jTokMrHE22NOnTr1OjXq06IeuksFvnxi07Nu3ZtmsbvL10d/HeupHz/u07OPDhwgsSb2qcuvLjzJNnX+68OfTn0qMTq5z+tHr569a3Y++unT33797Dgx8vfiD5qObxoz+vPr379fA5plEB+TFUgFME7tfQgRsl2B9EDA4oUAACDEDAAAJM2CCCBhBHQIcbNkgeAfcZyOFCHw54okIpXhShiwy1aNGLM8YYooQo3ujiiCUuRGNFBHoIoooNTljhhRkO6aJlETlYmWE/6hUlXlPaVaVcV8KVpVtbqtUlWl+SFaZRYw5VZlBn+pQmTwUEBAAh+QQBAABVACwTAa0ANACOAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGDBAAYTKlzIsKGAhhAjSqwyYKLFiwMJYNwosQDHjwwNgBxp8ADJkwIRoDyZYCVJBS5HLogJkgHNjw1ucnSgc+ODnhghAL0YYahFCUYnUkgq0QLTiBeeQsQgtWGGqgw1YF24YatCDl4Tdghr0APZgh/OEgShdmCItgJFwK0yYi6JuSXmmph7Yi6KuSnmqpjLYq6LuS/mwpgbY66MuTPm0phbY66NuTfm4pibY66OuTvm8pjbY66PuT/mApkbZO6QuUQYCpEae2Hrp7UVrsbNMDXvhad/KywtPOHo4gZDIy/4eTnBzs4Hbo4uMDP1KpevV74++Xrk64+vN+2+vvh64ustaDNcoX7h4OuBr/+93vf63ut5r9+9Xve63OtvXcfWdWldZ9Z1Y10H1nVdXafVdVddR9V1Tl1XQXsKTYBhQkhdV9R1Ql3303U8bUTFRrklhMRGAJyIUYoGJcGiixfBWJASM6IoUBFGHGFEEbUtkeOLVRxhUGxMDFmjkQkR0YSSFjGpkBNQTiRlQk9UKdGVBkGhZURcFhTFlxCFSZAUZDZEhJlVEDFFmgzFFmZsNFrUoo5V8OgjkALVOdGdbQEwVxV+hgWoWoeelShZixpaqFeNQvroVpFSOilWlWJ6aVWZcrqpVJ2CGhAAIfkEAQAAVQAsEwGsADQAjwCG/////v7+/v39/fz7/fz6/fv5/Pr4/Pn3+/j1+/j0+/fz+vby+vXx+fTv+fTu+PPt+PLs+PHr9/Dp9/Do9+/o9u/n9u7m9u7l9e3k9ezj9evi9Org9Orf8+ne8+jd8ufc8uba8ubZ8eXY8eTX8OPW8OLU8OLT7+HS7+DR7t/Q7t7O7t7N7d3N7d3M7dzL7NvK7NvJ7NrI69nH69jF6tfE6tfD6tbC6dXB6dS/6NO+6NO96NK859G759C55s+45s+35c625c215cyz5MyzyphlnoyhiIbAgYTLEw4JEg0JEAwIDgsHDQoGCwgFCgcFCAYEBwUDBQQCAwIBAgEBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACP8AqwgcSLBgQSIGCQJIyLChQ4MIGwZ4SLEiwYgMBVjc+BBjwgEcQyb0aJCAyJMDSRYsgBKlSoIGWp58OfCATJE0BSK4GTJnlQQ8OfpUEHSjzwVFLfpkkLSizwZNKfp0ELWjwwdVHfqEkLWhzwhdGfqUEHakQwplITq0kPagwwttLzrEEDelwwx1BfrUkLeKzw19fXII7LAD4YYeDjP8oDghiMYGQ0AuKGIywRGWB5LILLAE5yomPp/4jOJzis8qPrP47OLzi88wPsf4LOPzjM80Ptf4bOPzjc84Puf4rOPzjs88Pvf47OPzj89APgf5PKSvEK19p3vtG3173ufe6zb/Dx93Ofm2yc+nPa6+bPH2YYfD7xp8ftbf9qv2zh91N/+muf2X1G0CFlVbgUHNhiBPsS1402sOytQCdnmtQGFdqUXY0mkaolRahyeNBqJIoY0YkmcmcrRZihthxqJFlb1YkWQyUvRYjQ8xhqNDie3YkGE+MjRYkAkBRqRBfB1ZEF5KEkRXkwOxBaVAFVwY1wRWtkXWlFWAxSVXXGLFJVUaLiQSEllaRIWZISWRZkVrnqTEmxTFKdISehVhxBFGFKHXSXaGxIRfBh1BqEiBctQETUf41FCiGznhkKGIssnRE5MCaulGUGRa6UlReBoSpBZJISpHpFY0BaOOMpRqnYcSPWRoqwm9+hAVee7Z55+f9vWorw9tCuxAtvpabF/H5pVsXcvG1Wxbz6YVbVnThlVtV9dmlW1V20bVbVNUBAQAIfkEAQAABgAsJwGsAAwAfACC////yphlnoyhiIbAgYTLAAAAAAAAAAAACLgAARgYSLBgAIEFEx5MqBAhw4ELH0J0+DCiRIsVKTLEuFFjQ4kTQRrg+BEkSYMeUYo8SZBlSJMpW8Z8eXHmSJsub67EyXOnT5g/awbNOLRj0ZJCgSpNypToUqdNjT6VGhUp1KtUsVrNynUrQ5sGwIoVGZbsWJFnQaaVuPZh269m46KVq5YuW7tu8cKdy7du37t/8wbe67cwYMOCERM+zDhx48UPC5CVLJIySMsSMUeezLly58ufJQYEACH5BAEAAFUALBMBrQA0AI4Ahv////7+/v79/f38+/38+v37+fz6+Pz59/v49fv49Pv38/r28vr18fn07/n07vjz7fjy7Pjx6/fw6ffw6Pfv6Pbv5/bu5vbu5fXt5PXs4/Xr4vTq4PTq3/Pp3vPo3fLn3PLm2vLm2fHl2PHk1/Dj1vDi1PDi0+/h0u/g0e7f0O7ezu7eze3dze3dzO3cy+zbyuzbyezayOvZx+vYxerXxOrXw+rWwunVwenUv+jTvujTvejSvOfRu+fQuebPuObPt+XOtuXNteXMs+TMs8qYZZ6MoYiGwIGEyxMOCRINCRAMCA4LBw0KBgsIBQoHBQgGBAcFAwUEAgMCAQIBAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAj/AKsIHEiwYMEABhMqXMiwoYCGECNKrDJgosWLAwlg3CixAMePDA2AHGnwAMmTAhGgPJlgJUkFLkcuiAmSAc2PDW5ydKBz44OeGCEAvRhhqEUJRidSSCrRAtOIF55CxCC1YYaqDDVgXbhhq0IOXhN2CGvQA9mCH84SBKF2YIi2AkXArTJiLom5JeaamHtiLoq5KeaqmMtirou5L+bCmBtjroy5M+bSmFtjro25N+bimJtjro65O+bymNtjro+5P+YCmRtk7pC5RBgKkRp7YeuntRWuxs0wNe+Fp38rLC084ejiBkMjL/h5OcHOzgduji4wM/Uql69Xvj75euTrj6837b6++Hri6y1oM1yhfuHg64Gv/73e9/re63mv371e97rc629dx9Z1aV1n1nVjXQfWdV1dp9V1V11H1XVOXVdBewpNgGFCSF1X1HVCXffTdTxtRMVGuSWExEYAnIhRigYlwaKLF8FYkBIzoihQEUYcYUQRtS2R44tVHGFQbEwMWaORCRHRhJIWMamQE1BOJGVCT1Qp0ZUGQaFlRFwWFMWXEIVJkBRkNkSEmVUQMUWaDMUWZmw0WtSijlXw6COQAtU50Z1tATBXFX6GBahah56VKFmLGlqoV41C+uhWkVI6KVaVYnppVZlyuqlUnYIaEAAh+QQBAABVACwTAawANACPAIb////+/v7+/f39/Pv9/Pr9+/n8+vj8+ff7+PX7+PT79/P69vL69fH59O/59O748+348uz48ev38On38Oj37+j27+f27ub27uX17eT17OP16+L06uD06t/z6d7z6N3y59zy5try5tnx5djx5Nfw49bw4tTw4tPv4dLv4NHu39Du3s7u3s3t3c3t3czt3Mvs28rs28ns2sjr2cfr2MXq18Tq18Pq1sLp1cHp1L/o077o073o0rzn0bvn0Lnmz7jmz7flzrblzbXlzLPkzLPKmGWejKGIhsCBhMsTDgkSDQkQDAgOCwcNCgYLCAUKBwUIBgQHBQMFBAIDAgECAQEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAI/wCrCBxIsGBBIgYJAkjIsKFDgwgbBnhIsSLBiAwFWNz4EGPCARxDJvRokIDIkwNJFiyAEqVKggZannw58IBMkTQFIrgZMmeVBDw5+lQQdKPPBUUt+mSQtKLPBk0p+nQQtaPDB1Ud+oSQtaHPCF0Z+pQQdqRDCmUhOrSQ9qDDC20vOsQQN6XDDHUF+tSQt4rPDX19cgjssAPhhh4OM/ygOCGIxgZDQC4oYjLBEZYHksgssATnKiY+n/iM4nOKzyo+s/js4vOLzzA+x/gs4/OMzzQ+1/hs4/ONzzg+5/is4/OOzzw+9/js4/OPz0A+B/k8pK8QrX2ne+0bfXve597rNv8PH3c5+bbJz6c9rr5s8fZhh8PvGnx+1t/2q/bOH3U3/6a5/ZfUbQIWVVuBQc2GIE+xLXjTaw7K1AJ2ea1AYV2pRdjSaRqiVFqHJ40GokihjRiSZyZytFmKG2HGokWVvViRZDJS9FiNDzGGo0OJ7diQYT4yNFiQCQFGpEF8HVkQXkoSRFeTA7EFpUAVXBjXBFa2RdaUVYDFJVdcYsUlVRouJBISWVpEhZkhJZFmRWuepMSbFMUp0hJ6FWHEEUYUoddJdobEhF8GHUGoSIFy1ARNR/jUUKIbOeGQoYiyydETkwJq6UZQZFrpSVF4GhKkFkkhKkekVjQFo44ylGqdhxI9ZGirCb36EBV57tnnn5/29aivD20K7EC2+lpsX8fmlWxdy8bVbFvPphVtWdOGVW1X12aVbVXbRtVtU1QEBAAh+QQBAAAGACwTAa0ANACOAIL////KmGWejKGIhsCBhMsAAAAAAAAAAAAI/wANCBxIsKDBgwMBIFzIsKFDAwofSpyIMCLFixQtYtzYUCPHjwY9ghwJkaRJgSJPbkyp8iLLlhNfwnwoc2ZHmxxr4qy4E6POngV/Ak04NGZRiUKLJh26FGjTnk93RsU51WbVmVdhZm25VWXXk19NhiU5dmRZkGc/ps15lGZbh2tXvr05d2Fcn3Xt5uW5N2Rfv38J3nUZWHBhoodLJh6cMbHiw4yNLnYcGSnltwEYVhaYWW/bznyPgj642cBowKI1Y1b9mXVqz69DFz0ddDXs2a5x3x5K23Dr3UB7I45N2rZs3rmRA+8pHKXx4r+PB08+ffnO5o91S2dOnbt1nNhLh79/jlo7dOLllW+/3p39d5vjo583n776evDt8b+fGR99bfn1eXcffPk1VMBG2B3ok4IXJbgSgxQ5uCCCAgkwAAEDCNAZhDFxKFFmBBiUmYc0kehQACEeFICJHbHIUIoIuWiXjAjBeBCNpOFokI0G6RiUjwTxWBCQCREpkJAEGQmRkigitOKDFAo5IpQYdWYhhhoKpCQASlrlmAFdYhWmVmNyVaZXZ4KVplhrktWmWW+iFadac+ZUJ5WFcbnYnT4FBAA7\"/>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import tensorflow_docs.vis.embed as embed\n",
    "embed.embed_file(image_file)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "id": "lnq9Hzo1Po6X"
   },
   "source": [
    "## 次のステップ\n",
    "\n",
    "このチュートリアルでは、TensorFlow を使って Actor-Critic 法を実装する方法を説明しました。\n",
    "\n",
    "次のステップでは、Gym の別の環境でモデルをトレーニングしてみるとよいでしょう。\n",
    "\n",
    "Actor-Critic 法と Cartpole-v0 問題に関するその他の詳細については、以下のリソースをご覧ください。\n",
    "\n",
    "- [Actor-Critic 法](https://hal.inria.fr/hal-00840470/document)\n",
    "- [Actor-Critic に関する講義（CAL）](https://www.youtube.com/watch?v=EKqxumCuAAY&list=PLkFD6_40KJIwhWJpGazJ9VSj9CFMkb79A&index=7&t=0s)\n",
    "- [Cart Pole learning control problem [Barto, et al. 1983]](http://www.derongliu.org/adp/adp-cdrom/Barto1983.pdf)\n",
    "\n",
    "TenSorFlow における強化学習のその他の例については、次のリソースをご覧ください。\n",
    "\n",
    "- [強化学習のコードサンプル（keras.io）](https://keras.io/examples/rl/)\n",
    "- [TF-Agents の強化学習用ライブラリ](https://www.tensorflow.org/agents)\n"
   ]
  }
 ],
 "metadata": {
  "colab": {
   "collapsed_sections": [
    "_jQ1tEQCxwRx"
   ],
   "name": "actor_critic.ipynb",
   "toc_visible": true
  },
  "kernelspec": {
   "display_name": "Python 3",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.18"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 0
}